他们目前的成功和增长得益于人工智能的应用,但从长远来看,不可持续的成本和可行的替代方案可能会让企业望而却步。
生成式人工智能正在蓬勃发展,并且将继续蓬勃发展。因此,本地和公共云提供商都看到了对其人工智能产品的需求激增,这种趋势至少在未来五年内可能会持续下去。
当然,云是企业对 AI 感兴趣的核心优势。然而,这种增长势头可能不会像许多人认为的那样持续下去。首席信息官和首席财务官经常大声抱怨云费用出乎意料地高——比他们预期的要贵 2.5 倍。随着云 AI 的出现,他们担心未来可能会出现更大、甚至更不可预测的云账单。每个人都想找到具有成本效益的替代方案。
人工智能的真正机会可能并不在公共云中,至少不是它们目前的定位。尽管公共云提供商已经奠定了基础并宣称他们已经为人工智能做好准备,但如果他们仍然对客户的担忧和市场变化充耳不闻,他们就有可能失去他们帮助创建的市场。
人工智能系统的高成本
AI 工作负载成本高昂。对于涉及大型语言模型和其他计算密集型系统的工作负载尤其如此。训练一个高级 AI 模型可能要花费数千万美元,并且还需要持续的微调、再训练和推理成本。公共云提供商拥有处理这些任务的庞大基础设施,但对于许多企业来说,其价格越来越难以承受。
随着企业从 AI 的实验和培训阶段进入生产规模推理阶段,财务成本开始超过收益。
云计算提供可预测的经济效益,包括按使用量付费和按需弹性。随着 AI 用例在整个组织中增长和扩展,当公司全天候使用数百或数千个 GPU 或 AI 所需的其他资源时,这些可预测的经济效益很快就会失去光彩。这并不是说公司看不到使用公共云提供商的好处;而是成本和收益之间的差距越来越大。
进一步加剧这一问题的是,全球能源成本不断上升,同时人工智能系统对训练、冷却和部署所需的电力需求也不断增加。IDC的一份报告显示,2024 年上半年,企业在人工智能部署的计算和存储硬件上的支出增长了 37%。值得注意的是,越来越多的支出被转移到公共云提供商之外。公共云仍然占据着早期人工智能投资的最大份额。IDC 估计,2024 年上半年,云和共享环境中支持人工智能的系统占人工智能服务器支出的 65%。然而,随着企业转向大规模部署人工智能,大多数企业发现坚持使用超大规模系统并不划算。
主机托管和微云的兴起
一个新的 AI 基础设施提供商生态系统已经出现,以填补公共云在成本竞争力方面日益扩大的差距。主机托管服务、GPU 即服务专家和混合云提供商为企业提供了极具吸引力的中间地带。这些替代方案使企业能够更好地控制其 AI 工作负载,同时避免在公共云上运行这些系统所产生的高昂费用。
CoreWeave 和 Foundry 是 GPU 即服务市场的两家新贵。这些公司在 GPU 容量和按需付费模式方面投入巨资,可与超大规模企业相媲美。甚至像 Rackspace 这样的老牌公司也通过推出自己的 GPU 即服务产品加入这一行列,而主机托管提供商也看到了新的兴趣。
与传统公共云不同,这些方法通常是从头开始构建的,以满足现代 AI 基础设施的独特需求。这意味着高密度 GPU 配置、液体冷却系统和节能设计。更重要的是,它们允许企业转向所有权模式或共享资源,从而长期降低成本。
押注错误的商业模式
公共云提供商将自己定位为构建和部署 AI 工作负载的天然家园。自然而然,AWS re:Invent 2024 的重点再次放在了生成式 AI 以及 AWS 云如何支持生成式 AI 解决方案上。随着组织纷纷涌向超大规模计算平台来训练复杂模型并快速测试新用例,早期的 AI 实验和试点推动了云收入的短期飙升。
在公有云基础设施上训练 AI 模型是一回事,大规模部署这些系统又是另一回事。通过押注 AI,公有云供应商严重依赖基于消费的定价模型。是的,在云中启动资源很容易,但这种模型的漏洞越来越难以忽视。随着公司从实验转向生产,长期、GPU 密集的 AI 工作负载不会转化为成本效率。
讽刺的是,云提供商——他们帮助创造了当今的 AI 淘金热——正面临因定价过高而被市场淘汰的危险。他们努力吸引的用户发现,主机托管服务、GPU 即服务提供商 (microcloud) 和其他混合基础设施模型在成本、控制和灵活性之间提供了更可持续的平衡。如果公共云供应商不调整其业务模式来解决这些问题,他们就有可能被更适应 AI 独特需求和规模经济的参与者边缘化。
大多数时候,我都认为他们已经预见到了这一点,但后来我又开始怀疑。公共云供应商未能及时注意到市场上的其他重大变化,例如多云、finops以及现在的 AI 优化。人们很容易说“你无法在瞬间改变一艘远洋班轮”,但当你即将靠岸时,“全速前进”是正确的策略吗?