专注于数字技术的商业观察者
登录×
公司
2025-03-24

IaaS持续高增长,亚马逊云科技打造AI时代云基石

时间: 2025-03-24 编辑:

亚马逊首席执行官Andy Jassy在2025年2月的财报电话会议中透露,2025年亚马逊的资本投资预计将达1000亿美...

亚马逊首席执行官Andy Jassy在2025年2月的财报电话会议中透露,2025年亚马逊的资本投资预计将达1000亿美元,其中绝大部分将用于亚马逊云科技AI基础设施的建设,同时支持亚马逊云科技在全球范围内的技术基础设施扩展。

这一投资力度,不仅凸显了亚马逊云科技对AI时代的深远布局,也反映了全球云计算市场的加速演进。

事实上,随着企业数字化转型的深入,越来越多的组织选择将核心业务迁移至云端,以提升弹性、降低成本并加速创新。全球公有云基础设施即服务(IaaS)市场正经历前所未有的增长。

IDC最新发布的《2025年IDC MarketScape:全球公有云基础设施即服务(IaaS)报告》显示,全球公有云IaaS继续快速增长,预计2025年的整体规模将达到1880亿美元。这一增长主要受企业云化转型、云原生应用的发展以及人工智能(AI)等新兴技术的推动。作为云计算领域的“头部玩家”,亚马逊云科技凭借着在计算、存储、网络、安全及AI等多个层面持续创新,构建了业界领先的云基础设施,在能力和战略的双维度上均被评为“领导者”。

毫无疑问,AI技术的普及正在深刻影响公有云IaaS的发展——AI不仅推动了对GPU、TPU和FPGA等专用硬件的投资,还提升了基础设施的自动化管理能力,优化了资源调配,并加速了AI驱动的安全防护系统的发展。为此,企业在选择IaaS供应商时,需要考虑的不仅是成本因素,更包括服务集成度、互操作性以及安全性等多个关键维度。

“亚马逊云科技通过广泛的服务组合和持续的创新,在公有云IaaS市场中处于领导地位。广泛的全球基础设施,结合Amazon Graviton等定制芯片计划以及在AI领域的重大投资,使其在满足企业需求方面独具优势。”IDC分析师、报告作者Dave McCarthy认为,亚马逊云科技在可扩展性方面的卓越表现、成熟的开发者社区以及对AI基础设施的积极投入,使其成为需要先进云能力的企业的首选。

值得一提的是,作为全球公有云市场的开创者和引领者,亚马逊云科技自2006年成立以来,在计算、存储、网络及安全等核心基础设施领域不断扩展和创新。

“像许多人一样,我们对DeepSeek所做的事情印象深刻。很大一部分原因是他们的一些训练技术主要是强化训练的顺序颠倒,更早进行且没有人工干预,这在监督式微调之前是有趣的。”亚马逊云科技首席财务官布赖恩·T·奥尔萨夫斯基表示,亚马逊云科技致力于为客户提供多种前沿AI模型,以满足不同的工作负载需求,这也是亚马逊云科技迅速将DeepSeek引入Amazon Bedrock和Amazon SageMaker的原因。“如果您经营像亚马逊云科技这样的业务,并且像我们一样坚信几乎所有大型生成式AI应用程序都将使用多种模型类型,不同的客户将使用不同的模型来处理不同类型的工作负载,那么您将尽可能多地为客户提供领先的前沿模型供其选择,这就是Amazon Bedrock服务所做的事情。”

回顾亚马逊云科技的发展轨迹,我们不难发现,随着基础设施单位成本下降,企业反而愿意投入更多资金,探索原本因成本限制而搁置的项目。在AI领域,亚马逊云科技认为,类似趋势将发生,推理成本的大幅下降将推动生成式AI更广泛地融入企业应用。“我们希望通过降低推理成本,帮助客户更轻松地在其云基础设施上构建创新应用,从而惠及客户并促进自身业务增长。”

此外,亚马逊云科技以全球覆盖的规模提供创新的基础设施已经覆盖36个地理区域,包含114个可用区,并计划新增4个区域和12个可用区。为适应AI计算的需求,其数据中心架构也在不断升级。例如,亚马逊云科技正在优化电力和冷却系统,提升基础设施的可用性至99.9999%,并减少电气问题可能影响的机架数量达89%。此外,新一代冷却系统的设计可以无缝集成空气和液体冷却,以支持AI超级计算解决方案,以最低的成本为客户提供最佳性能和效率。由数据和生成式AI驱动的软件能够精确预测服务器最佳部署方式,以最大化电力使用效率等。

亚马逊云科技在AI基础设施上的投入不仅体现在数据中心优化方面,还体现在自研芯片的持续创新上。亚马逊云科技是是率先进入自研芯片领域的云供应商,革命性的Nitro虚拟化平台全面加速了亚马逊云科技在自研芯片领域的创新速度。截至目前,亚马逊云科技已推出Amazon Nitro系统、Graviton通用处理器、Trainium AI训练芯片和Inferentia AI推理芯片,同时保持稳定的更新频率,且每次更新均提供两位数以上的百分比的性价比提升。2024年re:Invent大会上,亚马逊云科技发布了全面升级的Trainium2芯片及基于该芯片的EC2 Trn2实例。相较于基于GPU的EC2 P5e实例,Trn2实例的性价比提升了30%-40%。

在AI模型训练和推理需求日益增长的背景下,亚马逊云科技进一步推出了Amazon EC2 Trn2 UltraServers服务器。这一服务器配备64颗Trainium2芯片,并采用NeuronLink超速互连技术,整体算力达83.2 Petaflops,能够支持超大规模AI模型的训练和推理。同时,亚马逊云科技携手Anthropic打造的Project Rainier EC2 UltraCluster预计将集成数十万颗Trainium2芯片,提供超越当前领先AI模型训练算力5倍以上的计算能力。

亚马逊云科技的自研芯片战略正在不断深化。2025年,亚马逊云科技计划推出新一代AI训练芯片Amazon Trainium3,该芯片采用3纳米工艺制造,性能预计是前代产品的4倍。未来,亚马逊云科技还计划进一步推进Trainium4芯片的研发,以持续提升AI计算能力。

在网络领域,亚马逊云科技也在不断突破。2024年re:Invent大会上,亚马逊云科技发布了第二代UltraCluster网络架构——“10p10u”网络,该网络支持超过20,000个GPU协同工作,带宽达到10Pb/s,延迟低于10μs。这一突破使模型训练时间缩短至少15%。与此同时推出了SIDR(Scalable, Intent Driven Routing)网络路由协议,相比传统协议,如BGP和OSPF,SIDR能够在不到1秒的时间内恢复网络,提升了AI分布式训练的可靠性。

值得一提的是,10p10u是亚马逊云科技有史以来扩展最快的网络,在2024年,安装了超过300万条链路。

安全始终是亚马逊云科技的首要任务,也是创新的根本保障。亚马逊云科技认为“安全是设计出来的”——无论是基础设施还是服务,从设计之初就应该将安全作为首要任务,并嵌入到从架构到操作的各个环节,从而为客户提供灵活、安全的云计算环境。例如,亚马逊云科技利用自动推理技术提升系统的可观测性,以可验证的方式确保关键系统按预期运行。

亚马逊云科技首席执行官Matt Garman强调:“安全性不是事后添加的,而是体现在数据中心的设计方式里,体现在芯片的设计方式里,体现在虚拟化堆栈与服务架构的设计方式里,或许最为关键的是,体现在所有软件开发实践中,安全性自始至终都要在设计阶段、实现阶段、部署阶段、补丁阶段等所有环节占据核心地位,极其重要。万事皆以安全性为起始。”

尽管AI成为推动云计算发展的重要动力,亚马逊云科技仍然持续关注核心云基础设施的现代化升级,并与多个行业巨头建立合作关系。据了解,亚马逊云科技签署了包括Intuit、PayPal、诺斯罗普·格鲁曼、日本航空公司、Reddit、赫兹公司等企业在内的多个新协议,进一步拓展其生态版图。

此外,亚马逊云科技在数据库、存储及分析服务方面持续创新。例如,推出了无服务器分布式SQL数据库Amazon Aurora DSQL,其性能比其他主流分布式SQL数据库快4倍;Amazon S3表实现了Apache Iceberg的全面托管支持,提升了对象存储的分析能力;Amazon S3元数据自动生成可查询的元数据,优化数据发现、商业分析及实时推理。

写在最后

总的来说,亚马逊云科技凭借强大的技术创新能力,在全球公有云IaaS市场中保持领先地位。其在AI基础设施、自研芯片、网络架构及安全性等多个领域的深耕,使其能够满足企业对云计算不断增长的需求。未来,亚马逊云科技将继续拓展其云计算版图,推动全球云基础设施的持续演进。

标签:
版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。