专注于数字技术的商业观察者
登录×
公司
2023-07-11

亚马逊云科技:为客户创造坚实底层架构的基石

时间: 2023-07-11 编辑:

展望今天的世界,我们看到是前所未有的挑战——只有专注创新,通过创新去发现更多的增长机会。其中,云服...

展望今天的世界,我们看到是前所未有的挑战——只有专注创新,通过创新去发现更多的增长机会。其中,云服务是支持创新的关键生产力,同时,随着生成式AI的风潮,越来越多新的场景层出不穷,比如文本和图片的生成、推理以及代码的生成……

毫无疑问,生成式AI是现在目前最为关注的创新技术,AI技术的爆发也直接推动了对算力资源需求的增长。

另一方面,2023年是中国企业出海的一个分水岭,如果说在过去十年很多中国企业的出海是专注于投资和发展,未来十年会有更多的企业专注于打造全球化的跨国公司。

亚马逊云科技大中华区产品部总经理陈晓建

“打造全球化的企业对于整个IT架构提出了更高的要求,客户所需要的不光是一个覆盖全球遍地可及的云服务,还需要能够快速进行部署高可用的服务,且在符合全球各国和各地区合法合规的前提下开展业务。”亚马逊云科技大中华区产品部总经理陈晓建日前在亚马逊云科技中国峰会上表示,云服务是支持数字创新的关键生产力,亚马逊云科技一直专注于基础设施服务的持续创新,赋能用户业务发展。无论是AI创新风潮带来的算力资源需求爆发,还是中国企业创新出海新格局下普遍的“全球化”需求,亚马逊云科技都能为企业提供助力。

AI创新推动算力需求井喷

由于AI的创新带来的算力资源需求,突发的算力导致很多资源是紧缺的。例如GPU不够用的现象越来越普遍,不光是在中国,全球都是如此。此外,云服务需要提供快速高效的弹性资源供给,以应对生成式AI的迅速发展和快速变化的业务需求。而随着云服务进一步降低使用门槛,客户能快速上手,算力需求迎来爆发式增长。

针对算力需求紧缺,亚马逊云科技提供全面深入的基础设施能力,包括Intel、AMD、英伟达和亚马逊云科技自研芯片产品。

2006年,亚马逊云科技南非开普敦小的团队发布了第一款Amazon EC2计算实例,至此,已经有 600 多种实例选择,并始终保持着极快地推新效率,它们支持不一样的硬件、操作系统、计算平台。

其背后离不开亚马逊云科技的第一款自研芯片的产品:Amazon Nitro的支持。

“在软件架构的层面有一个云原生的概念,是把很多复杂的功能拆分成很多单一的功能模块做封装化的实现,不同功能模块之间通过固定的API来调用,有效地把高度复杂的系统变成多个分布式的可以自治的系统,单个节点的升级不会影响到整个系统的功能。”陈晓建表示,Nitro在硬件层面遵循了同样的思路:实现了非常轻量级的虚拟化,整个性能损耗不到1%;实现了网络和存储在硬件级别的隔离机制,导致我们在用户通信和拥有存储的数据通信的时候之间是完全隔离的,不会造成互相的干扰;同时,在硬件层面实现了硬件的加密,任何进出Nitro的数据包都会进行硬件级别的加密,最大限度保证用户数据通信的安全。

Graviton基于ARM架构的通用处理器Graviton3,相比之前的Graviton2,计算性能提高多达25%,浮点性能提高多达2倍,加密工作负载性能最多加快2倍。第四代产品Gravtion3E则在针对高性能计算应用场景的向量计算性能上,再提升了35%。

在机器学习训练芯片领域,亚马逊云科技已经发展出三代不同的机器学习芯片,机器学习分为两个主要的场景:训练和推理。

在整个生命周期之中推理所占的成本往往是更高的,原因也很简单,因为推理是7×24,在线不中断的服务,而训练往往只是一个阶段性的服务。所以,亚马逊云科技在2019年推出了第一代用于机器学习的推理芯片Inferentia,所对应的实例Inf1和同样基于通用GPU的EC2实例相比,带来了70%成本的降低。

2022年又推出了第二代推理芯片,Inferentia2,进一步提升了4倍吞吐量,延迟只是之前的1/10,通过优化,第二代Inferentia可以大规模部署复杂的模型,例如大型语言模型(LLM)和Diffusion类模型。

“Inferentia在设计的时候就考虑到了吞吐率和延迟的优化,使得用户两者可以“鱼与熊掌,两者兼得。”陈晓建透露,以自然语言常见的BERT模型为例,In2实例的吞吐可以提升三倍,延迟降低了8.1倍,而成本只是通用GPU实例的1/4;以开源模型OPT-30B为例,相比于通用GPU EC2的实例,In2实例吞吐率增加了65%,而推理成本则降低了52%,如果用更大的660亿参数的OPT-66B为例,通用GPU已经力不从心,但In2实例依然可以保持每秒351个token数的吞吐量。视觉类模型以Stable Diffusion 2.1的版本为例,Inf2实例可实现50%的成本节约。

训练方面,亚马逊云科技也推出了加速芯片Trainium。以HuggingFace BERT模型作为案例来看,基于Trainium的Trn1实例和通用的GPU实例对比,在训练的吞吐率上面,单节点的吞吐率可以提升1.2倍,而多节点集群的吞吐率可以提升1.5倍,从成本考虑,单节点成本可以降低1.8倍,集群的成本更是降低了2.3倍。

增强型Trn1n实例的网络带宽跃升至1.6Tbps,可将万余个Trainium芯片构建在一个超大规模集群上,实现对超大模型进行并行训练。

值得一提的是,生成式AI需求是非常多样的,用户不仅需要更高性价比硬件解决方案,同样也需要有高度弹性化的伸缩,因为他们也不确定需求的资源是多少?

针对弹性资源供给,亚马逊云科技提供600多种不同的计算实例,从处理器、网络和存储等各种服务都能够与计算进行很好的结合,以积木的方式搭建出一个丰富灵活的计算实例的资源,满足多种不同算力的要求。

以存储为例,数据规模到达PB级别时存储方式变得非常重要,“热、温、冷、冻”不同类型的存储方式,成本和性能都有很大差别。Amazon S3对象存储提供8种存储层级,同时提供智能分层,自动选择最适合的存储层级。

此外,针对用户降低云运维复杂性的需求,亚马逊云科技为用户提供的第三种武器就是Serverless。目前,亚马逊云科技已经实现了全栈数据服务的Serverless化,开启了云服务全面Serverless的时代,让客户无需预置或管理基础设施,就可以运行几乎任何类型的应用程序或后端服务代码,帮助客户最大限度减轻运维工作,并增加业务敏捷性,更好地应对业务的各种不确定性。

通体来看,亚马逊云科技通过自研芯片提供更好的性价比,通过各种丰富的计算网络、存储各种产品的组合应对突发的算力需求,通过Serverless有效降低运维的复杂性,从而简化算力的使用,帮助客户能够更好的应对由于算力的需求井喷所带来的三个挑战。

“此次中国峰会彰显了亚马逊云科技在云与 AI 领域的持续深耕。尤其在近期引起热议的 AIGC 领域,亚马逊云科技更加强调将自身技术能力和最佳实践赋能客户和合作伙伴的 AIGC 业务发展,通过更加灵活敏捷、低门槛的产品(如 Amazon Bedrock 和 Amazon CodeWhisperer),加速 AIGC 技术的普及以及在更多行业场景中探索价值,致力于成为 AIGC 世界中的‘幕后推手’和‘数字基座’。”艾瑞咨询 研究总监王成峰说。

全球布局,助力中国企业出海

越来越多的中国企业在全球大展拳脚,全球布局已经成为很多企业的战略。随之而来的是企业全球布局的通用需求:全球无处不在的云服务、一个能够快速部署的、高效的能力以及能够提供一个在全球符合各国、各地区合法合规的要求。

首先,亚马逊云科技提供的高度安全可靠的云基础架构,让创新能够快速抵达每一个角落,为客户提供支持业务创新的算力,并能很好地支持客户的全球化布局战略。客户无论何时何地,都可以使用相同的基础设施、服务、API和工具。如今,亚马逊云科技全球31个区域的99个可用区,可以覆盖245个国家和地区。

例如,OPPO手机业务遍布全球,他们有上百个云上的VPC和多个本地资源需要相互连接,每个国家又有不同的合法合规的要求,这个同时增加了全网的组网难度,OPPO希望全球业务独立运作、区域合规自治,同时又有统一的管理。在使用亚马逊云科技的CloudWAN广域网服务之后,OPPO 可通过本地网络提供商,连接到亚马逊云科技,通过中央控制面板和网络策略在分钟就可以建立起一个覆盖全球的自己的专用网。借助完整的网络视图,他们可以直观地了解整个网络的运行状况、安全和性能。

其次,除了无处不在的云服务,客户也需要有一个快速部署可靠系统的能力。亚马逊云科技CTO Werner Vogels说过一句话,叫“Everything fails, all the time”。所有的功能模块都有可能出故障,不能完全避免故障的发生,但是必须通过努力,把风险降到最低。

亚马逊云科技通过区域隔离,多可用区设计、控制面和数据面解耦、蜂窝架构、随机分片、服务责任模型、运营就绪审查、安全的持续部署以及COE纠错流程实现快速部署可靠系统能力的同时,将风险降到最低。

例如,作为一个大型的物流和能源设备的供应商,中集的SAP系统受到密集交易的影响,使得应用和数据库之间有一些延迟。为了实现SAP系统的可用性,中集做了一个系统的容灾,但是容灾需要搭建额外的环境,造成资源的占用,亚马逊云科技给中集集团设计了新一代SAP的架构,始终确保应用和数据库的服务在同一个可用区。之间的延迟小于0.1毫秒,并且实现自动跨可用区自动切换的架构,在15分钟之内可以保证自动切换,效率比原有的架构要高三倍。

最后,企业出海始终逃不开安全合规的难题。亚马逊云科技几乎满足全球所有监管机构的合规性要求:支持143项安全标准与合规认证,同时有超过300种安全合规服务帮助各行各业的客户能够更方便的搭建满足全球各地安全和合规要求的架构。

百富是全球领先的电子支付终端供应商。其电子支付终端出货量超过 6000 万台。在将旗下多个重要 SaaS 应用进行云上迁移时,百富意识到多个供应商提供的安全服务标准不统一,达不到对于整个支付安全的业务要求,而且很难进行集成和管理。

亚马逊云科技在安全合规方面提供了Amazon CloudHSM、Security Hub 等一系列服务,很好地帮助百富来保障用户支付的信息安全和业务安全,在满足 PCI 合规要求的前提下,支撑国际业务拓展。通过使用亚马逊云科技的安全产品,百富的产品交付周期缩短了40%,降低了架构搭建及运维压力,从而带来20%的成本节约。

“我们对云技术的前沿探索,正为全球各行各业、各种类型的客户加快数字化转型和创新提供生产力。现今创新至关重要,而云技术能更快、更高效地帮助企业创新,亚马逊云科技广泛和深入的服务可以让客户摆脱基础架构的束缚,专注于创新。”在陈晓建看来,对于全球布局,亚马逊云科技提供从中心到边缘的多种产品的解决方案,包括覆盖全球的基础架构,以及快速部署稳定系统的能力,还有全面支持全球各个国家和地区业务合规能力,这些都能够成为用户创造坚实底层架构的基石。

标签:
版权声明:本文版权归数字商业时代所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。