人工智能在许多领域都引发了热门话题,包括大模型训练、文本输出和视频输出等。然而,人们往往忽视了当建设智算中心或大规模数据中心时,它对布线产生的潜在影响,因为布线是基础设施中的基础设施,常常被忽略在幕后。
康普成立于1976年,总部位于北卡罗来纳州。起初专注于同轴电缆业务,随着21世纪初互联网的兴起,康普意识到了新的商机:2004年收购Avaya公司的综合布线业务;2008移动技术迅速崛起,收购安德鲁公司将康普推至了无线基础设施行业的领导地位;2015年,数字化革命蓬勃发展,“光进铜退”成为热点话题,康普积极收购安普,进一步巩固了客户群体;2019年,万物互联成为趋势,Wi-Fi等企业纷纷加入竞争。康普再一次敏锐地捕捉到了这一趋势并对ARRIS公司的收购。
通过一系列的收购,康普从一个创立时只有100万美元的企业,发展成为如今几十亿美元的巨头,为客户提供全面的通信连接解决方案,涵盖无线到有线,光缆到铜缆,提供端到端的解决方案。
“‘东数西算’政策的落地带来了大量的数据中心的建设,在‘数字中国’的战略下,企业被要求走向数字化。人工智能生成内容已成为近两年一个非常热门的话题,引发了智算中心的建设,但与之相关的挑战和问题也随之而来。”康普企业网络大中华区总经理兼副总裁陈岚日前在接受笔者的采访时表示,人工智能数据中心的设计和架构与传统数据中心有何不同、如何提升数据中心的运营效率同时实现成本的可控,这些都是智算时代给数据中心带来的一些问题和挑战。
康普企业网络大中华区总经理兼副总裁陈岚
如果把数据中心比作社会的大脑,就像人类的智能来源于大脑一样,大脑的智能是来自于大量神经元之间的连接。对于社会而言,也需要快速的“连接”来产生“智能”。因此,连接问题是一个基础性问题。
根据2022年6月Dell’Oro的报告显示,400G、800G和1.6T将是以太网发展趋势。这意味着400G之前的连接技术,如100G及以下的以太网连接或数据中心内部连接,正在迅速迭代至400G、800G和1.6T的速率。
迭代的速率确实超乎我们的想象,尤其从2023年之后以英伟达为代表的AI及大模型的出现,一下子推动了400G及以上的快速部署。Dell’Oro 的预测,得益于AI的驱动,未来2-3年,800G以上的比例已经超过一半。
“AI需要大量的算力和快速的连接,因为计算力和网络连接能力之间是协同互动的,就好比社会的大脑(算力)和腿(网络连接)都要同步提升效率。这种互动催生了网络的快速提升。”康普企业网络大中华区技术总监吴健表示,网络连接通过交换机和路由器进行,从400G迅速迭代至800G。整个迭代过程涉及到芯片、激光器和收发器以及光纤连接。特别是在400G之后,光纤连接基本上占据了数据中心的主导地位,此时光纤的单模和多模的选择成为最关注的问题。
此外,谈到AI,总是离不开三个概念:CPU、GPU和智能网卡DPU。其中GPU之所以大行其道,是由于GPU具有并行计算的特性,能够极大地提高算力。这也意味着随着GPU的使用增多,我们也需要进一步提高连接速率。
例如,一个典型的集群单元的连接结构其基本连接群组称为SuperPOD,在这个集群中,基于18台NVLink的交换机和32台H100的连接。需要注意的是,由于它是基于Leaf-Spine的连接,Leaf-Spine是当前网络架构中扁平架构的模型之一,即交换机与H100算力服务器之间的连接模型。因此需要大量的高速光纤连接,同时未来GPU间连接只会比H100的需求更高,也就是说,400G和800G的需求就会变得非常明显。
康普企业网络大中华区技术总监吴健
“在AI的驱动下,数据中心密度会多方位提高:以前可能需要7000-8000W一个机柜,现在可能需要几十千瓦一个机柜。”吴健总结说,高密度、低延时、高速率、无损耗是AI数据中心的四个典型特点,这些典型特点也会反映到布线方面。
针对此类需求,康普在过去两年中,全力进行了Propel方面的研发和推广,并吸引了客户的注意。
吴健透露,康普推出Propel的主要目的是为了适应四项新的技术:MPO16基于多芯数并行技术,提供了8芯和16芯两种方案,在一个连接器中有16条光纤,实现了8发8收的功能,从而容易实现400G、800G、1.6T等速率的迭代;OM5,基于多模宽带技术,允许一条光纤容纳多个波长,实现了多车道(多波长)的并行;VSFF(“微双工”), 使得连接器件的尺寸得以缩小,以适应未来高密度的需求;光纤连接器APC端面、研磨面,主用来减少回拨损耗。
“Propel集成了各种不同技术,提供了一个多功能的平台。对于特点不同的技术在一个配线系统容纳与融合。”吴健认为,特别是面向智算中心的方案,这也是过去几年康普的工作重点。
事实上,随着速率的提升,连接所需的光纤数量、连接器类型以及通道建立的要求也相应增加。未来建立智算中心将变得比以前更加复杂。
一般来说,设备连接时使用标准布线和跳线即可建立连接。因为过去的楼宇布线的速率较低,基本没有太大的变化。但是到了智算时代,可能会在同一数据中心内看到多种速率的出现。从100G升级到400G,企业更需一个平台,就像搭积木一样,具有相对容易的升级模式和混合模式,将MPO16、MPO8和VSFF微双工纳入支持平台中。
同时,在数据中心中,单模和多模的比例在数据中心中没有出现颠覆性的变化,多模可能占到总量的60%到70%。这一情况是否会在AI时代发生变化呢?
“答案是否定的。因为在AI连接中,有一个核心思想是对延时的高要求。在集群内部进行训练和推理时,需要高效率和低延时。缩短设备之间的距离可以降低延时。”吴健解释说,对于连接在一起的设备,如果位置相距较远,延时就会加大。因此,为了提高训练和推理的效率,需要尽量拉近计算单元的距离。“在短距离连接、低能耗、高密度连接和易用性方面,多模要优于单模。所以在智算中心中,多模仍然会占据主导地位。”
值得一题的是,在一个有限的空间里把大量的光纤数集中在一起进行连接,也是目前做连接器的一些厂商思考的问题。
原因在于未来的连接需求可能会出现1分4的情况:当出现400G、800G等高速连接时,假设服务器速率100G,而交换机或者Leaf是400G,Spine是400G,那么就需要将一个高速口拆分成多个低速口。在智算时代,交换效率不允许出现阻塞和丢包,那意味着要保证上下联的速率比是1:1。
在光纤连接中存在一个重要要素,在物理连接中,有一个参数即损耗。智算时代,不允许出现任何丢包和损耗,因此对Return loss的要求更为严格。消除这些噪声的方式有APC,通过需将研磨面做成8度斜面,使得反弹的信号不会影响到正常的信号。这种情况下,需要将不同研磨面的布线系统融合进去,这也融合到了Propel之中。
“如何在一个平台里实现2芯、8芯、16芯甚至24芯的灵活拼合,不同芯数、不同密度要求的拼合,且无需换平台、换配件模式,甚至可以达到高密度。这些都是Propel要实现的核心理念。”在吴健看来,作为一个AI智算中心或普通数据中心,包含了康普过去并购历史形成的专利积累和在光纤光缆方案不断发展和融合的经验,基本上覆盖了在数据中心基础架构、连接方面的所有要素。这些都在数据中心方案中作为统一、全面、一站式服务的交付给客户。“作为数据中心基础网络架构的提供商康普有信心,在中国数据中心快速发展的过程中,满足各种不同形态的数据中心的连接要求。”