2024年6月,英特尔发布了至强6700E系列,被称为了至强6能效核。其中, 豪华的配置,被用户称道核芯摇摇领先。然而,这还并非是至强6系列的最强形态,时隔3个月多,2024年9月26日,英特尔又发布了6900P系列产品,以“P”为后缀的命名方式,我们可以理解为采用的是Performance Core,即提供了72到128核多种规格,仅公开的组合就有5种型号,例如最高频可以达到3.2GHz,500W以及拥有128核心的6980P。
“英特尔至强6性能核处理器,在设计芯片的时候,有一个非常灵活的设计,将它分为了两个单元,一个单元叫做计算单元(compute die),另一个单元则叫做I/O单元(I/O die)。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示:“在计算单元里面,包含了最重要的X86内核、内存控制器和缓存。在I/O单元里面,包含了PCle、CXL、UPI等通用协议,也包括了英特尔独有的加速器。通过不同的排列组合,我们能够更好地满足云边端针对不同场景、不同性能、不同功耗的需求,并推出更优化的产品。”
陈葆立提到,至强6性能核可以运行12种不同的工作负载,从通用计算、数据库,到科学计算、AI等。其中,在常用的数据中心工作负载种,单颗CPU性能和每瓦特性能与上一代产品相比快了两倍以上。之外,至强6应用了MRDIMM内存技术,该技术可以实现两个列的同步操作,允许一次向 CPU 传输 128 字节的数据,更快的内存技术,使得一些对内存非常敏感的工作负载,例如科学计算、AI等,有1.2-1.3倍的提升。也配备了CXL2.0技术,该技术可以帮助客户实现物理极限的突破,通过扩展,可以在数据库或者大内存的场景里支持更多、更大的内存。
总而言之,至强6性能核处理器,拥有更加强大、双倍的内核,更快的内存,既适合多样化的工作负载,也可以在安全方面得到一定的保障。因为涉及高密度的计算服务,所以,很多客户会对隐私及数据的安全有一定的要求。而至强6性能核,在TDX做了2.0的提升,能提更可靠、更牢固的安全密钥,从而支持客户的产品。
数字浪潮下的 “至强”换代
在澎湃的数字浪潮当中,不论是医疗辅助决策,还是机器视觉、金融行业的量化交易与风险管理,亦或是智慧城市和智能家居。英特尔至强6性能核在计算密度、内存容量、数据处理和能效优化有着非常大的提升,不仅为合作伙伴提供了算力硬件的支撑,也为行业算力增加了一个可选项。
浪潮信息基于模块化、松耦合的开源架构,推出了搭载英特尔至强6处理器的服务器NF3290G8。它能够实现算力标准,而通过算力单元的扩展,实现单路、双单路架的灵活扩展,并且能实现外围组件的归一化,让平台机型尽量统一,也降低了用户的运维负担。除了基于解耦架构设计的NF3290G8服务器,还有旗舰2U2S通用服务器NF5280G8,较上一代单机核心提升100%(EMR 64C,GNR-AP P-Core 128C,两个内存通道分别为8和12),1DPC情况下,内存带宽提升71%(EMR是5600, GNR-AP是6400),MRDIMM内存带宽提升136%(MRDIMM内存速率是8800)。高密计算型2U4N通用服务器i24G8,同时支持全方位液冷、百分之百节点的全液冷,可以满足科学计算对于高密度以及高机柜性能的要求,并且可以多节点实现高速网络的共享,来支持最高等级的128核的至强6处理器。
在内存拓展方面,超聚变联合英特尔基于CXL技术做了大量的工作,提供了CXL1.1的内存扩展方案。在此之后,超聚变也基于至强6性能核处理器,推出了全球领先的CXL2.0内存池解决方案。其特点包括能够提供内存及服务的功能,实现内存资源池化,支持多节点空间弹性分配,按需供给和网络传输的数据全局共享;其次,CXL 共享内存可以作为数据传输通道;此外,支持从16 GB到128GB各种容量的DIMM兼容。
新华三则协助英特尔,携手推出了G-Flow油类单相浸没液冷方案。该方案使用了臭氧消耗潜值ODP为0的绝缘油,也就是对臭氧层没有破坏作用或破坏作用极小的绝缘油。但此类液体在实际应用中有一定的黏稠性,其优势在于增加了强制对流,这样所有由CDU(冷却分配单元)提供的流量都可以通过芯片散热器而不经过旁路。并且通过控制液面高度差,利用重力强制流体通过处理器区域。通过实测,G-Flow方案可以解决千瓦级的芯片散热需求,提升能效的同时让用户在选择冷却液方面具有更大的灵活性。
联想推出的ThinkSystem SC750 V4是一款支持至强性能核的高密度服务器。它主要是采用了联想海神的温水水冷技术,它可以做到在100%的散热都可以通过水冷去覆盖。在SC750 V4中,通过第六代的温水水冷技术,做到了百分之百的全覆盖。这种全覆盖可以非常有效的把PUE降下去,整个数据中心的PUE(数据中心总能耗/IT设备能耗)可以做到1.1以下。
英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉表示:“大家都知道,每项的创新技术,最终的价值是能够赋能产业,造福社会。唯有和产业、和具体的场景深度融合,持续提高生产力的效率和品质,它的价值才能够得以彰显。我们希望和我们的合作伙伴一起,能够为新质生产力添砖加瓦,能够为这样一个伟大时代的崛起添砖加瓦,贡献绵薄之力。”
“至强”应用在AI时代下的推敲
CPU在数字浪潮的当下,提供了算力的基础。但是生成式AI的兴起时代中,很明显的变化是计算体系从传统的CPU主导模式逐步向GPU转变。换句话说,算力的需求正在向GPU一边倒。不过陈葆立在发布会中指出:“现在所有的AI服务器或者加速系统,绝大部分的机头也都是英特尔CPU处理器。因为在加速系统里面机头CPU也需要非常出色的I/O性能和单核性能,支持更快、更大的内存。我们与主流的GPU厂商、AI生态合作伙伴建立了良好的合作关系,共同定义至强规格以提供最佳的机头体验。”
对于大型数据中心来说,每颗芯片都在牟足力气,全功率地运行着。其实跑AI并非只有GPU一个选择,CPU也已经具备很强大了AI性能。CPU可以通过内置DSP、NPU,分走一部分部分AI负载,让AI任务跑得更高效,从而更省电,至强也是类似的原理。
这种设计在早期的至强可扩展处理器中就出现过,只不过,那时候大家没有过多关注,也没有那么AI任务需要跑。而最早的关注是来自第五代至强,其内置的英特尔AVX-512及英特尔® AMX(英特尔®高级矩阵扩展)功能是关键,这两个加速器在第四代至强中就已搭载,而在第五代至强中,AMX支持新的FP16指令,同时混合AI工作负载性能提高2~3倍。
相比第五代至强,最新发布的至强6900P单颗CPU性能和每瓦特性能分别有3.08倍、2.16倍提升;针对80亿参数的Llama3,则分别有2.40倍、1.68倍提升。此外,根据行业人士分析,CPU做大模型推理,最大的难点不在计算能力,而在内存带宽。至强6900P的内存带宽的扩展加上更快的传输方式,这些都为第六代至强支持大模型提供了坚实的后盾。
AI 时代中,CPU还未被完全抛弃,可以肯定的是从深度神经网络(DNN)到 Transformer 大模型,对硬件的要求产生了显著变化。CPU 不仅没有被边缘化,反而持续升级以适应这些变化,并做出了重要改变。同时AI 大模型也不是只有推理和训练的单一任务,还包括数据预处理、模型训练、推理和后处理等,整个过程中需要非常多软硬件及系统的配合。在 GPU 兴起并广泛应用于 AI 领域之前,CPU 就已经作为执行 AI 推理任务的主要硬件在被广泛使用。其作为通用处理器发挥着非常大的作用,整个系统的调度、任何负载的高效运行都离不开它的协同优化。
陈葆立表示,“面对AI时代对更高质量和更多元化的算力需求,英特尔推出全新至强6性能核处理器。凭借强大的计算密度、领先的单核性能、更高的内存带宽和I/O以及出色的能效,至强6性能核处理器能够应对数据中心丰富多样的工作负载挑战。在推动基础设施创新的同时,英特尔亦持续从打造解决方案到构建行业统一标准等多维度,助力高能效数据中心发展。”
所以,与其关注短时间无法达到的算力规模,不如聚焦在“效价比”,即综合考量大模型训练和推理过程中所需软硬件的经济投入成本、使用效果和产品性能。
这或许就是英特尔不断为至强系列施加性能创新压力的根本原因。