至强6900P"备受瞩目"的根本原因

2024年6月，英特尔发布了至强6700E系列，被称为了至强6能效核。其中，豪华的配置，被用户称道核芯摇摇领先。然而，这还并非是至强6系列的最强形态，时隔3个月多，2024年9月26日，英特尔又发布了6900P系列产品，以“P”为后缀的命名方式，我们可以理解为采用的是Performance Core，即提供了72到128核多种规格，仅公开的组合就有5种型号，例如最高频可以达到3.2GHz，500W以及拥有128核心的6980P。

“英特尔至强6性能核处理器，在设计芯片的时候，有一个非常灵活的设计，将它分为了两个单元，一个单元叫做计算单元（compute die），另一个单元则叫做I/O单元（I/O die）。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示：“在计算单元里面，包含了最重要的X86内核、内存控制器和缓存。在I/O单元里面，包含了PCle、CXL、UPI等通用协议，也包括了英特尔独有的加速器。通过不同的排列组合，我们能够更好地满足云边端针对不同场景、不同性能、不同功耗的需求，并推出更优化的产品。”

陈葆立提到，至强6性能核可以运行12种不同的工作负载，从通用计算、数据库，到科学计算、AI等。其中，在常用的数据中心工作负载种，单颗CPU性能和每瓦特性能与上一代产品相比快了两倍以上。之外，至强6应用了MRDIMM内存技术，该技术可以实现两个列的同步操作，允许一次向 CPU 传输 128 字节的数据，更快的内存技术，使得一些对内存非常敏感的工作负载，例如科学计算、AI等，有1.2-1.3倍的提升。也配备了CXL2.0技术，该技术可以帮助客户实现物理极限的突破，通过扩展，可以在数据库或者大内存的场景里支持更多、更大的内存。

总而言之，至强6性能核处理器，拥有更加强大、双倍的内核，更快的内存，既适合多样化的工作负载，也可以在安全方面得到一定的保障。因为涉及高密度的计算服务，所以，很多客户会对隐私及数据的安全有一定的要求。而至强6性能核，在TDX做了2.0的提升，能提更可靠、更牢固的安全密钥，从而支持客户的产品。

数字浪潮下的 “至强”换代

在澎湃的数字浪潮当中，不论是医疗辅助决策，还是机器视觉、金融行业的量化交易与风险管理，亦或是智慧城市和智能家居。英特尔至强6性能核在计算密度、内存容量、数据处理和能效优化有着非常大的提升，不仅为合作伙伴提供了算力硬件的支撑，也为行业算力增加了一个可选项。

浪潮信息基于模块化、松耦合的开源架构，推出了搭载英特尔至强6处理器的服务器NF3290G8。它能够实现算力标准，而通过算力单元的扩展，实现单路、双单路架的灵活扩展，并且能实现外围组件的归一化，让平台机型尽量统一，也降低了用户的运维负担。除了基于解耦架构设计的NF3290G8服务器，还有旗舰2U2S通用服务器NF5280G8，较上一代单机核心提升100%（EMR 64C，GNR-AP P-Core 128C，两个内存通道分别为8和12），1DPC情况下，内存带宽提升71%（EMR是5600, GNR-AP是6400），MRDIMM内存带宽提升136%（MRDIMM内存速率是8800）。高密计算型2U4N通用服务器i24G8，同时支持全方位液冷、百分之百节点的全液冷，可以满足科学计算对于高密度以及高机柜性能的要求，并且可以多节点实现高速网络的共享，来支持最高等级的128核的至强6处理器。

在内存拓展方面，超聚变联合英特尔基于CXL技术做了大量的工作，提供了CXL1.1的内存扩展方案。在此之后，超聚变也基于至强6性能核处理器，推出了全球领先的CXL2.0内存池解决方案。其特点包括能够提供内存及服务的功能，实现内存资源池化，支持多节点空间弹性分配，按需供给和网络传输的数据全局共享；其次，CXL 共享内存可以作为数据传输通道；此外，支持从16 GB到128GB各种容量的DIMM兼容。

新华三则协助英特尔，携手推出了G-Flow油类单相浸没液冷方案。该方案使用了臭氧消耗潜值ODP为0的绝缘油，也就是对臭氧层没有破坏作用或破坏作用极小的绝缘油。但此类液体在实际应用中有一定的黏稠性，其优势在于增加了强制对流，这样所有由CDU（冷却分配单元）提供的流量都可以通过芯片散热器而不经过旁路。并且通过控制液面高度差，利用重力强制流体通过处理器区域。通过实测，G-Flow方案可以解决千瓦级的芯片散热需求，提升能效的同时让用户在选择冷却液方面具有更大的灵活性。

联想推出的ThinkSystem SC750 V4是一款支持至强性能核的高密度服务器。它主要是采用了联想海神的温水水冷技术，它可以做到在100%的散热都可以通过水冷去覆盖。在SC750 V4中，通过第六代的温水水冷技术，做到了百分之百的全覆盖。这种全覆盖可以非常有效的把PUE降下去，整个数据中心的PUE（数据中心总能耗/IT设备能耗）可以做到1.1以下。

英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉表示：“大家都知道，每项的创新技术，最终的价值是能够赋能产业，造福社会。唯有和产业、和具体的场景深度融合，持续提高生产力的效率和品质，它的价值才能够得以彰显。我们希望和我们的合作伙伴一起，能够为新质生产力添砖加瓦，能够为这样一个伟大时代的崛起添砖加瓦，贡献绵薄之力。”

“至强”应用在AI时代下的推敲

CPU在数字浪潮的当下，提供了算力的基础。但是生成式AI的兴起时代中，很明显的变化是计算体系从传统的CPU主导模式逐步向GPU转变。换句话说，算力的需求正在向GPU一边倒。不过陈葆立在发布会中指出：“现在所有的AI服务器或者加速系统，绝大部分的机头也都是英特尔CPU处理器。因为在加速系统里面机头CPU也需要非常出色的I/O性能和单核性能，支持更快、更大的内存。我们与主流的GPU厂商、AI生态合作伙伴建立了良好的合作关系，共同定义至强规格以提供最佳的机头体验。”

对于大型数据中心来说，每颗芯片都在牟足力气，全功率地运行着。其实跑AI并非只有GPU一个选择，CPU也已经具备很强大了AI性能。CPU可以通过内置DSP、NPU，分走一部分部分AI负载，让AI任务跑得更高效，从而更省电，至强也是类似的原理。

这种设计在早期的至强可扩展处理器中就出现过，只不过，那时候大家没有过多关注，也没有那么AI任务需要跑。而最早的关注是来自第五代至强，其内置的英特尔AVX-512及英特尔® AMX（英特尔®高级矩阵扩展）功能是关键，这两个加速器在第四代至强中就已搭载，而在第五代至强中，AMX支持新的FP16指令，同时混合AI工作负载性能提高2～3倍。

相比第五代至强，最新发布的至强6900P单颗CPU性能和每瓦特性能分别有3.08倍、2.16倍提升；针对80亿参数的Llama3，则分别有2.40倍、1.68倍提升。此外，根据行业人士分析，CPU做大模型推理，最大的难点不在计算能力，而在内存带宽。至强6900P的内存带宽的扩展加上更快的传输方式，这些都为第六代至强支持大模型提供了坚实的后盾。

AI 时代中，CPU还未被完全抛弃，可以肯定的是从深度神经网络（DNN）到 Transformer 大模型，对硬件的要求产生了显著变化。CPU 不仅没有被边缘化，反而持续升级以适应这些变化，并做出了重要改变。同时AI 大模型也不是只有推理和训练的单一任务，还包括数据预处理、模型训练、推理和后处理等，整个过程中需要非常多软硬件及系统的配合。在 GPU 兴起并广泛应用于 AI 领域之前，CPU 就已经作为执行 AI 推理任务的主要硬件在被广泛使用。其作为通用处理器发挥着非常大的作用，整个系统的调度、任何负载的高效运行都离不开它的协同优化。

陈葆立表示，“面对AI时代对更高质量和更多元化的算力需求，英特尔推出全新至强6性能核处理器。凭借强大的计算密度、领先的单核性能、更高的内存带宽和I/O以及出色的能效，至强6性能核处理器能够应对数据中心丰富多样的工作负载挑战。在推动基础设施创新的同时，英特尔亦持续从打造解决方案到构建行业统一标准等多维度，助力高能效数据中心发展。”

所以，与其关注短时间无法达到的算力规模，不如聚焦在“效价比”，即综合考量大模型训练和推理过程中所需软硬件的经济投入成本、使用效果和产品性能。

这或许就是英特尔不断为至强系列施加性能创新压力的根本原因。