Arm：构筑计算基石，释放AI创新潜能

过去一年，人工智能(AI)技术给移动设备带来的改变令人赞叹。我们正见证AI从手机到笔记本电脑所取得的显著创新，vivo、OPPO、三星和小米等手机品牌商相继推出了AI应用和用例。可以说设备端AI再次重新定义了智能手机的“智能性”，而Arm是这一切的基石。

“这不仅限于智能手机，还包括笔记本电脑、可穿戴设备和数字电视等设备，因为Arm为最大的计算生态系统提供普适应用，且对开发者友好的指令集。”Arm终端事业部产品管理副总裁James McNiven日前在接受笔者的采访时表示，这意味着在设备端和云端均能实现更高的性能，同时在某些情况下将需要更高的能耗来驱动AI技术，聚焦于能效，这正是Arm的DNA。

事实上，随着AI工作负载成为了新的加速器，技术生态系统正在快速发展，需要在端侧运行AI。与此同时，计算需求要能够规模化地交付实现。对于推动行业前沿创新的合作伙伴来说，上市时间和工程效率至关重要。

为了满足市场当下对生成式AI的发展需求，Arm面向终端领域，推出了终端计算子系统(CSS)——整合最新的Armv9.2 CPU、Immortalis GPU和Core Link系统互连和系统内存管理单元(SMMU)，并优化到内存及SoC其他部分的计算路径。这是Arm首次在终端领域以Arm CPU和GPU的优化设计形式提供物理实现解决方案，加速达成高性能、高效率，以及帮助合作伙伴加快上市进程。

其实早在2021年，Arm就推出了专为性能和AI而设计的Armv9架构。在过去几年，Armv9得到了显著提升：提高在矢量加速、机器学习(ML)等领域的计算能力；增强系统的安全性和稳健性；更重要的是，增加了面向AI的功能。

值得一提的是，在去年Armv9.2取得成功的基础上，现在Arm正通过全新的Arm Cortex-X925和Immortalis-G925来提供全球领先的高性能，并以效率为核心，通过Arm终端CSS为合作伙伴生态系统带来所需的性能。

具体来看，在CPU方面，Cortex-X925是Cortex-X推出以来取得最高IPC同比增幅的CPU，通过结合新设计所实现的微架构改进和频率提升，Cortex-X925在Geekbench中实现了36%的单线程性能增长。以AI性能为例，与去年的Cortex-X4 CPU相比，词元(Token)首次响应时间提高了41%。

“得益于微架构的显著演进，利用了迄今为止最宽的解码和矢量设计所带来的巨幅提升，实现了50% TOPS的增长。”James McNiven透露，Arm的RTL和物理设计团队之间也展开了进一步协作，针对三纳米工艺，提升频率和效率。

GPU方面，Immortalis-G925作为Arm目前性能最强、效率最高的GPU，在各种图形应用上性能同比提高了37%；在多个AI/ML网络上进行测量时，实现了约34%的性能提升；此外，2022年，Immortalis将光线追踪技术引入智能手机，并于今年大幅提高了光线追踪技术在面对复杂物体时的表现，其性能提升高达52%。

在终端CSS的效率方面，Arm仍能选择不同的CPU微架构来实现最大性能和最长使用天数，并通过Immortalis和Arm Mali提供GPU可扩展性，从而实现性能和效率上的灵活性。与Cortex-A720相比，Cortex-A725的能效提高了35%。

除了通过终端CSS推动性能和效率提升之外，Arm始终致力于为每一位安卓设备用户提高性能。在Cortex-X925带来的30%性能提升基础上，网页浏览器性能提高了23%；与此同时，Arm携手Google推动其安卓动态性能框架的发展，使得高端内容的每帧能耗降低了25%，帧速率则提高35%；通过调整安卓工作负载在不同CPU核心之间的平衡方式，为YouTube节省了高达10%的功耗；优化Google的AV1视频编解码器，让安卓设备的视频性能最多可提高40%。

另一方面，AI和计算机视觉软件领域有着诸多解决方案，这些解决方案的共性在于，它们大都是为CPU构建的。由于70%的第三方安卓ML工作负载都以CPU为目标，因此性能越高，开发者就能越快地将功能推出，并专注于下一个创新。

Kleidi的作用正是如此。为了帮助开发者能够充分利用Arm终端CSS的性能优势，不仅是面向新的应用，还可针对其所依托的软件平台，Arm推出了Arm Kleidi，它不仅包含面向AI工作负载的KleidiAI，还有着面向计算机视觉应用的KleidiCV。都是旨在通过小型、高度优化的内核，集成到涉及AI或计算视觉的任何地方，使开发者在部署到任何Arm CPU上时均能获得优异性能。

“CPU是唯一可以确保运行未来网络的计算引擎。而且我们一直在将KleidiAI集成到各种框架中，从可以在任何设备上运行任何网络的通用框架（如TensorFlow和PyTorch），到特定任务的点对点解决方案，如（MediaPipe和Llama 3）。Kleidi能够确保开发者可从Arm终端CSS中最新的Armv9功能中获得最佳性能。”在James McNiven看来，它已经为未来的CPU创新做好了准备，例如可伸缩矩阵扩展，当运行于Cortex-X925上时，Kleidi技术运行最新Llama 3和Phi-3 LLM的速度要比参考实现快2.9倍，而且只用不到24小时就能实现。

也就是说，Kleidi为开发者提供了实现Arm CPU最佳性能的路径，使其能够专注于下一个重大创新。通过针对Kleidi，应用将能够随着新一代设备的功能更为强大，而解锁未来Armv9架构的创新和性能。

作为一家终端手机厂商，vivo一直非常关注用户体验，尤其是在衡量一台手机的性能方面。

“过去几年Arm处理器，在前端访存能力持续做了非常大的投资，带来的不仅仅是在benchmark上提升，而且应用程序的性能也大幅度提升。比如指令预取、分支预测、更大的cache能力。”vivo首席芯片规划专家夏晓菲表示，最直观的体验就是通过Arm的微架构，vivo整个浏览器的性能提升了20%，几乎相当于一代处理器能力的提升。

此外，vivo去年发布了蓝心大模型，把生成式AI上面关于自然语言文本的摘要、总结、翻译、本地和在线知识搜索、图片生成功能开放给消费者使用。

“生成式 AI背后的硬件基础仍将依靠Arm CSS的处理能力。”vivo首席芯片规划专家夏晓菲认为，无论是在云端还是在端侧应用部署的过程，Arm CSS集成了更多更强大的AI能力，同时提供更加广泛的针对开发者的开发环境，能够让所有的开发者基于通用平台开发出自己基于端侧的生成式AI应用和体验。

写在最后

对于Window son Arm(WoA)生态系统来说，今年也是Arm成果丰硕的一年。除了Microsoft Office、Dropbox、Zoom、Adobe套件等，有越来越多的应用成为Arm原生应用，尤其是百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等。

“Arm终端CSS结合了软件以及世界上最大的移动设备生态系统之一，具备提供一个AI优化的计算平台所需的计算性能和效率。”James McNiven强调。Arm终端CSS的定位就是最易于访问AI体验的平台，同时成为新一代产品和服务的基石，为合作伙伴的创新赋能。