过去一年,人工智能(AI)技术给移动设备带来的改变令人赞叹。我们正见证AI从手机到笔记本电脑所取得的显著创新,vivo、OPPO、三星和小米等手机品牌商相继推出了AI应用和用例。可以说设备端AI再次重新定义了智能手机的“智能性”,而Arm是这一切的基石。
“这不仅限于智能手机,还包括笔记本电脑、可穿戴设备和数字电视等设备,因为Arm为最大的计算生态系统提供普适应用,且对开发者友好的指令集。”Arm终端事业部产品管理副总裁James McNiven日前在接受笔者的采访时表示,这意味着在设备端和云端均能实现更高的性能,同时在某些情况下将需要更高的能耗来驱动AI技术,聚焦于能效,这正是Arm的DNA。
事实上,随着AI工作负载成为了新的加速器,技术生态系统正在快速发展,需要在端侧运行AI。与此同时,计算需求要能够规模化地交付实现。对于推动行业前沿创新的合作伙伴来说,上市时间和工程效率至关重要。
为了满足市场当下对生成式AI的发展需求,Arm面向终端领域,推出了终端计算子系统(CSS)——整合最新的Armv9.2 CPU、Immortalis GPU和Core Link系统互连和系统内存管理单元(SMMU),并优化到内存及SoC其他部分的计算路径。这是Arm首次在终端领域以Arm CPU和GPU的优化设计形式提供物理实现解决方案,加速达成高性能、高效率,以及帮助合作伙伴加快上市进程。
其实早在2021年,Arm就推出了专为性能和AI而设计的Armv9架构。在过去几年,Armv9得到了显著提升:提高在矢量加速、机器学习(ML)等领域的计算能力;增强系统的安全性和稳健性;更重要的是,增加了面向AI的功能。
值得一提的是,在去年Armv9.2取得成功的基础上,现在Arm正通过全新的Arm Cortex-X925和Immortalis-G925来提供全球领先的高性能,并以效率为核心,通过Arm终端CSS为合作伙伴生态系统带来所需的性能。
具体来看,在CPU方面,Cortex-X925是Cortex-X推出以来取得最高IPC同比增幅的CPU,通过结合新设计所实现的微架构改进和频率提升,Cortex-X925在Geekbench中实现了36%的单线程性能增长。以AI性能为例,与去年的Cortex-X4 CPU相比,词元(Token)首次响应时间提高了41%。
“得益于微架构的显著演进,利用了迄今为止最宽的解码和矢量设计所带来的巨幅提升,实现了50% TOPS的增长。”James McNiven透露,Arm的RTL和物理设计团队之间也展开了进一步协作,针对三纳米工艺,提升频率和效率。
GPU方面,Immortalis-G925作为Arm目前性能最强、效率最高的GPU,在各种图形应用上性能同比提高了37%;在多个AI/ML网络上进行测量时,实现了约34%的性能提升;此外,2022年,Immortalis将光线追踪技术引入智能手机,并于今年大幅提高了光线追踪技术在面对复杂物体时的表现,其性能提升高达52%。
在终端CSS的效率方面,Arm仍能选择不同的CPU微架构来实现最大性能和最长使用天数,并通过Immortalis和Arm Mali提供GPU可扩展性,从而实现性能和效率上的灵活性。与Cortex-A720相比,Cortex-A725的能效提高了35%。
除了通过终端CSS推动性能和效率提升之外,Arm始终致力于为每一位安卓设备用户提高性能。在Cortex-X925带来的30%性能提升基础上,网页浏览器性能提高了23%;与此同时,Arm携手Google推动其安卓动态性能框架的发展,使得高端内容的每帧能耗降低了25%,帧速率则提高35%;通过调整安卓工作负载在不同CPU核心之间的平衡方式,为YouTube节省了高达10%的功耗;优化Google的AV1视频编解码器,让安卓设备的视频性能最多可提高40%。
另一方面,AI和计算机视觉软件领域有着诸多解决方案,这些解决方案的共性在于,它们大都是为CPU构建的。由于70%的第三方安卓ML工作负载都以CPU为目标,因此性能越高,开发者就能越快地将功能推出,并专注于下一个创新。
Kleidi的作用正是如此。为了帮助开发者能够充分利用Arm终端CSS的性能优势,不仅是面向新的应用,还可针对其所依托的软件平台,Arm推出了Arm Kleidi,它不仅包含面向AI工作负载的KleidiAI,还有着面向计算机视觉应用的KleidiCV。都是旨在通过小型、高度优化的内核,集成到涉及AI或计算视觉的任何地方,使开发者在部署到任何Arm CPU上时均能获得优异性能。
“CPU是唯一可以确保运行未来网络的计算引擎。而且我们一直在将KleidiAI集成到各种框架中,从可以在任何设备上运行任何网络的通用框架(如TensorFlow和PyTorch),到特定任务的点对点解决方案,如(MediaPipe和Llama 3)。Kleidi能够确保开发者可从Arm终端CSS中最新的Armv9功能中获得最佳性能。”在James McNiven看来,它已经为未来的CPU创新做好了准备,例如可伸缩矩阵扩展,当运行于Cortex-X925上时,Kleidi技术运行最新Llama 3和Phi-3 LLM的速度要比参考实现快2.9倍,而且只用不到24小时就能实现。
也就是说,Kleidi为开发者提供了实现Arm CPU最佳性能的路径,使其能够专注于下一个重大创新。通过针对Kleidi,应用将能够随着新一代设备的功能更为强大,而解锁未来Armv9架构的创新和性能。
作为一家终端手机厂商,vivo一直非常关注用户体验,尤其是在衡量一台手机的性能方面。
“过去几年Arm处理器,在前端访存能力持续做了非常大的投资,带来的不仅仅是在benchmark上提升,而且应用程序的性能也大幅度提升。比如指令预取、分支预测、更大的cache能力。”vivo首席芯片规划专家夏晓菲表示,最直观的体验就是通过Arm的微架构,vivo整个浏览器的性能提升了20%,几乎相当于一代处理器能力的提升。
此外,vivo去年发布了蓝心大模型,把生成式AI上面关于自然语言文本的摘要、总结、翻译、本地和在线知识搜索、图片生成功能开放给消费者使用。
“生成式 AI背后的硬件基础仍将依靠Arm CSS的处理能力。”vivo首席芯片规划专家夏晓菲认为,无论是在云端还是在端侧应用部署的过程,Arm CSS集成了更多更强大的AI能力,同时提供更加广泛的针对开发者的开发环境,能够让所有的开发者基于通用平台开发出自己基于端侧的生成式AI应用和体验。
写在最后
对于Window son Arm(WoA)生态系统来说,今年也是Arm成果丰硕的一年。除了Microsoft Office、Dropbox、Zoom、Adobe套件等,有越来越多的应用成为Arm原生应用,尤其是百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等。
“Arm终端CSS结合了软件以及世界上最大的移动设备生态系统之一,具备提供一个AI优化的计算平台所需的计算性能和效率。”James McNiven强调。Arm终端CSS的定位就是最易于访问AI体验的平台,同时成为新一代产品和服务的基石,为合作伙伴的创新赋能。