全球人工智能与物联网技术的交汇正在重塑产业边界。我们正目睹多个行业经历前所未有的深刻变革。从AI助手提高生产力, 到X光片分析实现更高精度与可靠性,再到利用AI技术监测和追踪濒危物种数量,AI已经触及生活的方方面面。
“在现阶段的AI百模大战时代,焦点在云数据中心的集中式训练。但是训练本身不能产生价值,推理才是AI释放价值的关键,”Arm物联网事业部业务拓展副总裁马健日前在接受笔者的采访时表示。随着AI推理逐渐从云端下沉到边缘侧,边缘AI的重要性日益凸显——能够实时处理数据,减少数据传输的延迟和成本,同时更好地保护用户隐私。
值得注意的是,随着AI不断提升边缘设备的智能水平,这些设备所承担的任务也日益关键。确保边缘设备的安全可靠将会成为边缘AI大规模部署的必要条件。AI模型的持续演进、基于本地数据的重训练,以及安全补丁的部署,都需要支持边缘端软件的在线更新、改进和升级。
事实上,从AI发展初期开始,Arm技术就一直推动着边缘智能创新的发展。Arm推出的适用于Armv8-M架构的Cortex-M向量扩展技术——Helium,以及Arm Ethos-U AI加速器已在物联网领域广泛应用,将AI和机器学习(ML)计算能力带到了数十亿台边缘设备上。
有趣的是,算力的提升让智能软件和模型具备点石成金的能力。比如,一个曾经普通的蜂鸣器门铃,在基于Arm处理器的设备与Arm合作伙伴PlumerAI智能视觉软件的推动下,演变为超级智能的家庭安全系统,不仅可以进行云端视频流传输,还能检测运动、识别关键事件、辨别人物。
然而,创新者的脚步从不停歇。
2025年2月27日,Arm正式发布了全新的基于Armv9架构的边缘AI计算平台,这一平台的推出不仅标志着Arm在边缘AI领域的又一次重大突破,也为智能物联网的未来发展指明了方向。该平台以全新的基于Armv9架构的超高能效CPU——Arm Cortex-A320以及对Transformer网络具有原生支持的Ethos-U85 AI加速器为核心。
作为Arm边缘AI计算平台的核心组件之一,全新的Cortex-A320 CPU作为Arm首个基于Armv9架构的超高能效CPU,专为物联网应用设计,实现了在ML性能、能效比和标量计算性能上的显著提升。
相比前代超高能效CPU Cortex-A35,Cortex-A320的ML计算能力提升了高达10倍,标量计算性能提高了30%。其能效比较Cortex-A520(Arm的高能效Armv9.2 CPU)提升了50%。此外,Cortex-A320还支持四核共享集群,可根据不同需求灵活扩展,满足各种应用场景的需求。
Cortex-A320充分利用了Armv9增强的安全性和AI计算特性。在安全性方面,Cortex-A320引入了多项特性:Secure EL2 增强了TrustZone内部的隔离性,支持更安全地运行软件容器;指针验证/分支目标识别(PACBTI)有效缓解了跳转和返回编程中的指针安全隐患;内存标记扩展(MTE)通过内存标记机制,使黑客更难利用漏洞进行攻击,从而提高整体系统安全性。
同等重要的是AI计算能力的增强,也是Armv9非常受欢迎的特性。例如,增强的Neon和可伸缩向量扩展(SVE2)技术,能够提供更高效的ML计算能力;支持BFloat16等新数据类型,从而提高AI计算的精度和能效;新增的矩阵乘法指令,优化了AI和ML计算性能并加速神经网络推理和训练任务。
“这些改进使Cortex-A320成为物联网设备的理想AI计算平台,能够高效执行复杂的边缘AI任务,同时保证系统的安全性、可靠性和数据完整性。”马健说。
边缘AI计算平台的另一核心是Ethos-U85 AI加速器。作为Ethos-U系列的第三代产品,Ethos-U85不仅性能强劲,还对Transformer网络具有原生支持,这使得它在处理自然语言处理、语音识别等任务时具有得天独厚的优势。
值得一提的是,去年Arm推出的集成了Cortex-M85和Ethos-U85的Arm Corstone物联网参考设计平台,显著提升了端侧Transformer网络的执行效率。现在,Ethos-U85驱动程序已经更新,使得Cortex-A320能够直接驱动Ethos-U85,无需额外搭载Cortex-M。这一更新降低了延迟,并使Arm的合作伙伴可以去掉用于驱动AI加速器的额外控制器,从而降低成本和系统复杂性。
此次发布的边缘AI计算平台,实现了CPU和NPU的深度配合,两者相得益彰。Cortex-A320可以为Ethos-U85提供更高的内存容量与带宽,让大模型在Ethos-U85上的执行如虎添翼;而任何不希望在Ethos-U85上运行的AI操作,则可以回退到Cortex-A320上执行,利用其Neon/SVE2引擎实现更灵活的计算。这使智能物联网与消费类电子生态系统能够在正确的时间,并在合适的地方运行最适合的工作负载。
真正的边缘AI计算平台需要灵活性,使工作负载既可以运行在CPU,也可以运行在AI加速器。例如,在连续图像检测任务中,通常会优先在AI加速器上运行,以提高能效。而对于单张图像的处理,在CPU上执行可能更高效。对于在CPU上运行的AI任务,开发者往往希望能够获得最优的性能,这正是Arm Kleidi发挥作用的地方。
去年,Arm推出了Kleidi软件库,并将其引入了智能手机和服务器市场,它包含优化AI负载在Arm CPU上执行的KleidiAI和加速机器视觉的KleidiCV。现在Arm也将Kleidi扩展到了物联网。作为一套专为AI框架开发者设计的计算内核,KleidiAI可以让开发者无缝地在Arm CPU上获取最佳性能,适用于各类设备。支持如Neon和SVE2等Armv9架构的关键特性,大幅提升了AI的计算效率。
此外,KleidiAI已经集成到多个主流AI框架,包括Llama.cpp、ExecuTorch和LiteRT(通过XNNPACK)它可以加速MetaLlama3和Phi-3等主流AI大模型,进一步释放AI计算性能。
写在最后
此次Arm全新发布的基于Armv9架构的边缘AI计算平台不仅仅是一次渐进式的升级,还代表了Arm为未来边缘计算和AI处理提出的新范式。Cortex-A320与Ethos-U85的深度配合将催生出全新的应用类别,开启无限可能。
Arm坚信,AI的未来在边缘,而边缘AI的未来属于Arm。当全球超2,000万开发者基于Arm平台释放创造力,或许用不了太久,那些曾经存在于科幻小说中的智能场景,就会悄然走进现实生活。