Arm Lumex CSS 平台支持实时端侧 AI 用例,覆盖智能助手、语音翻译及个性化服务;依托搭载全新 SME2 技术的 Arm CPU,该平台可实现高达五倍的 AI 性能提升。
开发者可借助 KleidiAI 调用 SME2 技术带来的性能优势;目前 KleidiAI 已集成至所有主流移动操作系统及 AI 框架中,包括 PyTorch ExecuTorch、谷歌 LiteRT、阿里巴巴 MNN 及微软 ONNX Runtime。
针对旗舰级设备,Arm Lumex CSS 平台创造了前所未有的成就——连续六年缔造两位数的每时钟周期指令数 (IPC) 性能提升。
全新 Mali G1-Ultra 专为游戏玩家设计,可带来两倍的光线追踪性能提升,重新定义移动娱乐体验。
Arm 控股有限公司今日宣布推出全新 Arm® Lumex™ 计算子系统 (Compute Subsystem, CSS) 平台,这是一套专为旗舰级智能手机及下一代个人电脑加速其人工智能 (AI) 体验的先进计算平台。Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展 (SME2) 技术的最高性能 Arm CPU、GPU 及系统 IP,不仅能助力生态伙伴更快将 AI 设备推向市场,还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。
Arm 高级副总裁兼终端事业部总经理 Chris Bergey 表示:“AI 已不再仅仅是一项技术功能,它已成为下一代移动与消费技术的支撑底座。依托 Arm Lumex 平台,我们持续提升端侧 AI 体验,以满足用户日益增长的需求与期待。为此,我们正积极将 SME2 技术扩展至每一个 CPU 平台。预计到 2030 年,SME 与 SME2 技术将为超过 30 亿台设备新增超 100 亿TOPS 的计算能力,为端侧 AI 性能带来指数级跃升。”
合作伙伴可灵活选择使用 Arm Lumex 的方式,为其打造系统级芯片 (SoCs)。例如,他们可直接采用 Arm 交付的平台,并借助为其需求定制的先进物理实现方案,从而获得缩短产品上市时间和快速兑现性能价值等双重优势;或者,合作伙伴也可根据他们的目标市场,对平台寄存器传输级 (RTL) 设计进行配置,并自行完成核心模块的硬化工作。
全新 Arm Lumex 平台包含以下核心组件:
- 新一代搭载 SME2 技术的 Armv9.3 CPU 集群:包括 Arm C1-Ultra 和 Arm C1-Pro,为旗舰设备提供支持
- Arm C1-Premium:专为次旗舰市场打造,可提供一流的面积效率
- Arm Mali™ G1-Ultra GPU:配备新一代光线追踪技术,在实现先进的图形和游戏体验同时,还可提升整体 AI 性能
- Arm C1-DSU:Arm 迄今为止最灵活、高能效且具多种电源模式的 DynamIQ Shared Unit (DSU)
- 针对三纳米工艺节点优化的物理实现
- 跨软件栈的深度集成,为使用 KleidiAI 软件库的开发者提供无缝的 AI 加速体验
搭载 SME2 技术的 CPU:助力实现全场景 AI 加速
搭载 SME2 的 Arm C1 CPU 集群,为实际场景中的 AI 驱动型任务带来了显著的 AI 性能提升,包括:
- AI 性能提升高达五倍
- 语音类工作负载延迟降低 4.7 倍
- 音频生成速度提升 2.8 倍
全新的 Arm CPU 在 AI 计算能力上的飞跃,让实时的端侧 AI 推理成为现实,为用户在音频生成、计算机视觉及情境助手等多种交互场景中带来更流畅、更快速的体验。
在实际场景中,SME2 技术将响应速度与运行效率提升至全新水平。例如,在“智能瑜伽教练”演示应用中,得益于 SME2 技术,该应用的文本转语音生成速度提升了 2.4 倍,这意味着用户能即时获得姿势反馈与指导,且全程不用担心设备的电池续航问题。此外,通过 Arm、支付宝与 vivo 的三方合作下,将大语言模型 (LLM) 的交互响应时间缩短了多达 40%,充分证明了 SME2 可为终端设备带来更快速的实时生成式 AI 体验。
SME2 技术的价值不仅在于速度的提升,更在于释放出传统 CPU 无法企及的 AI 驱动功能。例如,在搭载 SME2 的单个核心上运行神经摄像头降噪功能,可以在 1080P 分辨率下实现帧率超 120 帧/秒 (fps),或在 4K 分辨率下实现帧率达 30fps。这使得智能手机用户即使身处光线最暗的场景,也能捕捉到更锐利、清晰的图像,进而在日常设备上获得更流畅的操作交互与更丰富的使用体验。
不同于受到延迟、成本及隐私问题等挑战的云优先 AI,Lumex 将智能引入设备端,能够在本地实现更快、更安全且随时可用的智能体验。SME2 已经广受业界领先生态伙伴的采用,包括阿里巴巴、支付宝、三星 System LSI、腾讯及 vivo。
为全线产品层级赋予架构自由
Arm Lumex 为合作伙伴提供了充分的自由度,使其能从高端智能手机、PC 到新兴 AI 优先设备的各类产品中,实现峰值性能、持续能效与芯片面积之间的灵活平衡。
CPU |
主要优势 |
性能与能效提升 |
理想应用场景 |
Arm C1-Ultra |
旗舰级峰值性能 |
单线程性能提升 25%,IPC 性能同比实现两位数增长 |
大模型推理、计算摄影、内容创作、生成 式 AI |
Arm C1-Premium |
兼具 C1-Ultra 性能且面积效率更优 |
相较于 C1-Ultra 面积缩减 35% |
次旗舰移动设备市场、语音助手、多任务处理 |
Arm C1-Pro |
持久高能效 |
持续性能提升 16% |
视频播放、流式推理 |
Arm C1-Nano |
极致能效 |
效率提升 26%,面积更小 |
可穿戴设备、超小型设备 |
Mali GPU:实现桌面级游戏体验和更快的 AI 推理
随着搭载 Arm GPU 的芯片累计出货量突破 120 亿颗,Arm 持续稳居手游体验领域的核心地位。全新的 Arm Mali G1-Ultra GPU 进一步突破移动游戏的性能边界,为手游玩家带来高保真、主机级画质。这一突破得益于全新的第二代光线追踪 (Ray Tracing Unit v2, RTUv2) 技术,该技术显著提升光照、阴影与反射效果,使其光线追踪性能相较前代提升了两倍。在 AI 工作负载方面,Mali G1-Ultra 可将推理性能提升最高 20%,显著增强各类实时应用的响应速度。
在各类图形基准测试中,Mali G1-Ultra 较前代产品实现了 20% 的性能提升,为《暗区突围:无限》、《堡垒之夜》、《原神》、《崩坏:星穹铁道》等主流游戏带来了全面的性能增强。同时,Mali G1-Premium 与 Mali G1-Pro 两款 GPU,也为硬件资源受限的设备提供了更出色的性能与能效表现。
开发者友好的端侧 AI 解决方案
开发者可在 Arm Lumex 平台上获取开机即用的 AI 开发体验。通过 KleidiAI 与各大主流框架的集成,包括 PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN 及微软 ONNX Runtime,开发者无需修改任何代码,即可自动取得 SME2 的加速能力。
对于需要构建跨平台应用的开发者而言,Lumex 带来了全新的可迁移性:
- Gmail、YouTube 和 Google Photos 等 Google 应用现已全面支持 SME2 ,搭载 Lumex 的设备一经上市即可无缝运行
- 跨平台可迁移性意味着针对安卓构建的优化功能可无缝扩展至采用 Arm 架构的 Windows 及其他操作系统
- 支付宝等合作伙伴已成功验证:依托 SME2 技术,终端设备上的大语言模型 (LLM) 可实现高效运行。
Apple、三星和 MediaTek 等科技领军企业,正积极集成 AI 加速功能,推动端侧 AI 向更快速、更高效的方向发展。其中,Apple 正凭借该能力为“苹果智能” (Apple Intelligence) 提供核心支撑;三星与 MediaTek 则借助 Google Gemini 提升翻译、摘要、个人助手等实时 AI 应用的响应速度与运行效率。
Arm Lumex:AI 时代的平台级智能
Arm Lumex 不仅是 Arm 面向消费计算市场的最先进 CSS 平台,更是开启新时代智能 AI 体验的基石。无论是 OEM 厂商还是开发者,Lumex 均可提供所需工具,助力其在关键端侧场景实现兼具个性化、隐私保障与高性能的 AI 体验。作为专为 AI 时代打造平台, Arm Lumex 将成为未来移动创新的全新起点。
Arm Mali G1-Ultra 重新定义游戏与 AI 体验
Mali G1-Ultra 专为新一代手游和 AI 体验打造,通过以下设计在移动设备上实现高端沉浸式游戏体验:
- 新一代 Arm 光线追踪单元 RTUv2;
- 加速的端侧 AI;
- 重构图形管线;
- 单一目标导向设计中的增强型架构效率。
与前一代 Arm Immortalis-G925 GPU 相比,Mali G1-Ultra 的光线追踪性能提升高达两倍,并在主流图形基准测试中,性能表现提升 20%。在 AI 方面,通过新的 FP16 矩阵计算路径,该 GPU 在 AI 与机器学习网络上的推理速度比 Immortalis-G925 快上 20%。此外,Mali G1-Ultra 还改进了内存、调度和开发者工具,使 Arm 生态系统能够在不牺牲功耗或效率的情况下,扩展视觉和智能性。
除了面向旗舰智能手机的 Mali G1-Ultra,Arm 还推出 Arm Mali G1-Premium 和 Mali G1-Pro GPU,旨在提供可扩展的性能和能效选择,以满足不同移动设备市场和产品层级的需求。Mali G1 GPU 系列提供从 1 到 24 个着色器核心选项,使系统级芯片 (SoC) 设计商能够根据其目标市场和特定需求,灵活配置 GPU。
新一代光线追踪实现桌面级手游体验
如今的热门游戏应用正在不断挑战移动设备上的硬件极限,追求更先进的渲染、更流畅的帧率的同时,能效依旧要维持在原定的水平。针对这些应用,Mali G1-Ultra 带来了全面的性能提升,包括:
- 在《暗区突围》中,性能提升 25%;
- 在《崩坏:星穹铁道》中,性能提升 19%;
- 在《原神》中,性能提升 17%;
- 在《堡垒之夜》中,性能提升 11%。
- 在 Arm 内部游戏演示《Mori 林间鼯语》中,性能提升 26%。
除了为上述实际应用的性能带来提升之外,得益于 Mali G1-Ultra 中的 RTUv2,在启用硬件光线追踪的游戏中,光线追踪性能可提升两倍,帧率可提升 40%。新的光线追踪单元专为移动端的实时性能而打造,实现了桌面级的光照、反射与阴影。
与前一代 RTUv1 相比,RTUv2 更加智能,且采用单光线模型,大幅增强对非一致性光线的支持,并成为完全独立的硬件单元。这些设计变化带来了显著的能效与性能优势。例如,其模块化架构与独立电源域使得 RTUv2 可在设备空闲时断电,从而为其他任务节省电力。
鉴于通过 RTUv2 实现的性能与能效平衡的优势,Mali G1-Ultra 能在旗舰智能手机上实现长时间的游戏体验,使其成为旗舰智能手机的理想配置。
边缘侧实时智能加速
AI 正在重塑移动设备思考、感知与响应的方式,而 GPU 在这一演进历程中扮演着关键角色。Mali G1-Ultra 引入新的矩阵乘法单元 (MMUL) FP16 指令,可加速如语义分割、去噪、深度估计、物体检测、语音识别和图像增强等端侧关键 AI 工作负载。与上一代 Immortalis-G925 相比,其性能提升高达 104%。
通过扩大的 L2 缓存和优化的互连设计,Mali G1-Ultra 专为并行处理 AI 与图形工作负载而打造,大幅减少内存瓶颈,并确保实时体验的灵敏响应与流畅运行。无论是增强照片质量,还是支持更智能的应用交互,Mali G1-Ultra 都在边缘侧实现响应灵敏的实时智能。
可扩展性能的新架构特性
上述的每一项性能与能效的提升,都根源于全新 Mali G1 GPU 系列的最新架构演进。Mali G1-Ultra 为 Arm 第五代 GPU 架构引入多项核心级改进,旨在应对日益复杂的内容,同时避免超出功耗预算。
主要更新包括:
- 双堆叠着色器核心,可使内部带宽加倍并减少拥塞;
- 增加快速访问统一寄存器,以在着色器执行期间大幅减少内存提取。
这些更新共同提升了包括实时光照和基于物理的渲染在内的响应效果(这些特效通常属于计算密集型工作负载)。
此外,Mali G1-Ultra 还引入 Arm 图像区域依赖 (Image Region Dependencies, IRD),这是一种更智能的调度特性,使 GPU 能同时处理屏幕的不同部分,从而在复杂场景中提升性能并减少空闲时间。
为开发者量身打造
为帮助开发者实现更精细的性能优化,Mali G1 GPU 通过基于块 (tile) 的硬件计数器,提供更强的可观测性。这些计数器能逐帧按区域洞察 GPU 活动,让开发者可以更高效地识别热点,并平衡工作负载。
这些计数器可通过 Vulkan 扩展访问,并将在未来的安卓版本中支持 RenderDoc。这让游戏引擎公司、游戏工作室和设备 OEM 厂商能够更为轻松地从该架构中获得最大性能,同时保持视觉质量和电池效率。
全新 Mali G1 GPU 支持 Arm 精锐超级分辨率技术 (Arm Accuracy Super Resolution, Arm ASR),这项时域类超分技术可在减少 GPU 工作负载的同时,提升图像质量。该技术通过虚幻引擎 5 (Unreal Engine 5) 提供,并已集成至《堡垒之夜》手游。Arm ASR 能帮助开发者在不牺牲视觉保真度的情况下,保持高帧率,从而在各种移动设备上实现更流畅的游戏体验与更清晰的细节效果。
释放先进游戏与 AI 体验
Mali G1-Ultra 重新定义了移动 GPU 的性能。得益于在光线追踪、AI 加速和架构效率上的突破性进展,Mali G1-Ultra 为新一代智能手机体验奠定基础,消费者能享受到更持久的沉浸式逼真游戏体验,并通过先进的内建智能获得更迅捷的交互响应。
随着手游的视觉保真度进一步获得提升,AI 也成为日常体验的标准组成,Mali G1-Ultra 为 Arm 生态系统提供所需的性能、余量和工具,使他们能够在各种移动设备上实现丰富、响应灵敏且高能效的表现。