华为发布开源AI容器技术Flex:ai 提升算力利用效率

2025年,全球AI产业持续快速发展,大模型参数规模迈向万亿级,AI应用深入千行百业,算力需求呈指数级增长。然而,算力资源利用效率低下的问题日益凸显。数据显示,超过60%的头部互联网企业GPU利用率低于40%,在私有云部署场景中该比例甚至不足30%。

小任务无法充分利用单卡算力,大任务则面临单机算力不足,多任务并发时调度困难。一家顶级三甲医院仅配备16张AI加速卡,多名医生同时使用AI辅助诊断时,推理任务排队时间可达数十分钟。上海交通大学戚正伟教授指出,科研场景中GPU资源常因占用和排队导致严重浪费,传统虚拟化方案难以实现异构算力环境下的细粒度资源隔离。

传统容器技术在支持GPU、NPU等异构算力方面存在不足,资源隔离与性能保障机制不健全,跨节点、跨集群调度能力有限。英伟达MIG技术虽可切分GPU,但粒度固定且绑定硬件;Run:ai在调度层有进展,但未完全开源,形成技术黑盒,硬件兼容性受限。

在此背景下,华为联合上海交通大学、西安交通大学与厦门大学发布并开源AI容器技术Flex:ai,旨在提升算力利用效率,推动AI普惠化。Flex:ai基于Kubernetes构建,通过XPU池化与智能调度实现算力资源的精细化管理与高效匹配。

第一项技术突破为XPU池化。华为与上海交通大学合作研发的框架可将单张GPU或NPU切分为多份虚拟算力单元,最小切分粒度达10%。相比MIG的固定切片,Flex:ai采用软件定义方式实现弹性切分,如将一张卡划分为40%、30%、20%等不同份额。测试显示,该技术使小模型推理场景下整体算力平均利用率提升30%。

第二项突破是跨节点聚合。华为与厦门大学联合开发的技术将集群内各节点空闲XPU算力整合为“共享算力池”,解决外部碎片与内部碎片问题。通过分离XPU上下文并进行抽象组织与灵活映射,实现“多对多”与“多对一”连接。实测表明,该方案较现有最佳技术提升高优作业吞吐量67%,有效利用17%内部碎片,在大规模仿真中减少74%外部碎片。

第三项突破为多级智能调度。华为与西安交通大学共同打造Hi Scheduler智能调度器,可感知集群负载与资源状态,结合任务优先级与算力需求,对本地及远端虚拟化资源进行全局最优调度。该调度器通过控制命令缓冲区实现时间隔离,直接面向底层命令缓冲区操作,屏蔽API层差异,在可移植性与长期兼容性上表现突出。

华为选择开源开放路径,已向社区开放Flex:ai的智能调度与算力虚拟化模块,并提供标准化通用API接口。此举意在吸引开发者参与算法优化与异构算力兼容工作。此前,华为已开源DCS AI全流程工具链与UCM推理记忆数据管理器。

华为副总裁、数据存储产品线总裁周跃峰表示,AI平民化并非依赖消费级显卡,而是以更低成本让更多人受益。他强调,仅靠华为自身力量难以完成AI行业化落地,需依托生态伙伴共同打造解决方案。Flex:ai由华为与三家高校共创,有助于降低国内AI产业被“卡脖子”的风险。

Flex:ai的推出标志着AI基础设施从追求规模转向注重效率。其三大核心技术有效破解了算力资源调度难题,降低了AI应用门槛,推动AI从技术展示转向实际生产力。随着技术演进与生态完善,此类容器技术可能比超大规模模型更具长远价值。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1