华为发布开源AI容器技术Flex:ai 提升算力利用效率- DoNews

2025年，全球AI产业持续快速发展，大模型参数规模迈向万亿级，AI应用深入千行百业，算力需求呈指数级增长。然而，算力资源利用效率低下的问题日益凸显。数据显示，超过60%的头部互联网企业GPU利用率低于40%，在私有云部署场景中该比例甚至不足30%。

小任务无法充分利用单卡算力，大任务则面临单机算力不足，多任务并发时调度困难。一家顶级三甲医院仅配备16张AI加速卡，多名医生同时使用AI辅助诊断时，推理任务排队时间可达数十分钟。上海交通大学戚正伟教授指出，科研场景中GPU资源常因占用和排队导致严重浪费，传统虚拟化方案难以实现异构算力环境下的细粒度资源隔离。

传统容器技术在支持GPU、NPU等异构算力方面存在不足，资源隔离与性能保障机制不健全，跨节点、跨集群调度能力有限。英伟达MIG技术虽可切分GPU，但粒度固定且绑定硬件；Run:ai在调度层有进展，但未完全开源，形成技术黑盒，硬件兼容性受限。

在此背景下，华为联合上海交通大学、西安交通大学与厦门大学发布并开源AI容器技术Flex:ai，旨在提升算力利用效率，推动AI普惠化。Flex:ai基于Kubernetes构建，通过XPU池化与智能调度实现算力资源的精细化管理与高效匹配。

第一项技术突破为XPU池化。华为与上海交通大学合作研发的框架可将单张GPU或NPU切分为多份虚拟算力单元，最小切分粒度达10%。相比MIG的固定切片，Flex:ai采用软件定义方式实现弹性切分，如将一张卡划分为40%、30%、20%等不同份额。测试显示，该技术使小模型推理场景下整体算力平均利用率提升30%。

第二项突破是跨节点聚合。华为与厦门大学联合开发的技术将集群内各节点空闲XPU算力整合为“共享算力池”，解决外部碎片与内部碎片问题。通过分离XPU上下文并进行抽象组织与灵活映射，实现“多对多”与“多对一”连接。实测表明，该方案较现有最佳技术提升高优作业吞吐量67%，有效利用17%内部碎片，在大规模仿真中减少74%外部碎片。

第三项突破为多级智能调度。华为与西安交通大学共同打造Hi Scheduler智能调度器，可感知集群负载与资源状态，结合任务优先级与算力需求，对本地及远端虚拟化资源进行全局最优调度。该调度器通过控制命令缓冲区实现时间隔离，直接面向底层命令缓冲区操作，屏蔽API层差异，在可移植性与长期兼容性上表现突出。

华为选择开源开放路径，已向社区开放Flex:ai的智能调度与算力虚拟化模块，并提供标准化通用API接口。此举意在吸引开发者参与算法优化与异构算力兼容工作。此前，华为已开源DCS AI全流程工具链与UCM推理记忆数据管理器。

华为副总裁、数据存储产品线总裁周跃峰表示，AI平民化并非依赖消费级显卡，而是以更低成本让更多人受益。他强调，仅靠华为自身力量难以完成AI行业化落地，需依托生态伙伴共同打造解决方案。Flex:ai由华为与三家高校共创，有助于降低国内AI产业被“卡脖子”的风险。

Flex:ai的推出标志着AI基础设施从追求规模转向注重效率。其三大核心技术有效破解了算力资源调度难题，降低了AI应用门槛，推动AI从技术展示转向实际生产力。随着技术演进与生态完善，此类容器技术可能比超大规模模型更具长远价值。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。