如今的人工智能越来越强大,这些能力背后离不开AI算力集群的支持。随着人工智能从简单规则判断发展到处理万亿参数的大模型,单台计算机的算力难以满足需求,而算力集群则将上万台计算机连接起来,形成强大的‘算力航空母舰’。
在整合上万台计算机的过程中,需要解决多个难题:如何让它们协同工作?如何应对设备故障?如何快速恢复大规模训练中断?以下将介绍支撑AI算力集群的关键特性。
超节点高可用
如同医院急诊系统必须时刻在线,AI训练和推理也不能轻易中断。华为针对CloudMatrix 384超节点提出面向整个超节点的故障容错方案,包括系统层容错、业务层容错及运维层容错,核心思想是将故障问题转化为亚健康问题并通过运维手段消除。
集群线性度
理想情况下,100台计算机的算力应为1台的100倍。华为团队提出拓扑感知的协同编排技术TACO、网络级网存算融合技术NSF、拓扑感知的层次化集合通信技术NB以及无侵入通信跨层测量与诊断技术AICT,提升盘古模型训练线性度。实验显示,训练Pangu Ultra 135B稠密模型时,4K卡集群相比256卡基线线性度达96%;训练Pangu Ultra MoE 718B稀疏模型时,8K卡集群线性度为95.05%。
万卡集群训练快速恢复
当用上万个计算单元训练超大规模模型时,系统会自动记录训练进度。一旦检测到故障,能快速定位问题并从最新存档点继续训练。华为提出多项创新:进程级重调度恢复可将恢复时间缩短至3分钟以内;进程级在线恢复针对硬件UCE故障实现30秒内恢复;算子级在线恢复容忍长时间网络异常,确保任务不中断。
超大规模MoE模型推理分钟级恢复
随着MOE模型架构演进,实例部署从一机八卡演进为大EP组网架构,面临故障概率增大等问题。华为提出三级容错方案,包括实例内快速重启恢复技术、TOKEN级重试以及减卡弹性恢复技术,最小化用户损失。
故障管理与感知诊断
算力集群有一套实时监控系统,持续监测温度、算力利用率等指标。华为提供完整的硬件灾备高可靠架构设计,涵盖基础检错纠错能力、故障隔离能力等,并构建大规模集群在线故障感知和故障诊断技术。
建模仿真
在正式开展复杂AI模型训推之前,算力集群可在虚拟环境中模拟。华为提出系统化、可扩展的马尔科夫建模仿真平台,实现多维度系统性建模分析与性能预测调优。
框架迁移
自2020年3月全面开源以来,昇思MindSpore开发者生态迅速成长。MindSpore构建了MSAdapter生态适配工具,覆盖90%以上PyTorch接口,支持无缝迁移,并优化动态图执行效率。
总结来看,华为团队针对昇腾算力集群基础设施提出了全维度创新方案,未来算力基础设施将走上算法-算力-工程协同进化的道路。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。