华为发布盘古UltraMoE准万亿参数模型及训练细节

近日,华为推出参数规模高达7180亿的全新模型——盘古UltraMoE,这是全流程在昇腾AI计算平台上训练的准万亿MoE模型。同时,华为发布了该模型架构与训练方法的技术报告。

训练如此大规模且高稀疏性的MoE模型极具挑战,尤其在稳定性方面。为此,盘古团队在模型架构和训练方法上进行了创新设计,成功实现了在昇腾平台上的全流程训练。

在模型架构方面,团队提出了Depth-ScaledSandwich-Norm(DSSN)稳定架构与TinyInit小初始化方法,这使得超过18TB数据的长期稳定训练得以实现。

关于训练方法,华为团队首次披露了在昇腾CloudMatrix384超节点上高效打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,推动RL后训练进入超节点集群时代。

此外,近期发布的盘古ProMoE大模型,在参数量仅为720亿、激活160亿参数量的情况下,通过动态激活专家网络的设计,实现了性能突破。根据SuperCLUE榜单2025年5月数据显示,该模型位居千亿参数量以内大模型排行并列国内第一。

业内人士指出,盘古UltraMoE与盘古ProMoE系列模型的发布,标志着国产算力与国产模型全流程自主可控训练实践的成功,验证了我国AI底层技术的自主创新能力,并为人工智能产业的未来发展提供了信心。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1