5月30日,华为推出参数规模达7180亿的全新模型盘古Ultra MoE,这是在昇腾AI计算平台上全流程训练的准万亿MoE模型。
华为同时发布了盘古Ultra MoE的技术报告,披露众多技术细节,展示了昇腾平台在超大规模MoE训练性能上的显著提升。业内人士认为,这一成果表明华为已实现国产算力+国产模型全流程自主可控,并在集群训练性能上达到业界领先水平。
训练超大规模和高稀疏性的MoE模型极具挑战,华为盘古团队通过创新设计解决了稳定性问题。团队提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构与TinyInit小初始化方法,在昇腾平台上实现了超过18TB数据的长期稳定训练。
此外,华为还引入EP loss负载优化方法,确保专家间负载均衡并提升领域特化能力。盘古Ultra MoE采用MLA和MTP架构,结合Dropless训练策略,实现了效果与效率的最佳平衡。
近期发布的盘古Pro MoE大模型以720亿参数量、激活160亿参数的情况下,通过动态激活专家网络设计,展现出媲美千亿级模型的性能。根据SuperCLUE榜单,该模型在千亿参数以内排行国内并列第一。
业内人士分析,此次突破证明了昇腾平台能够高效、稳定地训练国际顶尖水平的超大规模稀疏模型,实现了全栈国产化和全流程自主可控。
在国内其他大模型进展方面,深度求索公司于5月28日宣布DeepSeek-R1模型完成小版本升级,用户可通过官方渠道测试。这家公司今年1月发布的DeepSeek-R1模型表现优异,成本仅为数百万美元。
腾讯云也在5月21日的AI产业应用峰会上首次全景展示大模型战略,混元大模型矩阵产品全面升级。腾讯集团高级执行副总裁汤道生表示,混元TurboS在全球权威评测中排名全球前八,代码和数学能力进入全球前十。
5月29日,腾讯多款AI应用接入DeepSeek R1-0528,用户可体验最新深度思考、编程和长文本处理等能力。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。