DeepSeek发布mHC新架构 解决超连接训练 instability

DeepSeek提出了一种名为mHC(流形约束超连接)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其性能增益。该架构将传统Transformer的单一残差流扩展为多流并行结构,并通过Sinkhorn-Knopp算法将连接矩阵约束于双拟随机矩阵流形上,从而解决因破坏恒等映射导致的数值不稳定与信号爆炸问题。

论文第一作者为Zhenda Xie、Yixuan Wei和Huanqi Cao,DeepSeek创始人兼CEO梁文锋亦列名其中。研究指出,传统残差连接依赖“恒等映射”保障信号稳定传输,但信息通道宽度受限于隐藏层维度C。近年来Hyper-Connections(HC)通过拓宽残差流和多样化连接模式突破此限制,带来性能提升的同时也引发两大挑战:一是连接矩阵自由学习导致信号传播中数值“爆炸”或“消失”,破坏训练稳定性;二是通道加宽显著增加显存读写与通信开销,加剧“显存墙”问题。

mHC作为通用框架,将HC的残差连接空间投影至特定流形以恢复恒等映射属性,并结合基础设施优化确保效率。其核心机制是利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形(即双随机矩阵集合),使信号传播成为特征的“凸组合”,从数学上保证信号范数稳定。为抵消额外开销,团队实施了内核融合、选择性重计算及扩展的DualPipe通信计算重叠策略。

实验证明,mHC在27B参数规模下展现出卓越可扩展性。当扩展倍率n=4时,训练时间仅增加6.7%,却实现显著性能提升。图示对比显示,mHC在训练损失与梯度范数方面均优于HC,接近基线模型稳定性。在下游任务评估中,mHC在8项基准测试中全面超越基线模型,并在多数任务上优于HC,尤其在BBH与DROP任务分别取得2.1%和2.3%的增益。

方法层面,mHC将残差映射Hlres约束于双拟随机矩阵流形Mres,满足行和与列和均为1且元素非负。该设计具备多项理论优势:范数保持——谱范数∥Hlres∥₂≤1,缓解梯度爆炸;复合封闭性——多层复合仍保持双拟随机性,维持深层稳定性;几何解释——作为排列矩阵凸包,促进跨流信息混合。此外,输入映射Hlpre与输出映射Hlpost被施加非负约束,避免正负系数叠加导致信号抵消。

参数化过程中,第l层输入xl展平后经动态与静态映射生成原始矩阵,再通过Sigmoid函数与Sinkhorn-Knopp算子进行流形投影。后者通过指数操作确保正值,再迭代规范化行列使其和为1,实验中设定最大迭代次数t_max=20。

为提升效率,DeepSeek设计专用基础设施:算子融合——调整RMSNorm顺序,采用混合精度,开发统一算子融合多次扫描与矩阵乘法,减少内存瓶颈;在单个算子内实现Sinkhorn-Knopp及其反向传播,并融合Hlpost与Hlpre应用与残差合并操作。重计算——前向传播后丢弃中间激活,在反向传播时重新计算,推导最优块大小L_r^*以最小化总内存占用。DualPipe通信重叠——扩展调度算法以增强流水线并行边界处的通信计算重叠,在专用高优先级流执行MLP内核,避免注意力层使用持久算子阻塞通信。

实验设置基于受DeepSeek-V3启发的MoE架构,训练包括3B、9B与27B参数模型。HC与mHC扩展率n均设为4,主实验聚焦27B模型,训练数据量与其参数成正比。另设3B模型在固定1T Token语料上训练以分析Token规模影响。结果表明,mHC在损失与梯度稳定性上明显优于HC,系统级基准测试中持续领先。计算扩展曲线显示,从3B至27B规模,mHC优势随计算预算增加保持稳健;Token扩展曲线表明其在训练过程中性能提升轨迹一致。内部大规模训练进一步验证其有效性。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号