DeepSeek发布mHC新架构解决超连接训练 instability- DoNews

DeepSeek提出了一种名为mHC（流形约束超连接）的新架构，旨在解决传统超连接在大规模模型训练中的不稳定性问题，同时保持其性能增益。该架构将传统Transformer的单一残差流扩展为多流并行结构，并通过Sinkhorn-Knopp算法将连接矩阵约束于双拟随机矩阵流形上，从而解决因破坏恒等映射导致的数值不稳定与信号爆炸问题。

论文第一作者为Zhenda Xie、Yixuan Wei和Huanqi Cao，DeepSeek创始人兼CEO梁文锋亦列名其中。研究指出，传统残差连接依赖“恒等映射”保障信号稳定传输，但信息通道宽度受限于隐藏层维度C。近年来Hyper-Connections（HC）通过拓宽残差流和多样化连接模式突破此限制，带来性能提升的同时也引发两大挑战：一是连接矩阵自由学习导致信号传播中数值“爆炸”或“消失”，破坏训练稳定性；二是通道加宽显著增加显存读写与通信开销，加剧“显存墙”问题。

mHC作为通用框架，将HC的残差连接空间投影至特定流形以恢复恒等映射属性，并结合基础设施优化确保效率。其核心机制是利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形（即双随机矩阵集合），使信号传播成为特征的“凸组合”，从数学上保证信号范数稳定。为抵消额外开销，团队实施了内核融合、选择性重计算及扩展的DualPipe通信计算重叠策略。

实验证明，mHC在27B参数规模下展现出卓越可扩展性。当扩展倍率n=4时，训练时间仅增加6.7%，却实现显著性能提升。图示对比显示，mHC在训练损失与梯度范数方面均优于HC，接近基线模型稳定性。在下游任务评估中，mHC在8项基准测试中全面超越基线模型，并在多数任务上优于HC，尤其在BBH与DROP任务分别取得2.1%和2.3%的增益。

方法层面，mHC将残差映射Hlres约束于双拟随机矩阵流形Mres，满足行和与列和均为1且元素非负。该设计具备多项理论优势：范数保持——谱范数∥Hlres∥₂≤1，缓解梯度爆炸；复合封闭性——多层复合仍保持双拟随机性，维持深层稳定性；几何解释——作为排列矩阵凸包，促进跨流信息混合。此外，输入映射Hlpre与输出映射Hlpost被施加非负约束，避免正负系数叠加导致信号抵消。

参数化过程中，第l层输入xl展平后经动态与静态映射生成原始矩阵，再通过Sigmoid函数与Sinkhorn-Knopp算子进行流形投影。后者通过指数操作确保正值，再迭代规范化行列使其和为1，实验中设定最大迭代次数t_max=20。

为提升效率，DeepSeek设计专用基础设施：算子融合——调整RMSNorm顺序，采用混合精度，开发统一算子融合多次扫描与矩阵乘法，减少内存瓶颈；在单个算子内实现Sinkhorn-Knopp及其反向传播，并融合Hlpost与Hlpre应用与残差合并操作。重计算——前向传播后丢弃中间激活，在反向传播时重新计算，推导最优块大小L_r^*以最小化总内存占用。DualPipe通信重叠——扩展调度算法以增强流水线并行边界处的通信计算重叠，在专用高优先级流执行MLP内核，避免注意力层使用持久算子阻塞通信。

实验设置基于受DeepSeek-V3启发的MoE架构，训练包括3B、9B与27B参数模型。HC与mHC扩展率n均设为4，主实验聚焦27B模型，训练数据量与其参数成正比。另设3B模型在固定1T Token语料上训练以分析Token规模影响。结果表明，mHC在损失与梯度稳定性上明显优于HC，系统级基准测试中持续领先。计算扩展曲线显示，从3B至27B规模，mHC优势随计算预算增加保持稳健；Token扩展曲线表明其在训练过程中性能提升轨迹一致。内部大规模训练进一步验证其有效性。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。