北京时间2026年1月1日下午,DeepSeek公布了一篇关于新型神经网络架构mHC(流形约束超连接)的研究论文。该研究由解振达、韦毅轩、曹欢奇三位为共同第一作者,DeepSeek创始人梁文锋亦在作者之列。mHC旨在解决传统超连接在大规模模型训练中的不稳定性与内存开销问题,通过将残差连接投影到特定流形以恢复恒等映射属性,并结合基础设施优化提升效率。实验表明,mHC在大规模训练中具备良好性能增益与可扩展性,有望为大模型架构设计提供新方向。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。
北京时间2026年1月1日下午,DeepSeek公布了一篇关于新型神经网络架构mHC(流形约束超连接)的研究论文。该研究由解振达、韦毅轩、曹欢奇三位为共同第一作者,DeepSeek创始人梁文锋亦在作者之列。mHC旨在解决传统超连接在大规模模型训练中的不稳定性与内存开销问题,通过将残差连接投影到特定流形以恢复恒等映射属性,并结合基础设施优化提升效率。实验表明,mHC在大规模训练中具备良好性能增益与可扩展性,有望为大模型架构设计提供新方向。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。