DeepSeek近期密集释放技术成果并扩大团队规模,引发业界对V4模型发布的高度关注。
尽管临近春节,国内科技圈节奏趋缓,DeepSeek却保持高强度技术输出。2025年元旦当天,团队发布了关于模型架构稳定性的论文《mHC:流形约束超连接》;次日又在GitHub上开源新模块Engram的代码,并同步发表论文《Conditional Memory via Scalable Lookup》。两篇论文的作者名单中均包含创始人梁文锋。
这两项研究分别针对大模型的核心瓶颈。Engram模块旨在解决Transformer架构缺乏“条件记忆”的问题,通过外挂式记忆机制实现O(1)时间复杂度的知识调用,提升模型的记忆与推理效率。实验显示,在270亿参数规模下,该模块使MMLU成绩提升3.4,BBH推理能力提升5.0,数学能力提升2.4,“大海捞针”测试准确率从84.2%升至97.0%。
mHC研究则聚焦超大规模模型训练稳定性问题。随着模型参数增长,传统残差连接失效风险上升,DeepSeek提出将神经网络连接约束于特定流形空间的方法,恢复信息传递稳定性。在27B参数混合专家模型上的实验表明,mHC架构相比基线损失降低0.021,推理能力提升2.1%。
为支撑技术研发,DeepSeek正进行大规模招聘。公开信息显示,公司开放多个核心技术岗位,包括深度学习研究员、深度学习研发工程师、大模型全栈工程师、全栈开发工程师和核心系统研发工程师等,涵盖预训练、alignment、codemath、backbone、multimodal等多个方向。校招、社招及实习通道均处于开放状态,产品、设计、数据百晓生等非技术岗位亦有需求。
招聘信息表明,此次扩招主要源于业务扩展需要。此前梁文锋署名论文的作者团队成员稳定,人员流动较小。多数岗位支持北京或杭州办公,相较以往集中于杭州的布局有所调整。2025年11月,公司曾启动行政岗位招聘,相关人士称系因团队规模扩大需增加行政支持。
围绕Engram的研究揭示了一个关键发现:在Iso-FLOPs约束下,将20%-25%资源分配给静态记忆(Engram),其余用于神经计算(MoE),可达到最优效果。这一反直觉结论表明,“少算多记”策略有助于释放模型推理潜力。
为提升mHC架构的工程效率,团队实施多项底层优化。采用TileLang框架实现操作融合内核,减少内存访问;针对Sinkhorn-Knopp算法设计专用前向与反向内核,通过芯片上重计算降低存储开销;扩展DualPipe调度策略,将MLP层特定内核置于高优先级计算流,实现通信与计算重叠。
综合来看,DeepSeek在过去一年并未参与应用层竞争,而是专注于基础架构创新。Engram解决了“记不住”与“推理慢”的问题,mHC应对“长不大”与“练不稳”的挑战。两项成果共同构成下一代模型的技术基石。
结合技术进展与组织扩张,行业推测DeepSeek V4已进入发布前阶段。该模型预计并非单纯参数堆叠产物,而是集成MoE计算效率、Engram低成本记忆及mHC训练稳定性的复合架构。Engram支持的“预取-重叠”策略允许利用CPU内存存储知识,GPU专注逻辑运算,有望显著降低推理成本。
mHC的成功验证也意味着DeepSeek具备训练更大规模多模态乃至万亿参数模型的能力。相关基础设施优化代码已上传GitHub,梁文锋在此时点连续推出硬核研究成果,被视作正式发布前的技术预演。
目前所有迹象指向同一结论:DeepSeek已完成关键技术储备与团队建设,V4模型的发布或将重塑行业格局。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



