DeepSeek密集开源技术并大量招聘梁文锋率队备战V4发布- DoNews

DeepSeek近期密集释放技术成果并扩大团队规模，引发业界对V4模型发布的高度关注。

尽管临近春节，国内科技圈节奏趋缓，DeepSeek却保持高强度技术输出。2025年元旦当天，团队发布了关于模型架构稳定性的论文《mHC：流形约束超连接》；次日又在GitHub上开源新模块Engram的代码，并同步发表论文《Conditional Memory via Scalable Lookup》。两篇论文的作者名单中均包含创始人梁文锋。

这两项研究分别针对大模型的核心瓶颈。Engram模块旨在解决Transformer架构缺乏“条件记忆”的问题，通过外挂式记忆机制实现O(1)时间复杂度的知识调用，提升模型的记忆与推理效率。实验显示，在270亿参数规模下，该模块使MMLU成绩提升3.4，BBH推理能力提升5.0，数学能力提升2.4，“大海捞针”测试准确率从84.2%升至97.0%。

mHC研究则聚焦超大规模模型训练稳定性问题。随着模型参数增长，传统残差连接失效风险上升，DeepSeek提出将神经网络连接约束于特定流形空间的方法，恢复信息传递稳定性。在27B参数混合专家模型上的实验表明，mHC架构相比基线损失降低0.021，推理能力提升2.1%。

为支撑技术研发，DeepSeek正进行大规模招聘。公开信息显示，公司开放多个核心技术岗位，包括深度学习研究员、深度学习研发工程师、大模型全栈工程师、全栈开发工程师和核心系统研发工程师等，涵盖预训练、alignment、codemath、backbone、multimodal等多个方向。校招、社招及实习通道均处于开放状态，产品、设计、数据百晓生等非技术岗位亦有需求。

招聘信息表明，此次扩招主要源于业务扩展需要。此前梁文锋署名论文的作者团队成员稳定，人员流动较小。多数岗位支持北京或杭州办公，相较以往集中于杭州的布局有所调整。2025年11月，公司曾启动行政岗位招聘，相关人士称系因团队规模扩大需增加行政支持。

围绕Engram的研究揭示了一个关键发现：在Iso-FLOPs约束下，将20%-25%资源分配给静态记忆（Engram），其余用于神经计算（MoE），可达到最优效果。这一反直觉结论表明，“少算多记”策略有助于释放模型推理潜力。

为提升mHC架构的工程效率，团队实施多项底层优化。采用TileLang框架实现操作融合内核，减少内存访问；针对Sinkhorn-Knopp算法设计专用前向与反向内核，通过芯片上重计算降低存储开销；扩展DualPipe调度策略，将MLP层特定内核置于高优先级计算流，实现通信与计算重叠。

综合来看，DeepSeek在过去一年并未参与应用层竞争，而是专注于基础架构创新。Engram解决了“记不住”与“推理慢”的问题，mHC应对“长不大”与“练不稳”的挑战。两项成果共同构成下一代模型的技术基石。

结合技术进展与组织扩张，行业推测DeepSeek V4已进入发布前阶段。该模型预计并非单纯参数堆叠产物，而是集成MoE计算效率、Engram低成本记忆及mHC训练稳定性的复合架构。Engram支持的“预取-重叠”策略允许利用CPU内存存储知识，GPU专注逻辑运算，有望显著降低推理成本。

mHC的成功验证也意味着DeepSeek具备训练更大规模多模态乃至万亿参数模型的能力。相关基础设施优化代码已上传GitHub，梁文锋在此时点连续推出硬核研究成果，被视作正式发布前的技术预演。

目前所有迹象指向同一结论：DeepSeek已完成关键技术储备与团队建设，V4模型的发布或将重塑行业格局。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。