DeepSeek发布V3模型降本技术报告

DeepSeek日前公布了旗下V3模型在训练与推理过程中的降本技术细节,创始人梁文锋参与了报告撰写。

报告显示,DeepSeek-V3使用2048个英伟达H800GPU完成训练,实现了与超大规模集群相当的效果。其核心技术包括以下四个方面:

首先,采用多头潜在注意力(MLA)技术优化内存占用,将KV缓存大小降低至每token仅70KB,为传统方法的1/7至1/4,显著减轻显存压力。

其次,利用DeepSeek-MoE(混合专家架构)进行计算优化,通过只激活部分参数的方式,使训练成本降至同规模稠密模型的1/10,并能在消费级GPU上运行,达到每秒生成近20个token的速度。

第三,通过FP8低精度训练技术,将模型所需内存和计算量减半,同时借助精细量化保持精度。这使得训练成本降低50%,精度损失小于0.25%。

最后,在通信方面,DeepSeek-V3采用了多层胖树网络(Multi-Plane Fat-Tree),避免任务流量冲突;推理时,还结合流水线并行(DualPipe)技术,分阶段执行注意力计算与专家间通信,提升数据传输效率。

此外,DeepSeek-V3引入多token预测(MTP)方法进一步加速推理性能。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1