DeepSeek日前公布了旗下V3模型在训练与推理过程中的降本技术细节,创始人梁文锋参与了报告撰写。
报告显示,DeepSeek-V3使用2048个英伟达H800GPU完成训练,实现了与超大规模集群相当的效果。其核心技术包括以下四个方面:
首先,采用多头潜在注意力(MLA)技术优化内存占用,将KV缓存大小降低至每token仅70KB,为传统方法的1/7至1/4,显著减轻显存压力。
其次,利用DeepSeek-MoE(混合专家架构)进行计算优化,通过只激活部分参数的方式,使训练成本降至同规模稠密模型的1/10,并能在消费级GPU上运行,达到每秒生成近20个token的速度。
第三,通过FP8低精度训练技术,将模型所需内存和计算量减半,同时借助精细量化保持精度。这使得训练成本降低50%,精度损失小于0.25%。
最后,在通信方面,DeepSeek-V3采用了多层胖树网络(Multi-Plane Fat-Tree),避免任务流量冲突;推理时,还结合流水线并行(DualPipe)技术,分阶段执行注意力计算与专家间通信,提升数据传输效率。
此外,DeepSeek-V3引入多token预测(MTP)方法进一步加速推理性能。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。