DeepSeek发布6710亿参数新模型Prover-V2

4月30日,DeepSeek在Hugging Face上发布Prover-V2-671B模型。该模型参数量达6710亿,采用DeepSeek-V3架构与MoE模式,包含61层Transformer和7168维隐藏层。支持超长上下文(最大位置嵌入16.38万)及多种计算精度,使用safetensors格式优化训练部署。作为Prover-V1.5的升级版,其通过FP8量化技术提高推理效率,适用于复杂数学证明任务。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1