DeepSeek发布6710亿参数新模型Prover-V2

4月30日,DeepSeek在Hugging Face上发布Prover-V2-671B模型。该模型参数量达6710亿,采用DeepSeek-V3架构与MoE模式,拥有61层Transformer和7168维隐藏层。支持超长上下文(最大位置嵌入163840),并使用FP8量化技术优化推理效率及减小模型体积,方便训练和部署,或为Prover-V1.5升级版,适用于复杂数学证明任务。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1