DeepSeek发布6710亿参数数学模型Prover-V2-671B

4月30日,DeepSeek在Hugging Face上发布新模型DeepSeek-Prover-V2-671B。该模型参数达6710亿,基于DeepSeek-V3架构,采用MoE模式,具有61层Transformer和7168维隐藏层。它支持多种计算精度、超长上下文(最大位置嵌入163840),并使用FP8量化技术优化推理效率。此模型可能是去年Prover-V1.5的升级版,专注于复杂数学证明任务。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1