4月30日,DeepSeek在Hugging Face上发布新模型DeepSeek-Prover-V2-671B。该模型参数达6710亿,基于DeepSeek-V3架构,采用MoE模式,具有61层Transformer和7168维隐藏层。它支持多种计算精度、超长上下文(最大位置嵌入163840),并使用FP8量化技术优化推理效率。此模型可能是去年Prover-V1.5的升级版,专注于复杂数学证明任务。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。
4月30日,DeepSeek在Hugging Face上发布新模型DeepSeek-Prover-V2-671B。该模型参数达6710亿,基于DeepSeek-V3架构,采用MoE模式,具有61层Transformer和7168维隐藏层。它支持多种计算精度、超长上下文(最大位置嵌入163840),并使用FP8量化技术优化推理效率。此模型可能是去年Prover-V1.5的升级版,专注于复杂数学证明任务。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。