DeepSeek发布首个IMO金牌水平开源数学模型

11月27日晚,DeepSeek在Hugging Face开源了新模型DeepSeek-Math-V2,这是目前行业首个达到国际奥林匹克数学竞赛(IMO)金牌水平且开源的数学推理模型。

根据同步发布的技术论文《DeepSeek Math-V2:迈向可自验证的数学推理》,该模型在IMO-ProofBench基准及近期数学竞赛中表现优异,部分性能优于谷歌Gemini DeepThink系列。

在Basic基准测试中,DeepSeek-Math-V2得分接近99%,显著高于Gemini Deep Think (IMO Gold)的89%。但在Advanced子集上,Math-V2得分为61.9%,略低于Gemini Deep Think的65.7%。

论文指出,当前AI数学推理存在局限性,即以正确答案作为训练奖励无法确保推理过程的正确性,尤其在定理证明等需严格分步推导的任务中,传统方法适用性有限。

为突破深度推理瓶颈,DeepSeek提出自我验证机制,强调对数学推理过程的全面性和严谨性验证,尤其适用于扩展测试时间计算和无已知解的开放问题。

Math-V2实现了从结果导向向过程导向的转变,不依赖大量带答案的数学题数据,而是通过模拟数学家的审查方式提升模型自主解决高难度证明题的能力。

实验结果显示,该模型在IMO 2025和CMO 2024中取得金牌成绩,在Putnam 2024测试中通过扩展计算实现接近满分的表现,得分为118/120。

研究团队认为,尽管仍有改进空间,但结果表明可自我验证的数学推理是可行方向,有望推动更强大的数学AI系统发展。

海外社区反响强烈,有评论称“鲸鱼终于回来了”,并指出DeepSeek以约10个百分点优势超越谷歌同类模型,超出预期。另有观点预测其将推出编程领域的新模型。

近期AI领域竞争加剧,OpenAI、xAI和谷歌相继发布GPT-5.1、Grok 4.1和Gemini 3系列模型,业界普遍期待DeepSeek旗舰模型的进一步更新动作。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1