陶哲轩用Gemini十分钟破解百年数学难题

Gemini 3 发布后在多项基准测试中表现领先,Epoch AI 发布的 FrontierMath 基准显示,Gemini 3 Pro 在 Tier 1-3 难度下准确率达 38%,Tier 4 达 19%。其在综合能力指数(ECI)中获 154 分,超过 GPT-5.1 的 151 分。

FrontierMath 由职业数学家联合构建,包含 350 道原创数学题,其中 300 道属 Tiers 1–3,难度相当于高年级本科至初级研究生水平;50 道为极端困难的 Tier 4,接近数学前沿研究。评测要求模型提交 Python 函数 answer() 进行自动校验,确保结果客观可重复。

数学家 陶哲轩 使用 Gemini Deepthink 模式,在十分钟内解决了 埃尔德什问题#367 的关键证明。该问题涉及整数平方因子的分布:对连续整数 n 到 n+k-1 计算 B₂(n),即仅保留能成对出现的质因数部分,再求乘积,并探究该乘积是否增长不超过 n²。

2025年11月20日,Wouter van Doorn 提出基于未证明同余恒等式的反证思路,数小时后陶哲轩将该恒等式交由 Gemini Deepthink 处理,模型在约十分钟内完成证明。随后陶哲轩手动将其转化为更基础版本,耗时半小时;两天后,Boris Alexeev 完成 Lean 形式化,耗时两到三小时。

与此同时,Gemini 3 Pro 在物理基准测试 CritPt 中也位居榜首。CritPt 全称为“Complex Research using Integrated Thinking – Physics Test”,由阿贡国家实验室、伊利诺伊大学厄巴纳-香槟分校等三十多家机构的五十余位物理学者共同设计,涵盖凝聚态、量子、天体物理等十一大现代物理分支。

CritPt 测试要求模型完成类似博士生独立课题的任务,包括建模、推导与跨领域联想,并支持自动判分。尽管 Gemini 3 Pro 表现最佳,但得分仅为 9.1%,距满分仍有较大差距。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1