陶哲轩用Gemini十分钟破解百年数学难题- DoNews

Gemini 3 发布后在多项基准测试中表现领先，Epoch AI 发布的 FrontierMath 基准显示，Gemini 3 Pro 在 Tier 1-3 难度下准确率达 38%，Tier 4 达 19%。其在综合能力指数（ECI）中获 154 分，超过 GPT-5.1 的 151 分。

FrontierMath 由职业数学家联合构建，包含 350 道原创数学题，其中 300 道属 Tiers 1–3，难度相当于高年级本科至初级研究生水平；50 道为极端困难的 Tier 4，接近数学前沿研究。评测要求模型提交 Python 函数 answer() 进行自动校验，确保结果客观可重复。

数学家 陶哲轩 使用 Gemini Deepthink 模式，在十分钟内解决了 埃尔德什问题#367 的关键证明。该问题涉及整数平方因子的分布：对连续整数 n 到 n+k-1 计算 B₂(n)，即仅保留能成对出现的质因数部分，再求乘积，并探究该乘积是否增长不超过 n²。

2025年11月20日，Wouter van Doorn 提出基于未证明同余恒等式的反证思路，数小时后陶哲轩将该恒等式交由 Gemini Deepthink 处理，模型在约十分钟内完成证明。随后陶哲轩手动将其转化为更基础版本，耗时半小时；两天后，Boris Alexeev 完成 Lean 形式化，耗时两到三小时。

与此同时，Gemini 3 Pro 在物理基准测试 CritPt 中也位居榜首。CritPt 全称为“Complex Research using Integrated Thinking – Physics Test”，由阿贡国家实验室、伊利诺伊大学厄巴纳-香槟分校等三十多家机构的五十余位物理学者共同设计，涵盖凝聚态、量子、天体物理等十一大现代物理分支。

CritPt 测试要求模型完成类似博士生独立课题的任务，包括建模、推导与跨领域联想，并支持自动判分。尽管 Gemini 3 Pro 表现最佳，但得分仅为 9.1%，距满分仍有较大差距。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。