七大AI模型高考数学测试：严谨规则下的真实成绩对比- DoNews

DoNews > 公司新闻 > 七大AI模型高考数学测试：严谨规则下的真实成绩对比

七大AI模型高考数学测试：严谨规则下的真实成绩对比

推荐 2025-06-10 09:03:02

近日，针对AI模型的高考数学能力测试引发了广泛关注。为确保公平公正，某测试者采用严格规则对7家大模型进行了数学能力评估。

测试试卷选用2025年全国一卷数学试题，共计68分，包含7道单选题、3道多选题和3道填空题。测试规则明确如下：不考解答题；所有题目通过LaTeX文本格式输入；剔除含图表理解歧义的第6题；依照高考判分原则计分；每题运行3次以减少幻觉影响；仅使用推理功能，关闭Prompt引导及联网功能。

参与测试的模型包括OpenAI o3、Gemini 2.5 Pro、DeepSeek R1、豆包（1.5-thinking-pro）、元宝（混元T1）、千问3（235B）以及讯飞星火X1。

最终结果表明，Gemini 2.5 Pro表现最佳，逻辑无误；豆包、混元、星火位列第二梯队，因第9题漏选部分选项而屈居其次；DeepSeek因多选题半对半错丢分，排名第五；Qwen3与OpenAI o3因填空题出错垫底。

测试显示，当前推理大模型应对高考数学难度较低，多数错误源于细微幻觉或符号识别问题。研究者强调，一场合格的AI考试应具备公正规则、严谨流程和技术中立性，避免博眼球的夸张表述。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

丰巢取件得先看广告，客服称无法关闭丰巢智能柜取件时强制弹出隐蔽诱导广告，含“摇一摇”跳转，用户吐槽体验差；客服称暂无法关闭，将优化。

熊猫资本合伙人隔空喊话美的何剑锋：盈合机器人6亿融资花哪了熊猫资本李论质疑盈合机器人融超6亿却濒临倒闭，直指盈峰系管理层高薪、乱花钱、套现离场及公司治理失效。

消息称 SpaceX 获 4 倍超额认购：认购资金超 2500 亿美元 SpaceX IPO认购意向超2500亿美元，达计划募资3.5-4倍；主打火箭发射、星链及太空AI算力业务，定价将于周四确定。

Anthropic 推出 Fable 5/Mythos 5 模型 Anthropic发布Claude Fable 5（面向公众，强于Opus，聚焦知识/视觉任务）和Mythos 5（限安全/生物科研，性能顶尖），均定

工信部出手整治App摇一摇跳转；微信朋友圈搜索功能全面开放；Anthropic 推出 Mythos 5｜Do早报 Hello，大家早上好，又是元气满满的一天，先来浏览新鲜的早报吧～

赛豆科技发布AI汽车品牌AIVA AI定义汽车

赛豆科技发布AIVA品牌撞脸阿维塔引争议，阿维塔回应赛豆科技发布AIVA品牌，因名称设计类似阿维塔引发争议；阿维塔谴责模仿，强调抵制不正当竞争；AIVA寓意AI前行与情感陪伴。

Segway Xaber 350 越野电摩正式发布，首销价23997元 Segway Xaber 350越野电摩发布，售价25997元，兼顾城市通勤与轻中度越野，搭载21kW电机、全地形轮胎、智能辅助系统，实现全场景骑行。

关于我们| 电子协议| 合作联系| 京ICP备2025120072号

网站信息

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号

京公网安备11010802023059号