近日,针对AI模型的高考数学能力测试引发了广泛关注。为确保公平公正,某测试者采用严格规则对7家大模型进行了数学能力评估。
测试试卷选用2025年全国一卷数学试题,共计68分,包含7道单选题、3道多选题和3道填空题。测试规则明确如下:不考解答题;所有题目通过LaTeX文本格式输入;剔除含图表理解歧义的第6题;依照高考判分原则计分;每题运行3次以减少幻觉影响;仅使用推理功能,关闭Prompt引导及联网功能。
参与测试的模型包括OpenAI o3、Gemini 2.5 Pro、DeepSeek R1、豆包(1.5-thinking-pro)、元宝(混元T1)、千问3(235B)以及讯飞星火X1。
最终结果表明,Gemini 2.5 Pro表现最佳,逻辑无误;豆包、混元、星火位列第二梯队,因第9题漏选部分选项而屈居其次;DeepSeek因多选题半对半错丢分,排名第五;Qwen3与OpenAI o3因填空题出错垫底。
测试显示,当前推理大模型应对高考数学难度较低,多数错误源于细微幻觉或符号识别问题。研究者强调,一场合格的AI考试应具备公正规则、严谨流程和技术中立性,避免博眼球的夸张表述。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。