大模型都能冲清北了？首个AI高考总分评测结果出炉- DoNews

大模型参加高考，能上什么学校？

高考结束不到5天，各家大模型纷纷在语文作文、数学题上PK，有的文采飞扬，作文能接近满分；有的数学能力领先，直接满分交卷。如果让大模型直接做完整套试卷，总分又能拿多少？

以辽宁2025年高考真题为例（题目源自网络），记者邀请了7位国产大模型“选手”参赛。他们分别是：DeepSeek、豆包、腾讯元宝（混元T1）、讯飞星火、Kimi、千问和文心。

辽宁卷的语数英采用全国二卷，副科自主命题，据了解，黑、吉、辽、蒙共用九科试卷。整个评测方式采用3（语数外）+3（理综/文综）的形式对大模型进行了全科目测试。评测过程中，优先将试卷题目截图上传作答，少量图片解析失败的用OCR文本代替。最后，邀请了多位在职高中老师，评判各个科目的主观题分数。

从总成绩来看，元宝在文科考试中拿下第一，获得667.5分的高分，以2024年辽宁省高考录取分数线为参考，已经可以冲刺“清北”。紧随其后的豆包、讯飞星火拿下来655分和652分的高分，也可以轻松就读985顶尖院校。

而在理科考试中，和往年一样，理科成绩会整体会弱于文科。拿到第一的豆包获得了635分，紧随其后元宝和kimi拿到了632.5分和629分，都可以冲刺985。但对比文科，无缘顶尖大学。

具体来看，语数英三门主科中，豆包拿下了语文第一，紧随其后元宝、kimi拿下了并列第二。各家在语文主观题上都表现比较平均，而豆包、元宝、kimi在作文上都拿到了50+的高分，使整体成绩更佳。数学测试则是由元宝拿下了第一，获得了149分的高分。只在最后一道解答题中，因答题过程稍不完整，遗憾丢失1分。在英语测试中，各家大模型在主观题都表现的比较平均，都能拿到满分，差异主要出现在英语作文。

大模型在文综方面也都表现不错。对于文综的客观题，表现好一些的大模型，如元宝、豆包能拿到接近满分，这也体现了大模型在知识理解和覆盖上较为出色。但在主观题中，文综对于解答题的“得分点”有比较高的要求，而大模型似乎对此不那么熟悉。比如地理解答题对知识点和推导过程要求严格，大模型可以给出最终答案，但会缺少1-2个知识点的推导。而在政治题上，则更加要求知识点的完整性，在阅读题的部分，大模型经常会遗漏部分知识点导致失分。阅卷老师也特别提到，元宝正是对这些“得分点”把握的比较精准，拿到了更好的成绩。

而在理综方面，大模型在数学逻辑推理上还存在一定短板，另外理科试题存在比较多图像、符号，大模型对这部分内容理解不足，也会导致整体偏弱。阅卷老师提到，比如物理答卷中，针对解答题，大模型大多能匹配到正确的公式，但在计算过程中也会出现不同程度的问题，导致答案偏离。而在化学考试的填空题中，往往一道大题会包含5-6个小题，各家大模型都没法在这类题型中拿到满分。生物题也同样出现这样的状况。

但总体来看，对比去年大模型比较严重的“偏科”情况，成绩只能达到“文科能上一本，理科只能上二本”的水平。今年大模型整体的能力有很大的提升，不仅在文科上能冲刺清北，理科上985也不是问题。这也源于过去一年人工智能领域、以及国产大模型的飞速发展。

相信在未来，发展速度会越来越快，也期待看到模型不仅不再“偏科”、在分数上有跨跃性的进步，还能实际运用到各个学科发展上，攻克更多挑战。

声明：本站转载此文目的在于传递更多信息，并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本网联系，我们将在第一时间删除内容,本网站对此声明具有最终解释权。