大模型参加高考,能上什么学校?
高考结束不到5天,各家大模型纷纷在语文作文、数学题上PK,有的文采飞扬,作文能接近满分;有的数学能力领先,直接满分交卷。如果让大模型直接做完整套试卷,总分又能拿多少?
以辽宁2025年高考真题为例(题目源自网络),记者邀请了7位国产大模型“选手”参赛。他们分别是:DeepSeek、豆包、腾讯元宝(混元T1)、讯飞星火、Kimi、千问和文心。
辽宁卷的语数英采用全国二卷,副科自主命题,据了解,黑、吉、辽、蒙共用九科试卷。整个评测方式采用3(语数外)+3(理综/文综)的形式对大模型进行了全科目测试。评测过程中,优先将试卷题目截图上传作答,少量图片解析失败的用OCR文本代替。最后,邀请了多位在职高中老师,评判各个科目的主观题分数。
从总成绩来看,元宝在文科考试中拿下第一,获得667.5分的高分,以2024年辽宁省高考录取分数线为参考,已经可以冲刺“清北”。紧随其后的豆包、讯飞星火拿下来655分和652分的高分,也可以轻松就读985顶尖院校。
而在理科考试中,和往年一样,理科成绩会整体会弱于文科。拿到第一的豆包获得了635分,紧随其后元宝和kimi拿到了632.5分和629分,都可以冲刺985。但对比文科,无缘顶尖大学。
具体来看,语数英三门主科中,豆包拿下了语文第一,紧随其后元宝、kimi拿下了并列第二。各家在语文主观题上都表现比较平均,而豆包、元宝、kimi在作文上都拿到了50+的高分,使整体成绩更佳。数学测试则是由元宝拿下了第一,获得了149分的高分。只在最后一道解答题中,因答题过程稍不完整,遗憾丢失1分。在英语测试中,各家大模型在主观题都表现的比较平均,都能拿到满分,差异主要出现在英语作文。
大模型在文综方面也都表现不错。对于文综的客观题,表现好一些的大模型,如元宝、豆包能拿到接近满分,这也体现了大模型在知识理解和覆盖上较为出色。但在主观题中,文综对于解答题的“得分点”有比较高的要求,而大模型似乎对此不那么熟悉。比如地理解答题对知识点和推导过程要求严格,大模型可以给出最终答案,但会缺少1-2个知识点的推导。而在政治题上,则更加要求知识点的完整性,在阅读题的部分,大模型经常会遗漏部分知识点导致失分。阅卷老师也特别提到,元宝正是对这些“得分点”把握的比较精准,拿到了更好的成绩。
而在理综方面,大模型在数学逻辑推理上还存在一定短板,另外理科试题存在比较多图像、符号,大模型对这部分内容理解不足,也会导致整体偏弱。阅卷老师提到,比如物理答卷中,针对解答题,大模型大多能匹配到正确的公式,但在计算过程中也会出现不同程度的问题,导致答案偏离。而在化学考试的填空题中,往往一道大题会包含5-6个小题,各家大模型都没法在这类题型中拿到满分。生物题也同样出现这样的状况。
但总体来看,对比去年大模型比较严重的“偏科”情况,成绩只能达到“文科能上一本,理科只能上二本”的水平。今年大模型整体的能力有很大的提升,不仅在文科上能冲刺清北,理科上985也不是问题。这也源于过去一年人工智能领域、以及国产大模型的飞速发展。
相信在未来,发展速度会越来越快,也期待看到模型不仅不再“偏科”、在分数上有跨跃性的进步,还能实际运用到各个学科发展上,攻克更多挑战。
声明:本站转载此文目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。