AI高考哪家强?六款国产大模型文理大PK揭示答案!

高考的AI含量正在变得越来越高。考场之内,各类AI监考辅助系统、AI辅助阅卷等新技术正在不断应用。考场之外,AI大模型们比拼答题也几乎成了每年高考的“保留节目”。

和往年不同,今年AI高考比拼的主角变成了深度推理大模型。相较于去年的大语言模型,深度推理模型在问题理解、思考深度以及回答输出上都更具优势,思维链的加入也让人们更加清晰地看到了模型的思考过程。

去年大语言模型混战时,部分模型还无法准确理解题意,甚至出现作文跑题现象,而今年这种情况已大大减少。与此同时,得益于深度推理模型在数学逻辑思维能力上的提升,模型的高考数学得分屡创新高,涌现出越来越多的“AI状元”。

过去几天,已有不少媒体率先对大模型的高考答题能力展出深度测评,涵盖语文、数学、英语等多个主要科目。结果显示,国产大模型的进步可圈可点。在多家媒体的大模型高考横评中,国产大模型的答题水平丝毫不弱于OpenAI最新的推理模型,以DeepSeek R1、讯飞星火X1等为代表的国产大模型,更是实现了对海外主流模型的反超。

以界面旗下的新媒体“电厂”针对高考语文作文的测评为例。电厂选取了高考之后公认较难的全国1卷语文作文进行测评,DeepSeek、通义千问、字节豆包、文心一言、腾讯混元以及讯飞星火等6款主流国产大模型参与作答,同时特别邀请到专业高中语文教师及专家,来对各大模型生成的高考作文逐一打分。评分规则为两位教师专家各自独立评分,最后取平均得分。

根据两位专家的最后评分可以看到,包括讯飞星火、DeepSeek、字节豆包以及通义千问四款大模型都获得了50分以上的平均分,其中讯飞星火以平均分53分名列第一,DeepSeek以52.5分名列第二位,腾讯混元、文心一言则相对得分较低。不过,6 款大模型均能准确抓住题意,围绕题干中”沉默与发声”的关系展开论述。

综合专家意见,讯飞星火、DeepSeek得分较高的共同原因均是切中题意、立意深刻,同时逻辑缜密、论述完整,兼具思辨性与感染力。而得分较低的模型则或多或少在文章结构、素材选择以及论述逻辑上存在明显短板。

中文写作之外,也有媒体专门测试了几款大模型的英文写作水平。新京报选择了今年高考英语北京卷的作文题目,测评DeepSeek R1、ChatGPT o3、通义千问 Qwen3、腾讯混元 T1、讯飞星火 X1、百度文心 X1等6款深度推理模型产品。模型答题结束后,新京报邀请到北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉等两位专家教师,参照往年高考评分标准对大模型进行打分并点评。

从得分结果中可以看出,讯飞星火X1和DeepSeek R1再度实现对其他模型的反超,分别包揽第一、二名。其中,讯飞星火X1拿下全场最高分19.5分,DeepSeek R1 以 0.5 分之差位居其后。至于OpenAI o3,或许是不太适应高考答题标准,仅拿下14.5分。

韩宪昌老师表示,几款深度推理模型都能在内容方面切中要点,完成写作任务。但是,内容细节多少、细节逻辑关系强弱、观点表达精准性与简洁性等方面,差别比较大。例如,得分较高的讯飞星火X1以及DeepSeek均能准确把握题意,语言精准,结构严谨,同时在句法结构上形式多变。而得分较低的模型要么在语法、用词上存在欠缺,要么在论述逻辑上衔接的不够紧密。

聊完了“文”的部分,我们再来看看几款主流的深度推理大模型在数学能力上的较量。高考数学考试结束当天,针对数学新高考1卷,科技媒体 IT 之家对几款主流深度推理大模型进行了横评,最终结果如下:

在高考数学的最终得分中,DeepSeek以及讯飞星火表现突出,是所有参赛的深度推理模型中唯二获得140分以上的大模型,领先一众深度推理模型,稳居大模型高考数学答题第一梯队。即便放在真人考生中,140分以上也属于全国范围内的“顶尖”水平。

这也是深度推理模型的优势所在,相较于更偏向主观色彩的作文写作,数学逻辑能力本就是深度推理模型的长处。IT 之家在测评中特别提到,和去年的主流的大语言模型相比,今年深度推理模型的数学能力有了明显提升。

综合不同媒体针对语数外三科的横评答题结果,讯飞星火X1以及DeepSeek R1以绝对优势稳居大模型高考答题的第一梯队,其中,讯飞星火X1更是以语数英三科综合第一的成绩,成为2025年最会高考同时也是最懂高考的国产大模型。

讯飞星火X1在2025高考中的出色表现,离不开科大讯飞20余年来在教育领域的深耕。科大讯飞是国内最早利用人工智能技术赋能教育的科技公司之一,实现了覆盖从学校教学、教师发展、智慧考试、素质教育、自主学习等教育全场景的产品及服务,同时构建起从国家、省、市、县(区)到学校、家庭的智慧教育体系。

AI大模型时代,讯飞星火延续了科大讯飞在教育领域的领先优势。底座模型上,基于全国产算力训练的讯飞星火大模型国内领先,星火X1更是在模型参数量比业界同行少一个数量级的情况下,实现整体效果对标OpenAI o1和DeepSeek R1。

2025 年高考虽然很快就要落下帷幕,但大模型们之间的“高考”仍将继续。在AI赋能教育越来越深入的当下,深度推理模型的进步,让我们看到了更多AI+教育的可能性。

声明:本站转载此文目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。
最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1