AI高考哪家强？六款国产大模型文理大PK揭示答案！- DoNews

高考的AI含量正在变得越来越高。考场之内，各类AI监考辅助系统、AI辅助阅卷等新技术正在不断应用。考场之外，AI大模型们比拼答题也几乎成了每年高考的“保留节目”。

和往年不同，今年AI高考比拼的主角变成了深度推理大模型。相较于去年的大语言模型，深度推理模型在问题理解、思考深度以及回答输出上都更具优势，思维链的加入也让人们更加清晰地看到了模型的思考过程。

去年大语言模型混战时，部分模型还无法准确理解题意，甚至出现作文跑题现象，而今年这种情况已大大减少。与此同时，得益于深度推理模型在数学逻辑思维能力上的提升，模型的高考数学得分屡创新高，涌现出越来越多的“AI状元”。

过去几天，已有不少媒体率先对大模型的高考答题能力展出深度测评，涵盖语文、数学、英语等多个主要科目。结果显示，国产大模型的进步可圈可点。在多家媒体的大模型高考横评中，国产大模型的答题水平丝毫不弱于OpenAI最新的推理模型，以DeepSeek R1、讯飞星火X1等为代表的国产大模型，更是实现了对海外主流模型的反超。

以界面旗下的新媒体“电厂”针对高考语文作文的测评为例。电厂选取了高考之后公认较难的全国1卷语文作文进行测评，DeepSeek、通义千问、字节豆包、文心一言、腾讯混元以及讯飞星火等6款主流国产大模型参与作答，同时特别邀请到专业高中语文教师及专家，来对各大模型生成的高考作文逐一打分。评分规则为两位教师专家各自独立评分，最后取平均得分。

根据两位专家的最后评分可以看到，包括讯飞星火、DeepSeek、字节豆包以及通义千问四款大模型都获得了50分以上的平均分，其中讯飞星火以平均分53分名列第一，DeepSeek以52.5分名列第二位，腾讯混元、文心一言则相对得分较低。不过，6 款大模型均能准确抓住题意，围绕题干中”沉默与发声”的关系展开论述。

综合专家意见，讯飞星火、DeepSeek得分较高的共同原因均是切中题意、立意深刻，同时逻辑缜密、论述完整，兼具思辨性与感染力。而得分较低的模型则或多或少在文章结构、素材选择以及论述逻辑上存在明显短板。

中文写作之外，也有媒体专门测试了几款大模型的英文写作水平。新京报选择了今年高考英语北京卷的作文题目，测评DeepSeek R1、ChatGPT o3、通义千问 Qwen3、腾讯混元 T1、讯飞星火 X1、百度文心 X1等6款深度推理模型产品。模型答题结束后，新京报邀请到北京市十一学校一分校英语老师韩宪昌、深圳中学英语教师赵文嘉等两位专家教师，参照往年高考评分标准对大模型进行打分并点评。

从得分结果中可以看出，讯飞星火X1和DeepSeek R1再度实现对其他模型的反超，分别包揽第一、二名。其中，讯飞星火X1拿下全场最高分19.5分，DeepSeek R1 以 0.5 分之差位居其后。至于OpenAI o3，或许是不太适应高考答题标准，仅拿下14.5分。

韩宪昌老师表示，几款深度推理模型都能在内容方面切中要点，完成写作任务。但是，内容细节多少、细节逻辑关系强弱、观点表达精准性与简洁性等方面，差别比较大。例如，得分较高的讯飞星火X1以及DeepSeek均能准确把握题意，语言精准，结构严谨，同时在句法结构上形式多变。而得分较低的模型要么在语法、用词上存在欠缺，要么在论述逻辑上衔接的不够紧密。

聊完了“文”的部分，我们再来看看几款主流的深度推理大模型在数学能力上的较量。高考数学考试结束当天，针对数学新高考1卷，科技媒体 IT 之家对几款主流深度推理大模型进行了横评，最终结果如下：

在高考数学的最终得分中，DeepSeek以及讯飞星火表现突出，是所有参赛的深度推理模型中唯二获得140分以上的大模型，领先一众深度推理模型，稳居大模型高考数学答题第一梯队。即便放在真人考生中，140分以上也属于全国范围内的“顶尖”水平。

这也是深度推理模型的优势所在，相较于更偏向主观色彩的作文写作，数学逻辑能力本就是深度推理模型的长处。IT 之家在测评中特别提到，和去年的主流的大语言模型相比，今年深度推理模型的数学能力有了明显提升。

综合不同媒体针对语数外三科的横评答题结果，讯飞星火X1以及DeepSeek R1以绝对优势稳居大模型高考答题的第一梯队，其中，讯飞星火X1更是以语数英三科综合第一的成绩，成为2025年最会高考同时也是最懂高考的国产大模型。

讯飞星火X1在2025高考中的出色表现，离不开科大讯飞20余年来在教育领域的深耕。科大讯飞是国内最早利用人工智能技术赋能教育的科技公司之一，实现了覆盖从学校教学、教师发展、智慧考试、素质教育、自主学习等教育全场景的产品及服务，同时构建起从国家、省、市、县（区）到学校、家庭的智慧教育体系。

AI大模型时代，讯飞星火延续了科大讯飞在教育领域的领先优势。底座模型上，基于全国产算力训练的讯飞星火大模型国内领先，星火X1更是在模型参数量比业界同行少一个数量级的情况下，实现整体效果对标OpenAI o1和DeepSeek R1。

2025 年高考虽然很快就要落下帷幕，但大模型们之间的“高考”仍将继续。在AI赋能教育越来越深入的当下，深度推理模型的进步，让我们看到了更多AI+教育的可能性。

声明：本站转载此文目的在于传递更多信息，并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本网联系，我们将在第一时间删除内容,本网站对此声明具有最终解释权。