中文通用大模型基准测试SuperCLUE发布，讯飞星火认知大模型国内第一- DoNews快讯

DoNews > 快讯 > 中文通用大模型基准测试SuperCLUE发布，讯飞星火认知大模型国内第一

中文通用大模型基准测试SuperCLUE发布，讯飞星火认知大模型国内第一

2023-05-10 10:50:09

282432

5月9日，中文通用大模型综合性评测基准SuperCLUE正式发布。该基准测试主要关注以下问题：中文大模型在不同任务上的表现如何？与国际代表性模型相比，中文大模型的表现达到了何种程度？中文大模型与人类表现相比如何？

该模型可通过多个层面，考研市面上主流的中文GPT大模型的能力：

基础能力:包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力:包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力:针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

该机构利用SuperCLUE测试基准，对市面上主流的支持中文的通用大模型进行了评测与排名。从排名中我们可以看出，GPT-4一骑绝尘，已经非常接近人类的能力。国产大模型中科大讯飞研发的星火认知大模型总排名第三，国内排名第一。

以下为该机构公布的各个子项目的具体得分。排行榜会定期更新，并于以下网站进行公示。www.CLUEbenchmarks.com/superclue.html

总榜单

基础能力榜单

中文特性榜单

交流会纪要外泄影响DeepSeek融资？内部人士称不可信疑似DeepSeek投资者交流会纪要外泄，或致710亿美元融资及IPO暂停；官方未回应，内部人士称消息不可信。

极氪回应“境外车机网络受限” 极氪7月26日上线APP‘跨境守护’一键解锁功能，优化出境车机安全策略，默认关闭该功能，并升级24小时优先客服保障。

报道称美团龙猫基础模型负责人裴鹏即将离职美团LongCat团队负责人裴鹏将离职，其主导研发的万亿参数大模型LongCat-2.0已于2026年6月30日开源，并推动多项AI产品落地。

360原董秘指控：约2649万元股权激励未兑现 360前董秘张帆称离职七年未获约2649万元股权激励，多次沟通无果，7月被周鸿祎微信拉黑，360至今未回应。

消息梁文锋对闭门谈话纪要外泄不满，DeepSeek暂停第二轮融资 DeepSeek暂停第二轮融资，因创始人不满首轮融资私密对话被曝光；原计划融100亿元，估值4800亿元，IPO筹备中。

携程公布五大方面十九项整改措施携程全面落实反垄断整改：下线特牌金牌模式、退还1.22亿元储备金、取消不合理收费与调价工具、防范大数据杀熟、健全合规体系。

海外狂飙、国内承压，上汽名爵的“冰与火” 以性价比换繁荣？

携程回应被罚：诚恳接受、坚决服从、逐项推进、落实到位市场监管总局对携程垄断行为罚没51.79亿元，携程诚恳接受处罚，承诺整改、摒弃内卷、推动文旅生态健康发展。

关于我们| 电子协议| 合作联系| 京ICP备2025120072号

网站信息

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号

京公网安备11010802023059号