新型AI基准测试“人类终极考试”揭示技术短板- DoNews

DoNews > 公司新闻 > 新型AI基准测试“人类终极考试”揭示技术短板

新型AI基准测试“人类终极考试”揭示技术短板

2025-01-24 16:34:02

非营利组织“人工智能安全中心”（CAIS）与数据标注和AI开发公司Scale AI联合推出了一项名为“人类终极考试”的新型基准测试，旨在评估前沿AI系统的综合能力。该测试因其极高的难度引起了广泛关注。

这一基准测试汇集了来自50个国家和地区的500多个机构的近1,000名学科专家提出的问题，涵盖数学、人文学科和自然科学等多个领域。题目形式多样，包括结合图表和图像的复杂题型，以全面考察AI系统在跨学科知识和多模态信息处理方面的能力。

初步研究结果显示，所有公开可用的旗舰AI系统在该测试中的回答准确率均未超过10%，表明尽管当前AI技术在特定领域取得显著进展，但在应对复杂综合性问题时仍存在明显短板。CAIS和Scale AI计划向研究社区开放这一基准测试，以促进更深入的研究和模型评估。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

奇瑞集团8月销售汽车24.3万辆，其中出口12.95万辆奇瑞集团8月销售汽车24.3万辆，同比增长14.6%，新能源与出口表现亮眼，1-8月累计销售172.7万辆，同比增长14.5%。

拆解凌波OS：九号做了个什么？重构短途交通智能生态

DeepSeek：已对 AI 生成合成内容添加标识 DeepSeek实施AI生成内容标识办法，添加内容标识并发布模型说明，保障用户知情权，优化标识机制，确保AI透明安全。

阿维塔8月销量10565辆，连续六个月销量破万阿维塔8月销量10565辆，同比增长185%，多款车型升级，品牌合作拓展，稳步迈向全球新豪华智能电动车领导地位。

超119亿的暑期档背后，中国电影市场还有哪些想象空间复苏之路虽有起伏，但好电影永远能打动人心。

岚图汽车谋变：产品+技术助推销量创新高，冲刺港股奔赴“新战场” 央企转型范本岚图汽车的新时代来了。

伊利拿下奶粉“大满贯” 婴幼儿奶粉跃居中国市场第一差异化优势推动盈利进入加速释放期婴幼儿奶粉实现里程碑式突破

车车科技上半年营收13亿：新能源车险增150% 车车科技2025年上半年总保费115亿元，净营收13.49亿元，经调整净亏损收窄56.9%，预计全年盈利。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号