非营利组织“人工智能安全中心”(CAIS)与数据标注和AI开发公司Scale AI联合推出了一项名为“人类终极考试”的新型基准测试,旨在评估前沿AI系统的综合能力。该测试因其极高的难度引起了广泛关注。
这一基准测试汇集了来自50个国家和地区的500多个机构的近1,000名学科专家提出的问题,涵盖数学、人文学科和自然科学等多个领域。题目形式多样,包括结合图表和图像的复杂题型,以全面考察AI系统在跨学科知识和多模态信息处理方面的能力。
初步研究结果显示,所有公开可用的旗舰AI系统在该测试中的回答准确率均未超过10%,表明尽管当前AI技术在特定领域取得显著进展,但在应对复杂综合性问题时仍存在明显短板。CAIS和Scale AI计划向研究社区开放这一基准测试,以促进更深入的研究和模型评估。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。