OpenAI发布新基准GDPval,用于评估AI模型在真实世界经济任务中的表现。
该基准覆盖对美国GDP贡献超5%的9个行业中的44种职业,涉及年均创收达3万亿美元的工作任务,基于平均拥有14年经验的行业专家的实际工作设计。
任务涵盖O*NET系统追踪的主要职业活动,要求处理多种文件格式并解析多份参考材料,包含结构、风格等主观评价维度,单个任务平均耗时7小时,复杂者需数周完成。
GDPval全集包含1320项任务,经过自动化筛选与多轮人工审核,每项任务至少经3次、平均5次专家评审。
OpenAI开源了含220项任务的优质子集,并采用盲态专家pairwise对比法进行评估,评分人员不知成果来源。
每项对比耗时超1小时,专家需提供选择依据,人类间评分一致性为71%,实验性自动评分器与人类评分一致率达66%。
在测试的模型中,Claude Opus 4.1表现最佳,47.6%的输出被评定优于或等同于人类专家水平,尤其在文档美观性方面突出。
GPT-5以38.8%的成绩位列第二,在准确性、指令遵循和计算任务上表现更强;GPT-4o为12.4%。
分析显示,Claude在.pdf、.xlsx、.ppt等文件处理上更具视觉感知与排版优势,而GPT-5在纯文本任务中更优。
在超过50%的任务中,至少有一个模型的表现达到或超过人类专家。
研究指出,结合AI与人类监督可提升效率,多种协作模式均能节省时间与成本。
增加推理强度、优化提示词、使用智能体框架(如N=4抽样策略配合GPT-5判断)可显著提升模型表现。
OpenAI承认GDPval存在局限:仅覆盖44种知识型职业,任务为一次性非交互式设计,自动评分器尚不完善,评估成本高昂。
未来计划扩展职业范围、增强任务真实性与交互性,并丰富场景细节。
同时,OpenAI已开源220项任务子集并提供公开自动评分服务。
另有消息显示,微软正与Anthropic合作优化Microsoft 365 Copilot AI助手。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。