SWE-BENCH PRO测评显示,GPT-5在已提交任务中准确率达63%,显著高于Claude Opus 4.1的31%。
Scale AI推出的新软件工程基准SWE-BENCH PRO大幅提升了测试难度,避免了先前SWE-Bench-Verified存在的数据污染和问题琐碎化问题。
该基准涵盖1865个来自商业应用、B2B服务和开发者工具的真实代码库,并构建为三个子集:公共集(731题,基于11个copy-left许可证代码库)、商业集(276题,源自初创公司代码库)、保留集(858题,基于12个copy-left代码库)。
公共集将公开发布于HuggingFace,商业集结果公开但代码库私有,保留集用于检测过拟合。
所有问题均经过人工增强,包含明确的任务描述、需求说明和接口信息,并在容器化环境中进行评估。
测试采用fail2pass验证问题修复有效性,pass2pass确保原有功能完整性;无关或宽泛测试被剔除,偶发失败项运行三次以确保稳定性。
整体解决率远低于SWE-Bench-Verified的70%,在公共集上,GPT-5和Claude Opus 4.1分别取得23.3%和22.7%的最高解决率,Claude Sonnet 4为16.3%。
老模型如DeepSeek Qwen-3 32B和GPT-4o仅达3.4%和3.9%。
在商业集上,所有前沿模型解决率均低于20%,表明当前AI在真实商业开发场景中能力仍有限。
分析显示,编程语言、代码库特性和模型类型显著影响表现:Go和Python上部分模型超过30%,JavaScript和TypeScript波动大;某些代码库解决率低于10%,其他则超50%。
前沿模型在多数场景下表现稳定,小规模模型易出现接近零的解决率。
失败模式分析表明:Claude Opus 4.1主要因语义理解不足导致错误解答(35.9%)和语法错误(24.2%);GPT-5错误解答较少,但在工具使用效率上存在差异。
Claude Sonnet 4主要受限于上下文溢出(35.6%)和无休止文件读取(17.0%);Gemini 2.5失败分布均衡,工具错误38.8%、语法错误30.5%、错误解答18.0%。
Qwen-3 32B工具错误率高达42.0%,凸显高效代理需强集成工具支持。
尽管GPT-5在擅长任务上保持稳健,其未回答率高达63.1%,整体表现仍有提升空间。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。