GPT-5在新编程基准SWE-BENCH PRO中表现反转- DoNews

SWE-BENCH PRO测评显示，GPT-5在已提交任务中准确率达63%，显著高于Claude Opus 4.1的31%。

Scale AI推出的新软件工程基准SWE-BENCH PRO大幅提升了测试难度，避免了先前SWE-Bench-Verified存在的数据污染和问题琐碎化问题。

该基准涵盖1865个来自商业应用、B2B服务和开发者工具的真实代码库，并构建为三个子集：公共集（731题，基于11个copy-left许可证代码库）、商业集（276题，源自初创公司代码库）、保留集（858题，基于12个copy-left代码库）。

公共集将公开发布于HuggingFace，商业集结果公开但代码库私有，保留集用于检测过拟合。

所有问题均经过人工增强，包含明确的任务描述、需求说明和接口信息，并在容器化环境中进行评估。

测试采用fail2pass验证问题修复有效性，pass2pass确保原有功能完整性；无关或宽泛测试被剔除，偶发失败项运行三次以确保稳定性。

整体解决率远低于SWE-Bench-Verified的70%，在公共集上，GPT-5和Claude Opus 4.1分别取得23.3%和22.7%的最高解决率，Claude Sonnet 4为16.3%。

老模型如DeepSeek Qwen-3 32B和GPT-4o仅达3.4%和3.9%。

在商业集上，所有前沿模型解决率均低于20%，表明当前AI在真实商业开发场景中能力仍有限。

分析显示，编程语言、代码库特性和模型类型显著影响表现：Go和Python上部分模型超过30%，JavaScript和TypeScript波动大；某些代码库解决率低于10%，其他则超50%。

前沿模型在多数场景下表现稳定，小规模模型易出现接近零的解决率。

失败模式分析表明：Claude Opus 4.1主要因语义理解不足导致错误解答（35.9%）和语法错误（24.2%）；GPT-5错误解答较少，但在工具使用效率上存在差异。

Claude Sonnet 4主要受限于上下文溢出（35.6%）和无休止文件读取（17.0%）；Gemini 2.5失败分布均衡，工具错误38.8%、语法错误30.5%、错误解答18.0%。

Qwen-3 32B工具错误率高达42.0%，凸显高效代理需强集成工具支持。

尽管GPT-5在擅长任务上保持稳健，其未回答率高达63.1%，整体表现仍有提升空间。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。