AI编程能力仍不及人类工程师

尽管OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)曾表示,到今年年底AI模型将超越“低级别”软件工程师,但该公司最新研究却表明,即使是目前最先进的AI模型,在编程任务上仍无法与人类相媲美。研究人员开发了名为SWE-Lancer的新基准测试工具,基于Upwork上的1400多个软件工程任务,对三款大型语言模型(LLMs)进行了测试,包括OpenAI的o1推理模型、GPT-4o以及Anthropic的Claude 3.5 Sonnet。

结果显示,这些前沿模型虽然能快速完成一些细节任务,但在处理复杂问题时表现不佳。它们仅能解决表面的软件问题,无法深入理解漏洞及其背景,导致解决方案“错误或不够全面”。即使在速度上远超人类,这些模型在处理大型项目时依然力不从心。研究人员指出,任何模型若想真正用于实际编程任务,都需要具备更高的可靠性。这表明,尽管AI发展迅速,但在软件工程领域,其技能水平仍不足以取代人类工程师。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1