智谱发布可持续工作 8 小时的旗舰模型 GLM-5.1- DoNews

DoNews4月8日消息，智谱今日正式发布新一代开源模型 GLM-5.1，官方称这是目前全球最强的开源模型。据官方介绍，其是唯一达到 8 小时级持续工作的开源模型，在最接近真实软件开发的 SWE-bench Pro 基准测试中，GLM-5.1 实现国产模型首次超越 Opus 4.6。

OpenRouter 显示，伴随此次发布，智谱 GLM 再度提价 10%。调价后，GLM-5.1 在 Coding 场景的缓存命中 Token 价格已接近 Anthropic 旗下 Claude Sonnet4.6 水平。这是国产大模型首次在核心场景实现与海外头部厂商的价格对齐。

官方详细介绍如下：

从 3 分钟的 Vibe Coding（氛围编程）到 30 分钟的 Agentic Engineering（智能体工程），再到本次我们带来的 8 小时 Long-Horizon Task（长程任务），GLM-5.1 再次取得突破。

GLM-5.1 是我们迄今最智能的旗舰模型，也是目前全球最强的开源模型。GLM-5.1 大大提高了代码能力，在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同，它能够在一次任务中独立、持续工作超过 8 小时，期间自主规划、执行、自我进化，最终交付完整的工程级成果。

代码能力是模型智能水平进一步提升的关键。下图是业内最具代表性的三个代码评测基准的平均结果，包括衡量模型专业软件开发工作的 SWE-Bench Pro、操作命令行解决问题的 Terminal-Bench 2.0、从零构建完整代码仓库的 NL2Repo，GLM-5.1 取得全球模型第三、国产模型第一、开源模型第一。

在最接近真实软件开发的 SWE-bench Pro 基准测试中，GLM-5.1 刷新全球最佳成绩，超过 GPT-5.4、Claude Opus 4.6。SWE-Bench Pro 要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug，是衡量模型能否胜任专业软件开发的最硬指标。