Anthropic发布Claude Sonnet 4.6,性能逼近Opus,定价仅为五分之一

北京时间2026年2月18日凌晨,Anthropic发布新一代中型模型Claude Sonnet 4.6,官方称其为“史上最强Sonnet”。该模型在多项基准测试中表现接近旗舰模型Claude Opus 4.6,但输入与输出价格分别为每百万token 3美元和15美元,约为Opus的五分之一。

此次发布距Claude Opus 4.6上线不足半个月,后者于2026年2月5日正式推出。Sonnet 4.6被定位为智能体(Agent)的理想基础模型,在计算机使用能力与智能体规划方面显著增强,可执行多步骤网页表单填写、跨浏览器标签页信息协调等任务。Anthropic指出,该模型在抵御提示词注入攻击等安全威胁方面优于前代。

Sonnet 4.6在Agent金融分析(GDPVal-AA)和办公任务测评中得分达63.3%和1633 Elo,均高于Opus 4.6的60.1%和1606 Elo;在SWE-bench软件工程能力测试中亦逼近Opus水平。模型支持100万token超长上下文窗口(测试版),并强调能“在整个上下文中有效推理”。OSWorld计算机操作基准测试得分为72.5分,较一年前的28.0分实现大幅跃升。

开发者反馈显示,Sonnet 4.6可单次API调用完成代码库重构,执行25次工具调用、新增3000余行代码、创建12个新文件。Box公司CTO Ben Kus证实其在深度推理与复杂Agent任务上较Sonnet 4.5提升15个百分点;金融科技公司Hebbia报告内部基准测试答案匹配率显著上升。在Vending-Bench Arena商业模拟评测中,该模型发展出前期重投资、后期快速盈利的策略,最终收益超越对手。

目前,Sonnet 4.6已成为claude.ai与Claude Cowork平台对免费及Pro用户的默认模型。AWS已宣布其上线Amazon Bedrock,并称其为“Anthropic最强计算机使用模型”。用户对比Opus 4.5时,59%时间更偏好Sonnet 4.6,理由包括上下文读取更充分、共享逻辑整合更优、幻觉更少、多步骤任务执行更稳定。部分用户则认为其编程能力未全面超越Opus 4.5,更接近Cowork功能升级。

Anthropic由达里奥·阿莫迪兄妹于2021年创立,核心团队曾参与GPT-2与GPT-3早期研发。截至2026年2月,公司累计融资超300亿美元,最新G轮融资300亿美元后估值达3800亿美元,为全球估值第二高的AI独角兽。Claude系列按能力分为Opus(旗舰)、Sonnet(平衡)、Haiku(轻量)三级。公司2025年底年化营收超90亿美元,其中Claude Code年化收入达25亿美元。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1