字节豆包Seed2.1 正式发布:深入 AI 生产力,三大能力比肩 GPT-5.5

DoNews6月23日消息,字节跳动今日在火山引擎官网上线了豆包 Seed 2.1 系列模型,包括 Pro 和 Turbo 版本,Seed-Evolving 模型也进行了迭代。

Seed2.1 以解决日常生活、专业工作和前沿探索中的复杂需求为研发目标,持续引入内外部用户和开发者的反馈,并结合真实案例校准模型优化方向;评估上,我们也更关注模型在实际工作流中的表现,而非仅依赖静态基准分数。

更可靠的通用 Agent 能力:Seed2.1 通用 Agent 能力显著提升,并进一步强化跨工具、跨环境的任务交付能力。在面对高经济价值的办公任务和个人生活的复杂咨询时,可稳定完成项目规划、文件处理、工具调用等多步骤任务,产出可落地的结果。

更稳定的代码工程交付能力:Seed2.1 提升了 Coding 的端到端交付能力,可在真实企业级开发任务中完成需求理解、功能实现、bug 修复、运行环境搭建和结果验证等任务,形成稳定交付。

更强劲的多模态等基础能力:Seed2.1 在多模态理解、知识、推理等基础能力上进一步提升,对复杂视觉信息和视频内容处理更准确,为 Agentic 场景、代码工程和前沿探索提供基础支撑。

Seed2.1 系列模型已在豆包产品和 TRAE 上线,同时,该系列模型 API 已同步上线火山引擎。

Seed2.1 进一步强化了通用 Agent 能力,无论是面向高经济价值的工作任务还是面向个人生活的复杂咨询,模型都能可靠交付。面向高经济价值的工作任务,过去,用户可能需要咨询外部顾问、专业服务团队来辅助完成;现在,模型可以参与资料分析、方案设计、内容规划和结果整理,帮助用户推进原本需要专业支持的工作,实现降本增效。

Seed2.1 在 Workspace Bench、Agent Startup Bench 基准上表现稳定,Seed2.1 Pro 在 GDPval 基准上获得最高分。其中,Workspace Bench 关注工作中对于复杂文件的信息检索、关联理解和结果生成;Agent Startup Bench 通过调研、访谈真实的 AI 原生创业公司,结合专家意见综合评估模型的回答质量;GDPval 则衡量模型在真实世界工作任务中的完成质量和经济价值。

评测结果说明,Seed2.1 在贴近真实工作任务的 AI 工作流中,能够在复杂材料和任务目标之间建立联系,并产生具有经济收益的交付。此外,在更高难度、更专业的任务上,Seed2.1 也有较好表现。

其中,Seed2.1 Pro 在 Agents' Last Exam(ALE)基准评测中,处于当前参评模型的第一梯队水平,体现出在复杂专业任务上的较强竞争力。

值得注意的是,该评测发布不久,各模型短期内难以针对该测试进行充分定向优化,能够更真实地衡量模型面对新任务场景时的泛化能力。

该结果表明,Seed2.1 所具备的任务规划、工具使用、长程执行、信息整合与结果交付等通用 Agent 能力,能够较好地迁移到此前未见的高门槛专业工作流中。

Agents' Last Exam 基准评测中,左侧为完整通过率,右侧为平均综合得分

面向个人生活中的复杂咨询场景,Seed2.1 系列模型回复的质量和可靠性进一步提升。这类需求往往不是简单问答,用户会同时提供咨询背景、过往记录、行业报告等多种信息,内容也分布在文档、PDF、图片等不同格式中,形成一个需要综合推理、判断、建议的复杂咨询场景。

Seed2.1 在 xDailyBench、Doubao Multi-Turn Bench 等基准上表现稳定,在 Toolathlon、SeedClawBench 等基准上保持竞争力。这说明模型在日常生活、学习研究等 30 多个垂类场景中,都能更好地理解真实用户需求,并结合用户偏好给出高质量的建议,必要时还能调用不同工具、使用合适的 Skill,产出可靠回复。

SeedClawBench 是由 Seed 自主开发的内部基准,用于评估在 OpenClaw 风格、面向用户的场景中,Agent 提供实际辅助的能力

此外,基于稳定的视觉理解能力,Seed2.1 能够在复杂任务中更好地处理视觉信息、理解用户目标,并推进后续执行与交付。Seed2.1 在 Claw-Eval (MM) 等 Visual Agent 相关基准上整体表现出较强的竞争力。

这意味着模型不仅能够理解文档、视频、图片、空间结构等复杂的视觉信息,还能围绕任务目标对视觉信息进行整理和分析,并形成可交互、可交付的 Agent 结果,例如基于多视角图像生成平面户型图,或根据视觉信息完成信息检索、内容生成和代码编写等任务。

Image2FloorPlan 为内部自建评测集,考察的任务为理解多张真实照片并绘制平面户型图

在面向专业生产力场景的探索中,我们发现,真实工作流并非发生在某一个固定界面里,而是需要在聊天、搜索、浏览器、代码仓库、文件和外部工具之间切换。

因此 Seed2.1 进一步面向通用型 Computer-Use Agent (CUA) 方向优化,让模型能更稳定地在跨环境、跨工具和跨交互方式的任务中持续推进。

其中,面对手机 GUI 任务,模型需要理解屏幕内容、判断下一步操作,并完成点击、输入、切换应用等连续动作,Seed2.1 在 MobileWorld 基准中取得最高分,说明其在手机端任务中能够更稳定地推进操作。

同时,模型在 OSWorld 上保持竞争力,并通过强化学习,引导 Agent 自然地在 GUI 和非 GUI 动作空间之中切换最优选择,将完成任务所需的平均步数减少 16%,进一步提升任务执行效率。

此外,Seed2.1 在 CreativeWork 基准上同样表现突出。该基准覆盖了 Notion、Canva 和 Figma 三类具有代表性的环境,意味着模型在文档管理、视觉设计和界面编辑等多种任务中,都能理解复杂目标、分解执行步骤,并在工具调用与 GUI 交互之间自主切换,稳定地完成任务。

CreativeWork 是 Seed 自研的基准,用于评估 Agent 在真实生产力场景中协同使用 GUI 与 MCP 工具的能力

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号