字节跳动发布豆包大模型2.0，全栈多模态Agent对标Gemini 3 Pro- DoNews

2月14日，字节跳动正式推出豆包大模型2.0（Doubao-Seed-2.0）系列，包含Pro、Lite、Mini三款通用Agent模型。该版本在文本基础能力、多模态理解、深度推理、长链路任务执行及Agent能力等方面完成全栈升级，实现从竞赛级推理向研究级任务的拓展，在IMO、CMO数学竞赛和ICPC编程竞赛中获得金牌成绩，数学与推理能力达世界顶尖水平。

豆包2.0 Pro强化长尾领域知识覆盖，在SuperGPQA等公开测试集中科学领域知识表现与Gemini 3 Pro和GPT 5.2相当，跨学科知识应用排名前列。其多模态理解能力全面升级，在视觉推理、空间感知、长上下文理解、时间序列与运动感知等权威测试中取得业界最佳表现。例如在健身场景中，接入该模型的智能App可实时分析用户动作视频并语音纠正深蹲姿势偏移，相关能力已延伸至穿搭建议、老人看护等领域。

Agent能力方面，豆包2.0 Pro在指令遵循、工具调用、Search Agent等评测中达顶尖水平，在HLE-Text（人类的最后考试）中获54.2分，为当前最高分。模型支持端到端复杂任务执行，如一次性构建功能完整的小程序，并针对大规模生产环境进行系统性优化，提升长程任务工作流自主构建与经验积累能力。

豆包2.0 Pro已在豆包App、电脑客户端及网页版上线，用户选择专家模式即可体验；火山引擎同步上线该系列模型API服务。价格方面，Pro版输入（≤32k tokens）定价3.2元/百万tokens，输出定价16元/百万tokens；Lite版输入价格为0.6元/百万tokens，综合性能超越上一代主力模型豆包1.8。相较Gemini 3 Pro与GPT 5.2，豆包2.0在token定价上降低约一个数量级。

同期发布的视频模型Seedance 2.0与图像模型Seedream 5.0 Lite均基于豆包2.0多模态底座，支持原声音画同步、多镜头长叙事及多模态可控生成，用户输入提示词与参考图即可一键生成带原生音轨的多镜头视频，角色、光影、风格与氛围高度统一。豆包2.0亦可处理复杂视觉输入，完成实时交互与应用生成，包括从图像提取结构化信息及生成交互式内容。

字节跳动明确表示，豆包2.0 Pro面向深度推理与长链路任务执行场景，全面对标GPT 5.2与Gemini 3 Pro。其技术路径与Google Gemini在视频理解、空间推理、原生多模态对齐等方向高度一致，核心目标是构建能理解物理世界运行规律的‘世界模型’，推动AI从‘答题者’进化为可执行真实世界复杂任务的‘执行者’。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。