字节跳动发布豆包大模型2.0,全栈多模态Agent对标Gemini 3 Pro

2月14日,字节跳动正式推出豆包大模型2.0(Doubao-Seed-2.0)系列,包含Pro、Lite、Mini三款通用Agent模型。该版本在文本基础能力、多模态理解、深度推理、长链路任务执行及Agent能力等方面完成全栈升级,实现从竞赛级推理向研究级任务的拓展,在IMO、CMO数学竞赛和ICPC编程竞赛中获得金牌成绩,数学与推理能力达世界顶尖水平。

豆包2.0 Pro强化长尾领域知识覆盖,在SuperGPQA等公开测试集中科学领域知识表现与Gemini 3 Pro和GPT 5.2相当,跨学科知识应用排名前列。其多模态理解能力全面升级,在视觉推理、空间感知、长上下文理解、时间序列与运动感知等权威测试中取得业界最佳表现。例如在健身场景中,接入该模型的智能App可实时分析用户动作视频并语音纠正深蹲姿势偏移,相关能力已延伸至穿搭建议、老人看护等领域。

Agent能力方面,豆包2.0 Pro在指令遵循、工具调用、Search Agent等评测中达顶尖水平,在HLE-Text(人类的最后考试)中获54.2分,为当前最高分。模型支持端到端复杂任务执行,如一次性构建功能完整的小程序,并针对大规模生产环境进行系统性优化,提升长程任务工作流自主构建与经验积累能力。

豆包2.0 Pro已在豆包App、电脑客户端及网页版上线,用户选择专家模式即可体验;火山引擎同步上线该系列模型API服务。价格方面,Pro版输入(≤32k tokens)定价3.2元/百万tokens,输出定价16元/百万tokens;Lite版输入价格为0.6元/百万tokens,综合性能超越上一代主力模型豆包1.8。相较Gemini 3 Pro与GPT 5.2,豆包2.0在token定价上降低约一个数量级。

同期发布的视频模型Seedance 2.0与图像模型Seedream 5.0 Lite均基于豆包2.0多模态底座,支持原声音画同步、多镜头长叙事及多模态可控生成,用户输入提示词与参考图即可一键生成带原生音轨的多镜头视频,角色、光影、风格与氛围高度统一。豆包2.0亦可处理复杂视觉输入,完成实时交互与应用生成,包括从图像提取结构化信息及生成交互式内容。

字节跳动明确表示,豆包2.0 Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro。其技术路径与Google Gemini在视频理解、空间推理、原生多模态对齐等方向高度一致,核心目标是构建能理解物理世界运行规律的‘世界模型’,推动AI从‘答题者’进化为可执行真实世界复杂任务的‘执行者’。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1