撰
文 | 雁 秋
编辑 | 李信马
题图 | 火山引擎原动力大会
不久前,机器人中的“当红小生”宇树和智元高价赞助春晚的消息引发众人一片猜想,然而最后,落槌的居然是字节跳动(以下简称“字节”)的火山引擎。
据《晚点独家》报道,火山引擎将成为2026年央视春晚的独家AI云合作伙伴。同时,作为智能助手的豆包也将参与其中,配合上线多种互动玩法。
火山引擎为何能脱颖而出,答案可以从前不久的火山引擎Force原动力大会上找到。大会现场,火山引擎总裁谭待公布:截至今年12月,豆包大模型日均Token使用量超50万亿,自发布以来增长471倍,较去年同期增长超过10倍。
增长的驱动力除了字节旗下AI应用的发展之外,还有一批外部客户:累计使用上万亿Token的超过100家,比全球云计算巨头AWS还多了一倍。

结合IDC公布的一组数据,在2025年上半年的模型即服务(MaaS)市场中,火山引擎以37.5%的份额位居中国第一,排在其后的阿里、百度、腾讯分别占比21%、15.5%、4.2%。
谁能想到,五年前字节成立火山引擎的时候,它会变成今天给各行各业“打底”的技术底座。在非常内卷的云计算产业里,字节不仅给自己加了把椅子,而且还坐到了牌桌正中央。
其实在过去,字节在视频方面的处理能力与云计算基础设施的对外输出还是比较扎实的,但并未带给市场“颠覆性”的经济价值和用户增长;相比之下,以豆包大模型为核心的AI能力外溢,则迅速吸引了广泛关注并催生了活跃的生态。
对此谭待坦言,这主要因为两个原因。其一,当时尚未进入技术爆发期,技术进步是线性的,属于效率“增益”;其二,企业服务市场本身节奏慢,To B业务需要长期积累。以豆包大模型为代表的AI能力开放,迅速获得大量关注,核心在于“赶上了好时机”。
AI大模型是当前明确的技术风口,它扮演着“价值放大器”的角色,能在一两年内就让相关技术服务的价值被急剧感知,市场格局和生态也会快速发生变化。“如果风口来了,可能一两年内变化就会非常大。”谭待强调。
在这一轮由大模型驱动的浪潮中,火山引擎不仅提供了平台,更通过具体的产品迭代与升级,将技术势能切实转化为市场动能。
本次大会火山引擎主要围绕两个方面更迭,模型侧更新了豆包旗舰模型1.8、以及视频生成模型Seedance 1.5 pro;围绕Agent也开展了一系列工具链和生态服务,比如企业级AI Agent平台AgentKit,以及面向Agent运营,发布HiAgent“1+N+X”智能体工作站等。
最值得讲讲的两个点,就是豆包大模型 1.8和Seedance 1.5 pro。
豆包大模型 1.8,直接理解的话,可以把它看作是打造更强的多模态Agent大脑。它在工具调用、复杂指令遵循这些硬核能力上做了定向优化,不仅能听懂用户的指令,还能自己规划步骤,一步一步把活儿干完。
豆包大模型1.8在视频理解力方面也做出了非常大的升级,单次视频理解帧数翻倍到1280帧。就是说它不仅能用倍速看完一段视频,而且迅速抓住重点,还能自动慢放,一帧一帧地去抠细节抓重点。
现场展示了通过豆包大模型1.8快速解析长时段监控视频,精准定位车辆剐蹭事故过程。在一段长达1小时4分钟的监控视频中,豆包大模型采用了一套高效的“分层解析”流程:
快速初筛:首先以低帧率模式对整段长视频进行快速浏览,初步锁定可能存在异常的时间段。
工具调用:利用“Video Card”等专用视频分析工具,在初筛的基础上进一步定位关键画面。
精细分析:对嫌疑片段切换至高帧率模式,进行逐帧精细化分析,最终准确识别出肇事车辆及事故发生的具体时间。
该能力直接针对广大车主面临的现实困境——车辆在小区、公共停车场等场所被剐蹭后,因监控视频时长跨度大、人工查看耗时费力而难以追责。传统方式可能需要工作人员花费数小时反复查看录像,而大模型技术可将这一过程缩短至分钟级,大幅提升效率。

至于Seedance 1.5 pro音视频创作模型,则把重点放在了音画同步、多人多语言对话的能力上,速度都是毫秒级的。在发布会现场,官方特意放出了一个片段,画面中的人物表情细腻,口型精准对齐,画面很有电影的质感。
Seedance 1.5 pro不仅能处理中文、英语、西班牙语等多种语言,还能处理好四川话、陕西话等方言,对于想生成本地化内容的创作者来说,这一功能简直是拉满沉浸感的利器。

降本也是火山引擎大模型的关注重点,官方表示Seedance系列将上线“Draft样片”功能,据说可以节省不少钱。
Draft样片是做什么的?我们都知道,用AI做视频很烧钱不说,最痛苦的是生成出的效果和想象中大相径庭。Draft样片支持先生成低分辨率样片进行预览,如果创作者觉得效果还行,再直接产出作品。官方数据显示,该功能可提升约65%的整体创作效率,并减少60%的无效成本。
在降本方面,火山引擎还推出了业内首个“AI节省计划”,该计划覆盖所有按量后付费的大模型产品,通过阶梯式折扣,可帮助企业最高节省47%的成本。
字节不仅介绍了火山引擎的技术演进方向,更是拉来了近4000m²的场地,多家公司集中展示了基于豆包大模型的端侧硬件产品。
DoNews受邀参加,来到现场最直接的感受就是AI落地场景更多了,除了以往常见的C端社交、娱乐赛道之外,B端的汽车、金融、广告、能源客户也在不断增加。
在活动入口处,字节就摆了一排汽车,包括奔驰、奥迪、小米、比亚迪等。按照谭待的说法,中国超过九成的主流车企都是火山引擎的客户。

谭待表示,以往即便最顶级的座舱系统也显得“笨拙”,无法理解用户的自然语言表达。例如,用户说“我好热”,系统无法直接调低空调温度;用户说“打开天窗”,若实际意图是打开遮阳板,系统会因指令字面不符而报错,导致交互失败。
但引入大模型之后,新型智能座舱能够以人类对话的方式理解意图。用户说“冷了”,系统会自动调高温度;说“打开天窗”,即使目标物是遮阳板,系统也能准确理解并执行。这种强大的泛化理解能力,让交互变得无比顺畅。
这种新型交互的核心,是构建一种完全自然的、以Agent为中介的交互模式,这种犹如和人对话的智能、自然、高效的交互体验,将成为未来所有终端——无论是手机、汽车,还是其他各类设备——的共同标准。
除了汽车,在金融、医药、文娱、餐饮、消费等领域,火山引擎也已经开拓成功。2025年,超过100万企业和个人使用了火山引擎的大模型服务,覆盖了100多个行业。
头部证券机构成为推动大模型在金融领域落地的关键力量。华泰证券推出的国内首款AI原生交易APP“AI涨乐”,基于火山引擎在背后提供的算力、大模型、智能体工具的支持,可以为投资者提供专业与高时效性的投资信息。
工作人员介绍,“AI涨乐”APP有不同风格的AI投资助手,不但可以聊天互动,还能执行选股、盯盘、下单、提醒等一系列复杂操作。
比如用户不清楚“买什么”,就可以直接问“今天有什么热点股”, “AI涨乐”便会提供热点、连板、主题、资金四大维度的选股工具,尽力满足各类投资者。至于“何时买”,AI助手会基于用户事先设定的指标和条件帮你盯盘,实时监测市场信息,有变化也会立刻提醒用户。

基于豆包大模型的AI玩具/教育产品,大概率是展区内占比最高的一类。字节旗下AI应用开发平台扣子Coze与国内AI+机器人品牌灵宇宙合作的全新AI智能体“Yummy”,就吸引了较多的关注。
“Yummy”是个非常聪明的陪伴者,与一板一眼问什么答什么的机械对话不同,“Yummy”具备理解上下文与物理环境的能力,可以通过小方机上的镜头识别物体,还能结合历史、生物学等知识讲述如屈原与粽子、奥斯曼帝国等背后的故事。这种交互过程充分展示了什么叫寓教于乐,整个学习过程轻松又自然。

芙崽是一款以AI大模型为底座的情感陪伴潮玩,外形是一个小巧的毛绒挂件,方便随身携带。有意思的是它主打“长期养成”,通过不断地交互形成属于自己的性格,甚至还有自己的MBTI。

豆神学伴机器人融合了火山引擎RTC技术与豆包大模型,能持续理解孩子的学习习惯,提供个性化辅导,甚至还配备了情绪化表达系统——开心时,翅膀轻颤;困惑时,摇头晃脑;肯定时,点头示意。通过更生动、更富情感的方式回应孩子的状态与情绪。

无论是为九成主流车企装上“最强大脑”,还是在金融、文娱、消费等领域催生像“AI涨乐”“Yummy”“芙崽”这样的新物种,其内核都是同一套逻辑:将大模型的泛化理解与生成能力,转化为各行各业可感知、可交互、可增长的体验。
这也是火山引擎原动力大会想要输出的一则观点,AI时代,主角其实就是Agent。谭待对于未来有这样的一种预测:随着大模型能力向执行层下沉,Agent正在成为新的通用人机交互层,其落地路径正从应用层加速向硬件终端扩散。
(图片由DoNews拍摄以及主办方提供)



