效果炸裂！「百度蒸汽机」圆你大片导演梦！- DoNews

撰文 | 李信马

题图 | 2025热AI大会

影史票房成绩第一的《阿凡达》，制作成本高达2.8亿美元，其中，用在特效上的差不多占了一半，有48家特效公司为之效力，每一帧（1/24秒）CGI，需要47人做一个小时才能完成。导演詹姆斯·卡梅隆后来评价道：“《阿凡达》是有史以来最复杂的一次电影制作。”

感谢AI时代，今天，不需要48家特效公司，最新的视频模型，就能够帮每一位爱好者圆自己的导演梦了。

今年的7月2日，在百度AI DAY开放日上，百度推出了视频生成模型MuseSteamer（百度蒸汽机）。8月21日，百度正式发布和升级了百度蒸汽机2.0，Turbo版、Lite版、Pro版及有声版本，并宣布全系开放。

直接看效果，下面是《阿凡达》中经典的一幕，男主深情注视着女主：

图片来源：《阿凡达》

然后DoNews用百度蒸汽机做出了一个10秒版本的镜头：地道的中国话，还有这令人亲切的腔调和台词，搭配上画面却又毫不违和，怎么看都像是正版。那些在特效上花了巨资的导演，看到这一幕不知道心态如何，但笔者是真的爽了！

自Sora发布以来，视频生成一直受到广泛的关注，但是很多生成的模型颇为抽象和诡异，距离“好看”和“商用”都还有一定的距离。「百度蒸汽机2.0」的定位是全球首个中文音视频一体化模型，但具体有什么优点，又该怎么用呢？当天，DoNews也受邀参加了发布会和采访，让我们一一道来。

01、视频创作的效率革命

开局一张图，中间一段脚本，几分钟后就是一段完成度极高的视频？

放在几年前，这样的效率，绝大多数内容创作者是想都不敢想的。视频开场，就呈现两段酷炫的运镜，这是百度蒸汽机的最新能力。据了解，研发团队通过海量专业运镜数据进行了模型微调，我们普通人拍短视频，会简单的推拉移就算不错了，而蒸汽机已经熟练驾驭了环绕、摇镜等几十种复杂运镜方式，新增的镜头语言，也给视频表达提供了更丰富的选择空间。

蒸汽机的指令遵循系统也进行了全方位升级，通过精准的视频主体刻画，使视觉呈现细节与指令文本实现精确对应。在画面流畅度和人物表现细腻度方面，模型也有了质的飞跃。刚刚的视频，就是对经典童话进行了解构，视频中人物的表演更加生动自然，梵高画作的流动背景也令人沉醉。

还有一个不容易注意到，但实际上很重要的事情——视频里的声音，包括水声、钟声等环境音效以及人物台词，都是自动生成的，而非遵循以往“生成无声视频——配音效——配台词——对口型”的流程。「百度蒸汽机2.0」不仅实现了音视频一体化生成，更突破性地解决了多人对话、语言与人物面部/唇形/情绪一致性的技术难题。

百度商业体系商业研发总经理刘林在演讲中表示，技术突破为「百度蒸汽机2.0」带来了四大创新点：

1、人物表演、情绪、声音与神态的高度统一；

2、动态画面与音效的精准时空对齐；

3、多模态潜在空间规划技术对故事连贯性的保障；

4、超拟真音色与场景氛围、情绪的自然融合。

这是吹出来的，还是真实效果就是如此？昨天，百度蒸汽机2.0全系模型，包含Turbo、Lite、Pro及有声版四个版本，均已正式发布并向用户全面开放.

感兴趣的读者，在百度搜索、百度APP、手机浏览器百度搜索上搜「百度蒸汽机」或应用平台「绘想」，就可以上手试试了。有了AI打破传统硬件要求的限制，每个人都可以拍属于自己的“大片”。

而对百度蒸汽机的技术和故事更感兴趣的朋友，我们接着往下看。

02、“双人有声” 难在哪？

视频生成异军突起，面对影视行业的痛点问题，如危险镜头难拍摄、理想场景难寻找，影视制作周期长，参与协同角色多、演员拍摄成本高、视觉特效投入大等问题，都可以完美解决。

当天的嘉宾之一——知名好莱坞视效指导姚骐，参与了《2012》《黑客帝国3》《火星救援》《星际迷航》等电影的创作，他就直言，AI已深度渗透影视产业全流程：

在剧本创作阶段，AI可以辅助构建基础架构、设计故事线及生成对话内容；美术设计领域，AI已经全面覆盖概念设计与故事板制作；拍摄环节中，从摄影机控制、运动捕捉到灯光设置，AI均能提供技术辅助；后期制作流程中，AI在抠像、跟踪、模型构建、动画制作及特效合成等环节被广泛应用。

有了AI，好处多多。高危镜头可以交给AI完成，奇幻场景可以由AI构建，制作周期被缩短，演员片酬、特效镜头的价格都大大降低了。可以说，电影业因AI进入了新的工业化阶段。

这次蒸汽机的核心技术突破，就是做到多人音画同步，这一点连姚骐都表示了惊喜：“可以看到，蒸汽机在角色不同的⻆度下，口型自然，还确保音色和环境音的契合，细致的音效和环境音表现都很好。”

百度商业研发首席架构师李双龙在采访中表示，谷歌在6月份推出的Veo3，是首个音视频大模型，但是它并不能支持中文，而百度蒸汽机是首个支持中文的音视频生成大模型，整个研发过程中，百度也面临着很多技术上的挑战。

据了解，多人对话有声视频生成面临的核心技术难点，在于多模态信息的精准同步与自然交互。唇形同步要求极高精度，需确保每位说话者的口型与语音波形在毫秒级对齐，并在侧脸、遮挡等复杂场景表现稳定。其次，角色区分与交互自然性，系统必须准确识别不同说话者的声纹特征，同步生成对应的面部表情、肢体语言及视线方向，避免出现角色错位或机械化的集体反应。另外在情感一致性上也难以把控，需协调语音的情感语调（如愤怒、惊讶）与角色的微表情、肢体动态保持统一。此外，算法需在合成环境音效的同时，确保多人语音清晰分离且符合虚拟场景的声学逻辑。

“首先，我们要做到多角色的形声容一体化生成能力，也就是让模型通过自主理解思考规划实现多角色的语音、动作、表情等元素的完美匹配，其次就是如何通过端到端的训练学习达成这样的一体化生成效果，而不是把整个生成过程拆成很多步进行训练。能做到这些是非常有挑战的事情。”李双龙说。

当下业界主流一般是通过多角色多条件输入控制的方式来实现，就是人工预先编排好让哪一个角色先说，哪一个角色后说，具体说什么、用什么音色等，成本高且效果不好，而蒸汽机首创了lmmp技术实现了自动化的多角色隐式理解规划编排学习，无需人工多角色编排且效果显著领先业界主流技术。同时，蒸汽机处理和学习了大量跟中文语音语境相关的优质数据，让模型能够充分去理解中文特有的发音、语境特色等，实现了更好的中文化适配和生成。“这一次，我们开发了首个专门面向中文语境、中文语音的音视生成大模型，也是为我们中国的视频创作者，提供上支持中文的音视生成大模型。”

03、想象力：从创作到商业

想象力是创作的一切，可能这也是百度蒸汽机的以“想象力”作为消费单位的原因之一。但技术也好，创作也好，想要长期可持续的发展，都要考虑商业化的落地，可喜的是，在这方面，视频生成也颇具想象力。

当天发布会的一个高潮，就是公布价格。百度蒸汽机的价格体系极具竞争力，针对不同需求用户提供了梯度会员服务，价格低至行业同类产品的70%，新用户注册即可免费获得部分想象力值。

比如，Turbo版模型720P的价格定在1.4元/5秒，10秒价格为2.8元。值得一提的是，Turbo有声版价格与无声版完全一致，而行业传统流程中生成5秒720P视频需经历配音效、配台词等步骤，综合成本达3.5元，形成了极具竞争力的价格优势。

姚骐就带来了一部用百度蒸汽机制作的作品《归途》，40个镜头用到了120个视频片段，其中有18个10秒的一体化有声片段和102个5秒有声片段。按照定价标准来算，大约330.6元钱，可以说达到了极致的成本控制。

这个是单纯的价格战吗？对此百度副总裁、移动生态商业体系负责人陈一凡表示：“我们在收集大家的需求过程中，发现除了质量，更重要的就是成本。成本不降下来，大家不肯用，不肯用就根本到不了质量。所以我们在训练的时候，就兼顾了成本。”

百度的团队很早就基于GPU进行计算，在各方面有了深厚的积累，因此成功地将成本降了下来，降低了应用的门槛。当天，还展示了多条用百度蒸汽机制作的广告，来自一汽大众、伊利等公司。除了大公司，对很多中小公司来说，这也是极大的利好。

“为什么我们要做这一件事？其实有好多的小说广告主，想用视频来投广告，发现像‘僵尸入境’之类的视频，很难自己做出来，用AI来做视频物料，投放就非常好。还有广泛的中小企业，用蒸汽机来帮他们基于现在的物料做生成，能很快做出想要的视频来，这样也有利于广大的中小广告主在百度的场域来做分发。百度的广告收入很大一部分是中小客户带来的，所以帮助他们在这个时代获取更多的流量和需要的用户，也是我们做这个的价值。“陈一凡说到。

据了解，作为百度内容生产的重要工具，百度蒸汽机直接服务于搜索、信息流等核心业务，毕竟，如果能带来搜索收入1%的增长，也意味着数十亿级别的收入。

而在技术发展的方向上，百度商业研发首席架构师李双龙表示：“其实Sora刚出来的时候，虽然有很大的技术突破性，但是效果上跟我们想象的世界模型差距还是挺大的。未来我们会在世界模型这个方向上面持续探索，做出更大的技术突破。”