撰文 | 李信马
题图 | 2025热AI大会
影史票房成绩第一的《阿凡达》,制作成本高达2.8亿美元,其中,用在特效上的差不多占了一半,有48家特效公司为之效力,每一帧(1/24秒)CGI,需要47人做一个小时才能完成。导演詹姆斯·卡梅隆后来评价道:“《阿凡达》是有史以来最复杂的一次电影制作。”
感谢AI时代,今天,不需要48家特效公司,最新的视频模型,就能够帮每一位爱好者圆自己的导演梦了。
今年的7月2日,在百度AI DAY开放日上,百度推出了视频生成模型MuseSteamer(百度蒸汽机)。8月21日,百度正式发布和升级了百度蒸汽机2.0,Turbo版、Lite版、Pro版及有声版本,并宣布全系开放。
直接看效果,下面是《阿凡达》中经典的一幕,男主深情注视着女主:
图片来源:《阿凡达》
然后DoNews用百度蒸汽机做出了一个10秒版本的镜头:地道的中国话,还有这令人亲切的腔调和台词,搭配上画面却又毫不违和,怎么看都像是正版。那些在特效上花了巨资的导演,看到这一幕不知道心态如何,但笔者是真的爽了!
自Sora发布以来,视频生成一直受到广泛的关注,但是很多生成的模型颇为抽象和诡异,距离“好看”和“商用”都还有一定的距离。「百度蒸汽机2.0」的定位是全球首个中文音视频一体化模型,但具体有什么优点,又该怎么用呢?当天,DoNews也受邀参加了发布会和采访,让我们一一道来。
01、视频创作的效率革命
开局一张图,中间一段脚本,几分钟后就是一段完成度极高的视频?
放在几年前,这样的效率,绝大多数内容创作者是想都不敢想的。 视频开场,就呈现两段酷炫的运镜,这是百度蒸汽机的最新能力。据了解,研发团队通过海量专业运镜数据进行了模型微调,我们普通人拍短视频,会简单的推拉移就算不错了,而蒸汽机已经熟练驾驭了环绕、摇镜等几十种复杂运镜方式,新增的镜头语言,也给视频表达提供了更丰富的选择空间。
蒸汽机的指令遵循系统也进行了全方位升级,通过精准的视频主体刻画,使视觉呈现细节与指令文本实现精确对应。在画面流畅度和人物表现细腻度方面,模型也有了质的飞跃。刚刚的视频,就是对经典童话进行了解构,视频中人物的表演更加生动自然,梵高画作的流动背景也令人沉醉。
还有一个不容易注意到,但实际上很重要的事情——视频里的声音,包括水声、钟声等环境音效以及人物台词,都是自动生成的,而非遵循以往“生成无声视频——配音效——配台词——对口型”的流程。「百度蒸汽机2.0」不仅实现了音视频一体化生成,更突破性地解决了多人对话、语言与人物面部/唇形/情绪一致性的技术难题。
百度商业体系商业研发总经理刘林在演讲中表示,技术突破为「百度蒸汽机2.0」带来了四大创新点:
1、人物表演、情绪、声音与神态的高度统一;
2、动态画面与音效的精准时空对齐;
3、多模态潜在空间规划技术对故事连贯性的保障;
4、超拟真音色与场景氛围、情绪的自然融合。
这是吹出来的,还是真实效果就是如此?昨天,百度蒸汽机2.0全系模型,包含Turbo、Lite、Pro及有声版四个版本,均已正式发布并向用户全面开放.
感兴趣的读者,在百度搜索、百度APP、手机浏览器百度搜索上搜「百度蒸汽机」或应用平台「绘想」,就可以上手试试了。有了AI打破传统硬件要求的限制,每个人都可以拍属于自己的“大片”。
而对百度蒸汽机的技术和故事更感兴趣的朋友,我们接着往下看。
02、“双人有声” 难在哪?
视频生成异军突起,面对影视行业的痛点问题,如危险镜头难拍摄、理想场景难寻找,影视制作周期长,参与协同角色多、演员拍摄成本高、视觉特效投入大等问题,都可以完美解决。
当天的嘉宾之一——知名好莱坞视效指导姚骐,参与了《2012》《黑客帝国3》《火星救援》《星际迷航》等电影的创作,他就直言,AI已深度渗透影视产业全流程:
在剧本创作阶段,AI可以辅助构建基础架构、设计故事线及生成对话内容;美术设计领域,AI已经全面覆盖概念设计与故事板制作;拍摄环节中,从摄影机控制、运动捕捉到灯光设置,AI均能提供技术辅助;后期制作流程中,AI在抠像、跟踪、模型构建、动画制作及特效合成等环节被广泛应用。
有了AI,好处多多。高危镜头可以交给AI完成,奇幻场景可以由AI构建,制作周期被缩短,演员片酬、特效镜头的价格都大大降低了。可以说,电影业因AI进入了新的工业化阶段。
这次蒸汽机的核心技术突破,就是做到多人音画同步,这一点连姚骐都表示了惊喜:“可以看到,蒸汽机在角色不同的⻆度下,口型自然,还确保音色和环境音的契合,细致的音效和环境音表现都很好。”
百度商业研发首席架构师李双龙在采访中表示,谷歌在6月份推出的Veo3,是首个音视频大模型,但是它并不能支持中文,而百度蒸汽机是首个支持中文的音视频生成大模型,整个研发过程中,百度也面临着很多技术上的挑战。
据了解,多人对话有声视频生成面临的核心技术难点,在于多模态信息的精准同步与自然交互。唇形同步要求极高精度,需确保每位说话者的口型与语音波形在毫秒级对齐,并在侧脸、遮挡等复杂场景表现稳定。其次,角色区分与交互自然性,系统必须准确识别不同说话者的声纹特征,同步生成对应的面部表情、肢体语言及视线方向,避免出现角色错位或机械化的集体反应。另外在情感一致性上也难以把控,需协调语音的情感语调(如愤怒、惊讶)与角色的微表情、肢体动态保持统一。此外,算法需在合成环境音效的同时,确保多人语音清晰分离且符合虚拟场景的声学逻辑。
“首先,我们要做到多角色的形声容一体化生成能力,也就是让模型通过自主理解思考规划实现多角色的语音、动作、表情等元素的完美匹配,其次就是如何通过端到端的训练学习达成这样的一体化生成效果,而不是把整个生成过程拆成很多步进行训练。能做到这些是非常有挑战的事情。”李双龙说。
当下业界主流一般是通过多角色多条件输入控制的方式来实现,就是人工预先编排好让哪一个角色先说,哪一个角色后说,具体说什么、用什么音色等,成本高且效果不好,而蒸汽机首创了lmmp技术实现了自动化的多角色隐式理解规划编排学习,无需人工多角色编排且效果显著领先业界主流技术。同时,蒸汽机处理和学习了大量跟中文语音语境相关的优质数据,让模型能够充分去理解中文特有的发音、语境特色等,实现了更好的中文化适配和生成。“这一次,我们开发了首个专门面向中文语境、中文语音的音视生成大模型,也是为我们中国的视频创作者,提供上支持中文的音视生成大模型。”
03、想象力:从创作到商业
想象力是创作的一切,可能这也是百度蒸汽机的以“想象力”作为消费单位的原因之一。但技术也好,创作也好,想要长期可持续的发展,都要考虑商业化的落地,可喜的是,在这方面,视频生成也颇具想象力。
当天发布会的一个高潮,就是公布价格。百度蒸汽机的价格体系极具竞争力,针对不同需求用户提供了梯度会员服务,价格低至行业同类产品的70%,新用户注册即可免费获得部分想象力值。
比如,Turbo版模型720P的价格定在1.4元/5秒,10秒价格为2.8元。值得一提的是,Turbo有声版价格与无声版完全一致,而行业传统流程中生成5秒720P视频需经历配音效、配台词等步骤,综合成本达3.5元,形成了极具竞争力的价格优势。
姚骐就带来了一部用百度蒸汽机制作的作品《归途》,40个镜头用到了120个视频片段,其中有18个10秒的一体化有声片段和102个5秒有声片段。按照定价标准来算,大约330.6元钱,可以说达到了极致的成本控制。
这个是单纯的价格战吗?对此百度副总裁、移动生态商业体系负责人陈一凡表示:“我们在收集大家的需求过程中,发现除了质量,更重要的就是成本。成本不降下来,大家不肯用,不肯用就根本到不了质量。所以我们在训练的时候,就兼顾了成本。”
百度的团队很早就基于GPU进行计算,在各方面有了深厚的积累,因此成功地将成本降了下来,降低了应用的门槛。当天,还展示了多条用百度蒸汽机制作的广告,来自一汽大众、伊利等公司。除了大公司,对很多中小公司来说,这也是极大的利好。
“为什么我们要做这一件事?其实有好多的小说广告主,想用视频来投广告,发现像‘僵尸入境’之类的视频,很难自己做出来,用AI来做视频物料,投放就非常好。还有广泛的中小企业,用蒸汽机来帮他们基于现在的物料做生成,能很快做出想要的视频来,这样也有利于广大的中小广告主在百度的场域来做分发。百度的广告收入很大一部分是中小客户带来的,所以帮助他们在这个时代获取更多的流量和需要的用户,也是我们做这个的价值。“陈一凡说到。
据了解,作为百度内容生产的重要工具,百度蒸汽机直接服务于搜索、信息流等核心业务,毕竟,如果能带来搜索收入1%的增长,也意味着数十亿级别的收入。
而在技术发展的方向上,百度商业研发首席架构师李双龙表示:“其实Sora刚出来的时候,虽然有很大的技术突破性,但是效果上跟我们想象的世界模型差距还是挺大的。未来我们会在世界模型这个方向上面持续探索,做出更大的技术突破。”