阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作流畅的数字人视频。
该模型单次生成的视频时长可达分钟级,可提升数字人直播、影视制作、AI 教育等行业的视频创作效率。
Wan2.2-S2V 可驱动真人、卡通、动物、数字人等类型图片,并支持肖像、半身以及全身等任意画幅。上传一段音频后,模型能让图片中的主体形象完成说话、唱歌和表演等动作。
模型还支持文本控制,输入 Prompt 后可对视频画面进行控制,使视频主体的运动和背景变化更丰富。
例如,上传一张人物弹钢琴的照片、一段歌曲和一段文字,Wan2.2-S2V 可生成一段完整、声情并茂的钢琴演奏视频,确保人物形象与原图一致,面部表情和嘴部动作与音频对齐,手指手型、力度、速度与音频节奏匹配。
Wan2.2-S2V 采用基于通义万相视频生成基础模型能力,融合文本引导的全局运动控制和音频驱动的细粒度局部运动,实现复杂场景的音频驱动视频生成。同时引入 AdaIN 和 CrossAttention 两种控制机制,实现更准确更动态的音频控制效果。
为保障长视频生成效果,Wan2.2-S2V 通过层次化帧压缩技术,大幅降低历史帧的 Token 数量,将 motion frames 的长度从数帧拓展到 73 帧,实现稳定的长视频生成效果。
在模型训练上,通义团队构建了超 60 万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘模型性能。同时通过多分辨率训练,支持模型多分辨率推理,满足不同分辨率场景的视频生成需求,如竖屏短视频、横屏影视剧。
实测数据显示,Wan2.2-S2V 在 FID(视频质量)、EFID(表情真实度)、CSIM(身份一致性)等核心指标上取得同类模型最佳成绩。
自今年 2 月以来,通义万相已连续开源文生视频、图生视频、首尾帧生视频、全能编辑、音频生视频等多款模型,在开源社区和三方平台的下载量已超 2000 万。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。