通义万相2.5发布支持音画同步视频生成- DoNews

9月24日，在2025杭州云栖大会上，阿里发布通义万相Wan2.5preview系列模型，涵盖文生视频、图生视频、文生图和图像编辑四大模型。其中，通义万相2.5视频生成模型能生成与画面匹配的人声、音效和音乐BGM，首次实现音画同步的视频生成能力，进一步降低电影级视频创作门槛。即日起，用户可在阿里云百炼平台调用API，或在通义万相官网直接体验。

通义万相2.5在创作能力上实现全面升级：视频生成时长从5秒提升至10秒，单次生成可呈现更完整的剧情故事；支持24帧每秒的1080P高清视频生成，画面质量满足电影级场景创作需求；模型指令遵循能力增强，可理解运镜等复杂连续变化指令控制，图像编辑任务中可一键实现人物变身、风格变化等效果。

相比前几代模型，通义万相2.5在技术架构上实现重大更新：首次采用原生多模态架构，在同一框架下支持理解与生成等多种任务，支持文本、图像、视频、音频多种模态的输入和输出，实现音画同步的视频生成等多模态能力。用户输入提示词即可生成人声、环境音效和背景音乐，并精准与画面内容、人物口型匹配，使视频演绎更加生动形象。该模型也支持输入一段音频作为参考，驱动文字或图片生成音画同步的视频。

例如，输入包含拍摄角度、光影、人物动作及背景声音描述的复杂提示词，如仰视角度拍摄、日光晴天、暖色调构图、男子滑板腾空翻转动作，以及伴随电子音乐、滑板摩擦声、人物落地轻哼“Yeah!”等细节，通义万相能精准理解多个关键词，生成一段动作、视角、光影符合指令的视频，且人声、音效与画面内容同步。

此次通义万相2.5还升级了图像生成能力，可生成中英文文字和图表，包括复杂文字排版、艺术海报、流程图、架构图等，同时支持图像编辑功能，通过一句话指令完成图像修改。

通义万相模型家族现已支持文生图、文生视频、图生视频、人声生视频和动作生成等10多种视觉创作能力，累计生成3.9亿张图片、7000万个视频。自2025年2月以来，通义万相已连续开源20多款模型，在开源社区和第三方平台的下载量超3000万，成为开源社区最受欢迎的视频生成模型之一。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。