Bilibili Index 团队于8月4日宣布,通过自研 IndexTTS2 模型推出“原声风格”视频配音功能,支持将部分中文视频翻译为外语原声风格配音。
该功能基于团队自研模型,使视频人物配音摆脱传统“代言人声线”,实现像本人亲自讲外语一样的自然效果,包括声音、语气、节奏及个性表达都与原片高度一致,使观众感受到“这个人用另一种语言在说话”。
IndexTTS2 模型创新性地提出一种通用于 AR 系统的“时间编码”机制,首次解决传统 AR 模型难以精确控制语音时长的问题。该设计在保留 AR 架构韵律自然性、风格迁移能力和多模态扩展性的同时,具备合成定长语音的能力。
团队还通过音色克隆、声场一致性、多声源融合等技术,解决传统配音中声音人格缺失、字幕干扰及本地化成本高等问题。系统同时优化多说话人场景下的说话人分割、情绪迁移与语速控制,并引入 RIVAL 对抗式强化学习框架提升翻译质量与风格适配度。
在视频层面,系统结合字幕擦除与基于 Diffusion 的高保真唇形同步技术,确保音画一致与沉浸感。B站表示,未来将支持更多语言,并计划开源模型,推动多语言、跨模态内容的全球化传播。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。