Bilibili Index 团队发布全新自研 IndexTTS2 模型,推出“原声风格”视频配音功能,支持将中文视频翻译为外语并保留原声语气与节奏。该模型通过创新的“时间编码”机制,实现语音时长精确控制,同时保持语调自然与风格迁移能力。团队还应用音色克隆、多声源融合等技术,提升配音个性化与沉浸感。系统引入 RIVAL 强化学习框架,优化翻译质量与情绪表达,并结合唇形同步等技术,增强视频整体一致性。B站计划未来支持更多语言并开源模型,推动全球化内容传播。
Bilibili Index 团队发布全新自研 IndexTTS2 模型,推出“原声风格”视频配音功能,支持将中文视频翻译为外语并保留原声语气与节奏。该模型通过创新的“时间编码”机制,实现语音时长精确控制,同时保持语调自然与风格迁移能力。团队还应用音色克隆、多声源融合等技术,提升配音个性化与沉浸感。系统引入 RIVAL 强化学习框架,优化翻译质量与情绪表达,并结合唇形同步等技术,增强视频整体一致性。B站计划未来支持更多语言并开源模型,推动全球化内容传播。