豆包语音推AI多人有声剧自动化方案

近日,豆包语音团队发布了“AI多人有声剧”自动化方案,支持多角色、高表现力的TTS演播,并实现全自动AI后期处理,从小说文本到高质量有声剧成品全程由AI端到端完成。

该方案基于高自然度的多角色智能朗读技术,结合AI自动添加背景音乐、音效、人声特效及环境音,并进行智能混音处理,生成媲美真人配音水准的有声剧作品。整个生产链路无需人工干预,显著降低制作成本与周期,提升听书的自然度与沉浸感。

系统可自动完成小说文本的角色划分,准确率超过98%。其语音大模型通过海量文本与语音的多模态预训练,原生融合文本与语音模态,引入思维链信息,具备较强的文本理解与语音演绎能力,实现发音自然、情感丰富的多人演播效果。

方案中的画本预测模型可在多角色演播基础上,预测并生成包含音效、特效、配乐等元素的音频制作画本。随后根据画本信息进行音频素材召回与合成,动态调整音频参数,最终结合多角色TTS合成完整有声剧成品。

目前,首批采用该方案端到端生成的有声剧作品已上线番茄小说APP,用户反馈良好,整体效果超出预期。该方案将持续迭代升级,未来将覆盖更多书籍内容,实现小说更新后用户可即时收听高品质AI生成有声剧。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1