阿里通义千问开源超低延迟语音合成模型Qwen3-TTS

阿里通义千问团队正式开源Qwen3-TTS系列语音生成模型,该模型具备97毫秒超低延迟、秒级音色克隆与跨语言迁移能力。

模型采用双轨混合流式生成架构,实现端到端语音直接建模,端到端延迟低至97毫秒,输入单个字即可输出首包音频,适用于直播互动、实时翻译等高时延敏感场景。

仅需3秒参考音频可实现高保真音色复刻,并支持将克隆音色迁移至中、英、日、韩等10种主流语言及多种中文方言。模型还支持语音设计功能,用户通过一句自然语言描述即可生成定制化音色。

团队同步开源1.7B和0.6B两种参数规模的模型版本,适配不同性能与效率需求。完整代码与权重已发布于GitHub和Hugging Face平台,支持全参数微调。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号