2026年1月22日,Qwen宣布开源Qwen3-TTS多码本全系列语音生成模型,包含1.7B和0.6B两种尺寸,分别适用于极致性能与均衡效率场景。该模型支持音色克隆、创造及多语言拟人化语音生成,覆盖中、英、日、韩等10种主流语言及方言。依托自研的Qwen3-TTS-Tokenizer-12Hz编码器与Dual-Track双轨架构,实现低至97ms的端到端延迟,首包音频响应仅需一个字符。模型在音色控制、跨语种克隆等多项任务中达到SOTA水平,已在GitHub、HuggingFace等平台开放。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



