2026年5月20日,通义实验室正式发布Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型支持60种语言音频输入与文本输出、29种语言音频输出,端到端字均延迟低至2.8秒,并首次实现动态跨语言音色克隆,保留说话人原声特征。其面向跨境直播、跨国会议等高时效场景,集成可读单元流式技术、热词引擎及多模态视觉消歧能力。相较前代,语种覆盖提升超2倍,延迟降低1.88秒,翻译准确率显著提高。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。
2026年5月20日,通义实验室正式发布Qwen3.5-LiveTranslate-Flash实时语音翻译模型。该模型支持60种语言音频输入与文本输出、29种语言音频输出,端到端字均延迟低至2.8秒,并首次实现动态跨语言音色克隆,保留说话人原声特征。其面向跨境直播、跨国会议等高时效场景,集成可读单元流式技术、热词引擎及多模态视觉消歧能力。相较前代,语种覆盖提升超2倍,延迟降低1.88秒,翻译准确率显著提高。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。