阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本

阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。

作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:

  • 语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入

  • 音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析

官方在一系列基准数据集上进行了测试,Qwen2-Audio 超越了先前的最佳模型。

▲ Qwen2-Audio 整体表现

IT之家附相关链接如下:

  • 试用链接https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

  • 论文地址:https://arxiv.org/abs/2407.10759

  • 评估标准:https://github.com/OFA-Sys/AIR-Bench

  • 开源代码:https://github.com/QwenLM/Qwen2-Audio

本文转载自IT之家,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请联系IT之家通知我方删除,我方将在收到通知后第一时间删除内容!本文只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1