阿里通义发布并开源Qwen3多模态检索模型

阿里通义发布并开源Qwen3-VL-Embedding与Qwen3-VL-Reranker模型系列,基于Qwen3-VL构建,专为多模态信息检索与跨模态理解设计,支持文本、图像、可视化文档及视频等多种模态输入。

该模型系列在图文检索、视频-文本匹配、视觉问答(VQA)和多模态内容聚类等任务中达到业界领先水平,提供统一高效的混合内容理解与检索解决方案。

Qwen3-VL-Embedding采用双塔独立编码架构,将多源数据映射至共同高维语义空间,生成语义丰富的向量表示,实现高效的跨模态相似度计算与检索。

该模型在MMEB-v2基准测试中表现突出,Qwen3-VL-Embedding-8B超越此前所有开源及闭源商业服务;在MMTEB多语言文本基准上,性能虽略低于同规模纯文本模型,但仍具较强竞争力。

Qwen3-VL-Reranker采用单塔交叉注意力架构,对查询与文档对进行联合编码,深度分析语义关联,输出精确相关性分数,适用于图文、视频等任意模态组合的匹配场景。

评测显示,Qwen3-VL-Reranker在MMEB-v2、MMTEB及JinaVDR、ViDoRe v3等视觉文档检索数据集上均优于基础Embedding模型与基线Reranker模型,其中8B版本在多数任务中性能最优。

两者协同构成“两阶段检索流程”:Embedding负责快速召回候选集,Reranker执行精细化重排序,显著提升最终检索精度。

模型继承Qwen3-VL多语言能力,支持超30种语言,提供灵活向量维度选择、任务指令定制及量化优化,便于集成部署于全球化应用场景。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1