阿里通义开源多模态检索模型Qwen3-VL-Embedding&Reranker，树立新标杆

96 0 0

1月8日，通义大模型宣布正式发布并开源Qwen3-VL-Embedding和Qwen3-VL-Reranker两大模型系列。这两款模型基于强大的Qwen3-VL基座构建，专为多模态信息检索与跨模态理解设计，旨在为图文、视频等多种形式的内容提供统一高效的处理方案。

以下是官方的详细介绍：

多模态通用性

Qwen3-VL系列模型能够统一处理文本、图像、可视化文档（包括图表、代码、UI组件等）、视频等多种模态输入。在图文检索、视频-文本匹配、视觉问答（VQA），多模态内容聚类等领域均达到了业界领先水平。

统一表示学习（Embedding）

Qwen3-VL-Embedding模型充分利用了Qwen3-VL基座模型的优势，能够生成语义丰富的向量表示。通过将视觉与文本信息映射到同一个语义空间中，实现了高效的跨模态相似度计算与检索。

高精度重排序（Reranker）

Qwen3-VL-Reranker作为Embedding模型的补充，能够接收任意模态组合的查询与文档对，并输出精确的相关性分数。在实际应用中，二者通常协同工作：Embedding负责快速召回，Reranker负责精细化重排序，形成“两阶段检索流程”，显著提升了最终结果的准确性。

卓越的实用性

该系列继承了Qwen3-VL的多语言能力，支持超过30种语言，适合全球化部署。模型提供灵活的向量维度选择、任务指令定制，以及量化后仍保持的优秀性能，便于开发者集成到现有系统中。

在MMEB-v2、MMTEB等权威多模态检索基准测试中，Qwen3-VL系列模型展现了强劲的实力。

Qwen3-VL-Embedding

Qwen3-VL-Embedding-8B模型在MMEB-V2测试中取得了业界领先的结果，超越了所有先前的开源模型和闭源商业服务。

在纯文本多语言MMTEB基准测试上，与同等规模的纯文本Qwen3-Embedding相比虽有细微差距。但与其他同规模模型相比，其性能仍然极具竞争力。

Qwen3-VL-Reranker采用单塔架构，通过内部的交叉注意力机制，深度分析查询与文档之间的语义关联，从而输出精确的相关性分数。

GitHub仓库：https://github.com/QwenLM/Qwen3-VL-Embedding

魔搭 ModelScope：

https://modelscope.cn/collections/Qwen/Qwen3-VL-Embedding

https://modelscope.cn/collections/Qwen/Qwen3-VL-Reranker

文章版权归作者所有，未经允许请勿转载。

ainav

198 0

ainav

222 0

ainav

278 0

ainav

159 0

ainav

164 0

ainav

219 0