阿里通义开源多模态检索模型Qwen3-VL-Embedding&Reranker,树立新标杆

AI资讯1个月前发布 ainav
26 0

1月8日,通义大模型宣布正式发布并开源Qwen3-VL-Embedding和Qwen3-VL-Reranker两大模型系列。这两款模型基于强大的Qwen3-VL基座构建,专为多模态信息检索与跨模态理解设计,旨在为图文、视频等多种形式的内容提供统一高效的处理方案。

以下是官方的详细介绍:

阿里通义开源多模态检索模型Qwen3-VL-Embedding&Reranker,树立新标杆

多模态通用性

Qwen3-VL系列模型能够统一处理文本、图像、可视化文档(包括图表、代码、UI组件等)、视频等多种模态输入。在图文检索、视频-文本匹配、视觉问答(VQA),多模态内容聚类等领域均达到了业界领先水平。

统一表示学习(Embedding)

Qwen3-VL-Embedding模型充分利用了Qwen3-VL基座模型的优势,能够生成语义丰富的向量表示。通过将视觉与文本信息映射到同一个语义空间中,实现了高效的跨模态相似度计算与检索。

阿里通义开源多模态检索模型Qwen3-VL-Embedding&Reranker,树立新标杆

高精度重排序(Reranker)

Qwen3-VL-Reranker作为Embedding模型的补充,能够接收任意模态组合的查询与文档对,并输出精确的相关性分数。在实际应用中,二者通常协同工作:Embedding负责快速召回,Reranker负责精细化重排序,形成“两阶段检索流程”,显著提升了最终结果的准确性。

卓越的实用性

该系列继承了Qwen3-VL的多语言能力,支持超过30种语言,适合全球化部署。模型提供灵活的向量维度选择、任务指令定制,以及量化后仍保持的优秀性能,便于开发者集成到现有系统中。

阿里通义开源多模态检索模型Qwen3-VL-Embedding&Reranker,树立新标杆

阿里通义开源多模态检索模型Qwen3-VL-Embedding&Reranker,树立新标杆

在MMEB-v2、MMTEB等权威多模态检索基准测试中,Qwen3-VL系列模型展现了强劲的实力。

Qwen3-VL-Embedding

Qwen3-VL-Embedding-8B模型在MMEB-V2测试中取得了业界领先的结果,超越了所有先前的开源模型和闭源商业服务。

在纯文本多语言MMTEB基准测试上,与同等规模的纯文本Qwen3-Embedding相比虽有细微差距。但与其他同规模模型相比,其性能仍然极具竞争力。

阿里通义开源多模态检索模型Qwen3-VL-Embedding&Reranker,树立新标杆

Qwen3-VL-Reranker采用单塔架构,通过内部的交叉注意力机制,深度分析查询与文档之间的语义关联,从而输出精确的相关性分数。

阿里通义开源多模态检索模型Qwen3-VL-Embedding&Reranker,树立新标杆

GitHub仓库:https://github.com/QwenLM/Qwen3-VL-Embedding

魔搭 ModelScope:

https://modelscope.cn/collections/Qwen/Qwen3-VL-Embedding

https://modelscope.cn/collections/Qwen/Qwen3-VL-Reranker

© 版权声明

相关文章