1月8日,通义大模型宣布正式发布并开源Qwen3-VL-Embedding和Qwen3-VL-Reranker两大模型系列。这两款模型基于强大的Qwen3-VL基座构建,专为多模态信息检索与跨模态理解设计,旨在为图文、视频等多种形式的内容提供统一高效的处理方案。
以下是官方的详细介绍:
多模态通用性
Qwen3-VL系列模型能够统一处理文本、图像、可视化文档(包括图表、代码、UI组件等)、视频等多种模态输入。在图文检索、视频-文本匹配、视觉问答(VQA),多模态内容聚类等领域均达到了业界领先水平。
统一表示学习(Embedding)
Qwen3-VL-Embedding模型充分利用了Qwen3-VL基座模型的优势,能够生成语义丰富的向量表示。通过将视觉与文本信息映射到同一个语义空间中,实现了高效的跨模态相似度计算与检索。
高精度重排序(Reranker)
Qwen3-VL-Reranker作为Embedding模型的补充,能够接收任意模态组合的查询与文档对,并输出精确的相关性分数。在实际应用中,二者通常协同工作:Embedding负责快速召回,Reranker负责精细化重排序,形成“两阶段检索流程”,显著提升了最终结果的准确性。
卓越的实用性
该系列继承了Qwen3-VL的多语言能力,支持超过30种语言,适合全球化部署。模型提供灵活的向量维度选择、任务指令定制,以及量化后仍保持的优秀性能,便于开发者集成到现有系统中。
在MMEB-v2、MMTEB等权威多模态检索基准测试中,Qwen3-VL系列模型展现了强劲的实力。
Qwen3-VL-Embedding
Qwen3-VL-Embedding-8B模型在MMEB-V2测试中取得了业界领先的结果,超越了所有先前的开源模型和闭源商业服务。
在纯文本多语言MMTEB基准测试上,与同等规模的纯文本Qwen3-Embedding相比虽有细微差距。但与其他同规模模型相比,其性能仍然极具竞争力。
Qwen3-VL-Reranker采用单塔架构,通过内部的交叉注意力机制,深度分析查询与文档之间的语义关联,从而输出精确的相关性分数。
GitHub仓库:https://github.com/QwenLM/Qwen3-VL-Embedding
魔搭 ModelScope:
https://modelscope.cn/collections/Qwen/Qwen3-VL-Embedding
https://modelscope.cn/collections/Qwen/Qwen3-VL-Reranker