重磅消息!阿里通义实验室今日宣布Qwen3-VL系列迎来两位全新成员:基于密集架构的视觉语言模型Qwen3-VL-8B和Qwen3-VL-4B正式开源发布。
作为采用密集架构的视觉语言模型,Qwen3-VL-4B和Qwen3-VL-8B不仅继承了Qwen3-VL系列的核心能力,更实现了性能与效率的双重突破。这两款模型具有更低的显存占用,同时支持Instruction和Thinking两大版本。
其中,在多项权威评测中展现出色表现:不仅在STEM、VQA、OCR、视频理解和Agent任务等关键指标上超越了Gemini 2.5 Flash Lite和GPT-5 Nano,更令人惊叹的是,其性能已经能够与前代超大规模模型Qwen2.5-VL-72B相媲美。
而则凭借在端侧设备上的出色表现,在性价比方面树立了新的标杆。该版本特别适合需要AI视觉理解的智能终端部署,为边缘计算场景提供了更优选择。
特别值得一提的是,Qwen3-VL系列在视觉精准度和文本稳健性方面实现了重大突破。针对小模型常见的”跷跷板效应”(提升视觉能力往往会导致文本性能下降,反之亦然),阿里通义实验室通过创新的架构设计和技术优化,成功让这两款轻量化模型同时具备更强的视觉感知能力和更优的文本理解效果。
目前,这两款新模型已正式登陆魔搭社区和Hugging Face平台,并提供FP8版本支持。开发者可访问以下链接获取完整开源信息:
-
https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
-
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
© 版权声明
文章版权归作者所有,未经允许请勿转载。