阿里通义千问开放的视觉语言模型Qwen2.5-VL

AI工具3个月前发布 ainav
143 0

Qwen2.5-VL指的是什么?

通义千问团队发布了其开源旗舰视觉语言模型Qwen2.5-VL,该系列提供3B、7B及72B三种规模版本。此模型特别擅长于图像理解,能够辨识普通物品,并解析图片内的文本与图表等内容。作为具备视觉代理功能的系统,它拥有推理能力并能灵活运用工具,在电脑和手机的操作上初具雏形。在视频分析方面,Qwen2.5-VL可处理时长超过一小时的影片内容,并精准捕捉关键片段中的事件细节。此外,该模型还能对发票、表单等文档进行结构化输出处理。性能测试显示,特别是在文档与图表的理解任务上,72B指令版本的Qwen2.5-VL-72B-Instruct表现出众,在多个评估领域和具体任务中均有优异成绩;而其7B型号在多种应用场景下甚至超越了GPT-4o-mini的表现。

Qwen2.5-VL

Qwen 2.5-VL的核心特性

  • 视感解析能够辨认出日常的物品,比如花卉、鸟类、鱼类以及各种昆虫,并且可以解析图片里的文字内容、表格信息及符号元素等视觉要素与页面结构。
  • 视觉智能体技能可以充当一个视觉代理,进行推理并灵活运用工具,并已初步掌握操作计算机和智能手机的技能。
  • 把握长片内容与识别关键瞬间能够解析时长超出一小时的视频,并精确找到相关的视频片段以捕获特定事件。
  • 视像定置可以利用创建边界框或点的方式来精确标识图像内的对象,并能够稳定地以JSON格式输出这些对象的坐标与特征信息。
  • 有序展示针对发票、表单和表格中的数据,能够实现其内容的结构化呈现。

Qwen 2.5-VL的核心技术机制

  • 架构设计Qwen2.5-VL 继承了 Qwen-VL 的架构设计,该架构由 ViT 与 Qwen2 相连构成,在三个不同大小的模型中均使用了规模为 600M 的 ViT 模型,并且能够处理图像和视频输入。这种结构有助于更有效地结合视觉与语言信息,从而增强对多种类型数据的理解能力。
  • 多功能旋转变位编码(M-RPE)Qwen2.5-VL 利用 M-ROPE 技术将旋转位置编码细分为时间、空间(包括高度与宽度)三个维度,这使得大型语言模型能够同步理解和融合一维文本信息、二维视觉数据以及三维视频中的位置细节,从而显著提升了该模型在多模态处理和推理方面的性能。
  • 实现各种分辨率的图片辨识Qwen2.5-VL 能够解析各种尺寸与比例的图片,并且能够轻易地区分出图像的不同清晰度及大小。得益于 naive dynamic resolution 技术的支持,该系统可以将任意分辨率的图转换为相应数量的视觉 token,从而确保了模型输入和图像信息之间的高度一致性。
  • 网络架构精简相比 Qwen2-VL,Qwen2.5-VL 在提升模型对时空尺度理解的同时,还通过优化网络架构来增强处理效率。
  • 提高模型的推断性能在多项权威评测里,Qwen2.5-VL 展现了其作为同规模开源模型中的佼佼者地位,在文档理解能力方面尤为突出。与诸如 GPT-4O 和 Claude3.5-Sonnet 这样的闭源模型进行比较时,Qwen2.5-VL 在大多数评估标准上均取得了最佳成绩。

Qwen2.5-VL的工程链接

  • 官方网站URLExceptiontaboola_URL_END_TAG这里的”URLExceptiontaboola_URL_END_TAG”是一个错误插入,正确改写的句子应为:“官方网站”以符合要求。不过,在没有具体内容需要改编的情况下,“项目官网”直接可改为“官方网站”,这已是对其的一种简单伪原创处理。:在该链接中展示了Qwen2.5-vl的最新进展,详情请访问https://qwenlm.github.io/blog/qwen2.5-vl。
  • Git存储库:在GitHub上可以找到QwenLM团队的项目仓库地址为https://github.com/QwenLM/Qwen2.5-VL
  • HuggingFace的模型集合库:在Hugging Face平台上,可以找到由Qwen创建的集合qwen25-vl,链接如下所示。

Qwen2.5-VL的使用场合

  • 文件解析Qwen2.5-VL 擅长解析文档与图形内容,并能够充当视觉智能体执行任务,且无需针对具体工作进行额外调整。
  • 智能化助理该系统能够充当智能化的辅助工具,为用户提供诸如订票和气象信息检索在内的多种服务。
  • 信息加工Qwen2.5-VL 能够实现对如发票、表单及表格等资料的数据结构化呈现。
  • 装置操控该模型具备操控智能手机、互联网平台及计算机的能力,为开发真实的视觉代理人提供了宝贵的数据支持。
  • 目标位置识别Qwen2.5-VL 能够利用生成边界框或点的方式精确地在图片中定位对象,并且能够稳定地输出包含坐标与属性的 JSON 数据。
© 版权声明

相关文章