轻量化多模态大型模型 Mini-InternVL —— 由上海AI实验室与清华大学等多个机构共同研发

AI工具3个月前发布 ainav
166 0

Mini-InternVL指的是一个特定的技术或项目名称。请注意,具体含义需要根据上下文来确定,因为它可能代表不同的概念或产品。

Micro-InternVL是“精简型”书生·万象大模型系列的一员,由上海AI实验室携手清华大学、南京大学等单位共同研发的轻量级多模态大型语言模型组成。该系列涵盖1B、2B和4B参数规模的不同版本,在保持较高性能的同时采用了较小的参数配置。其中Micro-InternVL-4B以仅5%的参数量实现了与InternVL2-76B大约90%相媲美的性能水平。此模型采用InternViT-300M作为其视觉编码器,并结合多种预训练语言模型,通过实施动态分辨率输入策略和像素洗牌技术来减少视觉标记的数量并优化处理效率。Micro-InternVL在多项通用多模态基准测试中表现优异,并能够借助简易的迁移学习框架调整以适应特定领域内的后续任务需求。

Mini-InternVL

Mini-InternVL的核心特性

  • 多元模式的理解与推断当提供图像与文字作为输入时,解析并推断它们之间的含义联系。
  • 跨越领域的适用性利用知识蒸馏与迁移学习的方法,使其能够适用于各种领域的不同任务。
  • 简洁且高性能尽管Mini-InternVL拥有较少的模型参数量(从1亿到40亿),它仍能达到大型模型级别的表现效果。这使其能够在诸如消费级GPU或边缘计算设备这样的有限资源环境下高效运作,从而减少实施成本并降低对计算资源的需求。
  • 优化视图指导拥有依据视觉指示调整优化的技能,能更准确地解析并落实用户以图片形式给出的指导。
  • 实时调整分辨率输入该功能允许采用动态调整分辨率的输入方案,依据图片的比例自动划分出尺寸各异的块状区域,并对这些区域实施相应处理。

Mini-InternVL的工作机制解析

  • 图像处理单元(InternViT-300M)作为核心组件,视觉编码器的任务是将输入图像转化为可以被模型解析的特征表达形式。轻量化设计的InternViT-300M通过知识蒸馏技术从其强大的前身——InternViT-6B中汲取了大量的视觉认知能力。这一过程使得InternViT-300M能够在保持较小参数规模的同时,在多个视觉任务上展现出卓越性能。
  • 知识转移通过把大尺寸教师模型中的知识迁移到小规模学生模型上,确保后者能够继承前者的能力表现。在Mini-InternVL项目里,利用计算负面的余弦相似度损耗的方式,由作为教师模型的InternViT-6B向学生模型InternViT-300M传输隐藏层的状态信息。
  • 多层感知机投射器MLP(多层感知器)作为桥梁链接视觉编码器与语言模型。它负责把从视觉编码器获得的特征向量转换至一个便于语言模型解析的空间内,从而使图像数据能够更高效地与文字内容结合及互动。
  • 预先训练的自然语言处理模型(NLPMs):Mini-InternVL融合了多种预先训练的语文模型,包括Qwen2-0.5B、InternLM2-1.8B及Phi-3mini。
  • 动态调整分辨率的输入方案采用动态调整输入尺寸的方法。此方法依据图片的比例将其切割为若干个448×448的块,并按照固定顺序排列这些块,从而形成一张2688×896像素的新图像表示形式。同时,在模型处理中,每个小块都会配有一个缩略图以提供整体背景信息。
  • 像素置换处理通过运用像素重排技术,该算法使图片分辨率缩小至初始值的四分之一,并相应减少了视觉标识的数量。

Mini-InternVL项目的仓库位置

  • Git存储库:访问该开源项目页面,请前往 https://github.com/OpenGVLab/InternVL
  • HuggingFace的模型集合:访问此链接以查看由OpenGVLab整理的internvl适应性集合 – https://huggingface.co/collections/OpenGVLab/internvl-adaptation
  • 关于arXiv上的科技学术文章在学术预印平台arXiv上发布了一篇研究论文,其在线地址为:https://arxiv.org/pdf/2410.16261。该链接指向了这篇未经同行评审的研究文档。

Mini-InternVL的使用场合

  • 自动驾驶技术应用于环境认知、行动预估及路线设计中,通过解析多个角度的影像资料来辨识并预见各类交通主体的动作趋向,并据此制定既稳妥又高效的行车线路。
  • 医疗影像处理为疾病的诊断提供帮助,对图像进行标记,并提出治疗方案的建议;通过解析医疗影像资料,给出诊疗支持与治疗提议。
  • 远程感知执行土地使用类型划分、灾情监控及环境保护检测的任务,旨在辨别各种土地用途,分析自然灾难的后果,并持续观察生态环境的变化。
  • 理解和解析文件及图形数据从文件中抽取信息、解读表格与图形,并创建文档概要及图示说明,同时提供数据分析与视觉展示功能。
  • 视像解析从视频中抽取核心帧与信息,分析并辨识其中的人体动作及发生的情节,制作简短的视频概要,并对有关视频的内容进行解答。
© 版权声明

相关文章