轻量化视觉语言模型SmolVLM由Hugging Face发布

AI工具3个月前发布 ainav
85 0

SmolVLM指的是什么?

Hugging Face近期发布了一款名为SmolVLM的轻量级视觉语言模型,特别适用于设备端推理场景。该模型拥有20亿参数,并以其低内存占用率和迅捷的处理速度著称。为了适应多样化的应用需求,SmolVLM提供了三种版本:Base版适合进行下游任务的微调;Synthetic版是基于合成数据调整过的变体;而Instruct版则是经过指令优化,可以直接应用于交互式场景中的模型。借鉴了Idefics3的设计思路,它采用拥有17亿参数的语言主干SmolLM2,并借助像素混洗技术增强了视觉信息的压缩效果。通过在Cauldron和Docmatix数据集上的训练,进一步提升了其图像编码与文本处理的能力。

SmolVLM的核心特性

  • 终端设备上的推理任务SmolVLM旨在适应设备端的推理需求,在如笔记本电脑、普通GPU或是移动装置这类资源受限的环境中能够高效运作。
  • 精细调整的能力该模型推出了三种版本,旨在适应各种不同的要求:
    • SmolVLM-Base适用于对下游任务进行精细调整。
    • SmolVLM-Synthetic利用合成数据进行了精细调整;
    • 经过针对指令的精细调整,SmolVLM-Instruct版本能够无缝集成到各类互动应用程序中。
  • 经过改进的系统构架设计参考Idefics3的设计思想,采用SmolLM2 1.7B模型作为核心架构,并借助像素打散技术增强图像数据的压缩效率,从而达到优化视觉信息处理的效果。
  • 管理大量文字及多个图片文件在训练过程中使用了Cauldron与Docmatix数据集来增强SmolLM2的上下文理解能力,使其能够应对较长的文字序列及多个图片输入。
  • 占用内存小在处理图像时,SmolVLM利用81个token来编码大小为384×384像素的图片区块,而Qwen2-VL则需使用大约1.6万token。这种差异大幅减少了后者的内存需求。
  • 高性能处理能力在若干标准测试里,SmolVLM的预先填充速率是Qwen2-VL的3.3至4.5倍,内容生产速度则是其7.5至16倍。
  • 开放源代码模型SmolVLM实现了全面的开放源代码分享,其包含的所有模型快照、视觉语言数据集合、训练方法及配套工具皆已在Apache 2.0许可协议下对外公开。
  • 训练用的数据集合SmolVLM 包含了 Cauldron 和 Docmatix 的功能,并且拓展了 SmolLM2 的上下文能力,使得它能够应对更长的文字序列以及多个图片输入。

SmolVLM的官方仓库链接

  • GitHub代码库该链接指向的文章探讨了小规模语言模型(SmolVLMs)的效能和应用。这些模型在保持较低计算资源需求的同时,依然能够实现高效的自然语言处理任务,如文本生成、分类等。文章通过实验数据展示了这类轻量级模型如何能够在各种应用场景中平衡性能与效率。

    文中还提到了几个重要的发现:首先,小规模的语言模型可以显著减少能源消耗和训练时间;其次,在特定的任务上,这些小型模型的准确率能够接近更大更复杂的模型;最后,研究强调了在资源受限环境中部署轻量级语言模型的重要性。

  • HuggingFace的模型集合库关于小型语言模型的探讨可以查看这篇博客文章: https://huggingface.co/blog/minilanguagemodel分析与见解。
  • 网上试用演示版访问此链接以查看Hugging Face上的SmolVLM空间:https://huggingface.co/spaces/HuggingFaceTB/SmolVLM
  • 完整的数据集合清单如下链接提供了关于 SmolVLM-Instruct 项目的数据详情文档:
    https://huggingface.co/HuggingFaceTB/SmolVLM-Instruct/tree/main/smolvlm-data.pdf

    请注意,上述内容是对原始信息的重新表述,保持了指向同一PDF文件的核心含义。

SmolVLM的使用场合

  • 视像解析SmolVLM在基础视频解析任务上展现了其潜能,特别是在计算资源有限的情形下表现突出。于CinePile标准测试中的成绩达到27.14%,这表明它具备较强的视频理解竞争力。
  • 图像理解技术SmolVLM向开发者与研究人员提供了高效处理视觉语言任务的工具,并且不需要承担昂贵的硬件成本。
  • 在本地安装小型模型能够实现于浏览器环境或是边缘计算装置的本地化安装,从而降低推断过程中的开销,并允许使用者根据需求定制配置。
  • 人工智能的广泛推广SmolVLM的进步预计将拓宽视觉语言模型的应用领域,使高级AI技术更为普遍且易于接触,并向更多用户群体提供强劲的机器学习能力。
© 版权声明

相关文章