智源发布的包含数百万条多元模式指令的资料集合 —— Infinity-MM

AI工具5个月前发布 ainav
108 0

Infinity-MM代表的是什么?

无限多元(Infinity-MM)是由智源研究院开发的一个大规模多模态指令数据库,拥有4300万个样本,总数据量为10TB。该数据库经过严格的质量筛选和重复去除处理,以保证其内容的高质量与多样性,并有助于提高开源视觉-语言模型(VLMs)的表现能力。此外,智源还引入了一种基于开源VLMs的数据合成生成技术来进一步增加数据集的数量和丰富度。借助Infinity-MM的支持,智源成功研发了参数量达20亿的多模态模型Aquila-VL-2B,在同类规模的模型中达到了最顶尖的表现水平。

Infinity-MM

Infinity-MM的核心特性

  • 增强开放源代码模型的效能:通过利用大量且优质的指令数据,Infinity-MM旨在增强开放源代码视觉语言模型(VLMs)的表现力,使其性能能够匹敌甚至媲美专有模型的标准。
  • 构建数据集合涵盖4300万个精心挑选并去除重复项的多种类型的多模态实例,涉及领域包括图像提问解答、文本辨识、文件解析及数学推断等。
  • 生成合成数据利用开源的视觉语言模型及详尽的图片描述,创造多样化的命令以匹配图片的内容,从而增加数据集的数量并增强其多样性。
  • 模型的培训及评价使用Infinity-MM数据集对含有20亿参数的VLM——Aquila-VL-2B进行了训练,该模型在一系列基准测试中展现了出色的性能表现。
  • 促进多种模式的学术探索通过供应大量的高质数据集合,推动多模态人工智能领域内的研究与应用进步。

无限性-MM的工作机制

  • 数据采集及初步加工Infinity-MM 的资料源自于若干个公开的数据集合,并经过了重复去除及品质筛选的过程,以保障其数据库具备高水平的质量与丰富的多样性。
  • 制造数据的创建技术请提供需要伪原创改写的具体内容,以便我能够帮助您完成请求。
    • 图片与命令标签体系利用开放源代码的识别软件(例如RAM++),实现图片的自动化标注,从中抽取核心数据,并构建图像的理解框架。
    • 命令标识系统结构构建一套包含多种类型与层级的三阶命令标识系统。
    • 构建图像和指示标记之间的关联关系:分析图片标记和命令标记间的关联性,实现迅速查找相匹配的任务标识。
  • 问题创建及筛选:引导模型依据图像及指令的种类来创造特定的问题,并实施合理性的评估。
  • 产生并筛选答案在创建了问题之后,继续制定相关的回应指令,并实施严格的筛选程序,以保证其与图像内容或指定任务的高度契合。
  • 逐步培训方案Aquila-VL-2B 模型采用阶段性训练策略,逐渐增强其理解和处理视觉数据的能力。
  • 多元融合结构Aquila-VL-2B 是在 LLaVA-OneVision 架构的基础上构建的,它融合了文本组件(Qwen2.5-1.5B-instruct)与视觉组件(Siglip400m)。
  • 提高培训效能自主研发的FlagScale框架通过优化模型训练过程,提升了1.7倍的训练效率相比原始版本采用DeepSpeed技术的代码。

Infinity-MM项目的仓库位置

  • HuggingFace的模型集合库访问此链接以查看由BAAI创建的多模态数据集Infinity-MM: https://huggingface.co/datasets/BAAI/Infinity-MM
  • 关于技术的arXiv学术文章本文链接提供了对最新科研论文的访问权限,该论文探讨了特定领域的前沿研究。(注:由于原始内容仅为一个指向学术论文的URL,并未提供具体文本信息进行改写,故无法直接生成符合要求的内容。以上句子是对如何处理此类情况的一种示例性表达。)

Infinity-MM的使用情境

  • 图像问题解答(Image Question Answering, IQA)利用图片及其对应的问题作为训练数据,使模型能够理解并回应有关图片信息的提问。
  • 图片描述生成(Picture Description Generation)创建能够描绘图片的文本,在社交平台、内容管理以及图像搜索等多个领域内得到广泛运用。
  • 文件解析与评估(Document Parsing and Evaluation)从文档中抓取并解析视觉与文字资料,适合用于自动化的办公室工作、智能化的文件管理及数据抽取。
  • 数学与逻辑推断(Mathematics and Logical Inference)通过训练模型来处理数学难题与逻辑推理挑战,在教育科技、自动评估及智能化学习辅助系统中展现出巨大价值。
  • 多元感知互动平台(Multi-sensory Interactive Platforms)融合视觉与言语数据,增强人际互动的流畅度与效能,适合应用于智能化助理及客户支持机器人中。
© 版权声明

相关文章