北大团队开发的细粒度多模态大型模型 – Finedefics

AI工具4周前发布 ainav
56 0

FineDefs的含义是什么

Finedefics 是由北京大学彭宇新教授团队开发的一款精细多模态大模型,旨在增强多模态大型语言模型(MLLMs)在细致视觉识别(FGVR)任务上的性能表现。该模型通过增加对象的详细属性描述,并利用对比学习方法同步视觉对象与类别名称的表现形式,从而克服了传统模型中视觉对象和细粒度子类不匹配的问题。

Finedefics

Finedefics的核心作用

  • 增强精细视觉辨识技术Finedefics 利用精细的对象特性描述,并采用对比学习来统一视觉元素和类别标签的表现形式,从而克服了以往模型中存在的视觉项目与具体子分类不匹配的问题。
  • 数据和知识联合培训该方法利用指示来让大型语言模型生成关于视觉元素的详细特征信息,并把这些信息同图片及文字内容相匹配,从而达到数据与知识共同学习的目的。
  • 卓越的性能表現于若干知名精细图像识别基准测试集合(例如 Stanford Dog-120、Bird-200 和 FGVC-Aircraft 等),Finedefics 展现的总体精确度为 76.84%,相较于市场上相似的技术方案,其性能有了明显的增强。
  • 特性说明构造及排列Finedefics 通过识别和提取细粒度子类别的核心属性(例如颜色、纹理),并把这些特性转换为文字说明,利用这些说明作为桥梁,在大型语言模型的表现空间内实现视觉元素与类别标签的一致性匹配。

Finedefics的操作机制

  • 特性说明构造Finedefics 初步利用特性描绘进行构造,探索能够明确区分细微类别的重要特质,比如皮毛的颜色、类型和质感等。这些特点会被归纳成图像内物体的属性对(例如“颜色:棕色带红润”),并进一步转换为一种更贴近自然语言描述的对象特征说明(如“图片中的小猫拥有棕褐色带有斑点的柔软毛发”)。
  • 特性强化对接利用特性强化匹配技术,Finedefics 将所构建物体的特征描述作为连接视觉元素和精细分类共通的目标点。该模型通过实施基于对象属性、属性与类别间以及类别间的对比学习机制,有效地确立了视觉内容与细粒度子类之间的关联性。
  • 比较对照学习和指令精调于训练过程中,Finedefics 利用对比学习方法,将物体的整体图像、属性描述和类别标签的全局表达送入大语言模型中,并且通过增加具有挑战性的负样本以改进对齐质量。此外,借助指令微调技术,在细粒度视觉辨识任务上的性能得到显著增强。

Finedefics的工程链接

  • GitHub代码库:在GitHub上可以找到由北京大学ICST-MIPL实验室维护的项目页面,网址是https://github.com/PKU-ICST-MIPL/Finedefics。
  • HuggingFace的模型集合:访问此链接以查看由StevenHH2000创建的Finedefics模型 – https://huggingface.co/StevenHH2000/Finedefics
  • 关于arXiv上的科技文章访问此链接以查看更新的研究论文:https://arxiv.org/pdf/2501.15140,这里提供了最新的学术资料。

Finedefic的使用情境

  • 对生态系统中物种丰富度的监控Finedefics 能够实现对生物种类的自动化辨识与归类,比如辨别各种类型的鸟类、植物及其它动物。
  • 智慧交通运输系统于交通运输行业之中,Finedefics 能够实现对各类交通工具的身份确认与归类工作,比如辨别出车辆的品牌和种类差异(例如宝马、奔驰或奥迪汽车),并且还能深入到同一品牌内细分车型的识别任务上(如区分奥迪系列中的 A4、A6 或者 A8 型号)。
  • 智慧零售Finedefics 在零售环境中得以应用,能够辨识并归类各类物品,如多样化的果蔬、鲜花及消费品。其功能涵盖库存控制、商品建议和自动化收银系统等方面,有助于增强零售商的运作效能。
  • 制造业检查及品质管理在制造业里,Finedefics 能够用来辨识与归类组件或商品的微小差别,比如区分各类规格的机械设备零件或是检查产品是否存在质量问题。
© 版权声明

相关文章