IDEA研究院发布通用视觉大模型 DINO-X

208 0 0

DINO-X指的是什么

IDEA研究院近期发布了一款名为DINO-X的通用视觉大模型，该模型能够对开放世界中的对象进行检测和理解。它兼容文本输入、图像分析以及个性化定制提示，并且能够在没有用户指引的情况下识别图片内的各个物体。借助Grounding-100M数据集提供的超过一亿个样本训练支持，DINO-X在COCO、LVIS-minival及LVIS-val等多个标准测试中刷新了性能记录。这款模型分为两个版本：功能强大的感知版DINO-X Pro和注重推理速度的边缘部署优化版DINO-X Edge。尤其值得注意的是，该模型在识别长尾物体方面表现出色，因此能够广泛应用于自动驾驶、智能安防等众多领域，并为相关产业的发展注入新的活力。

DINO-X的核心特性

在广阔环境中的物体识别与划分识别并划分图像内各类物体，即便是那些在较少出现的长尾分类里的物体也能处理。
词组定址该模型能够依据提供的文字片段，在图片里识别并标出相应的物体位置。
视像标记统计根据视觉指示，例如在图片上标记边界框或者标注点位，来统计指定物体的数目。
身体姿势分析：在图片里预估特定对象的关键部位，比如人的姿势及手的姿态。
无监督目标探测及辨识该功能能够无须任何指引便识别图片里的所有物体。
高密度区的文字注释针对图片里的指定部分创作精确的说明文字。
以对象为中心的问答系统能够对图片中的具体物体进行问答。

DINO-X的工作机制

基于Transformer的编解码结构采用Transformer框架，通过编码器模块来捕捉图像的特性，并利用解码器部分执行物体识别与解析工作。
多种数据类型的预先训练模型经过在大型数据集合Grounding-100M上的预训练，DINO-X掌握了丰富多样的视觉与语言特性，显著提升了其对开放式词汇进行识别的能力。
建议延伸增加多种输入方式的支持，包括文本指导、图像引导及个性化设定，以适应更加多样化的应用场景。
融合多种感知功能的头部设计结合了多样化的感知模块，包括但不限于检测框模块、分割模块、关键点模块以及语言处理模块，以适应各种感知与认知相关的作业需求。
双步培训方案由于提供的原文为空，没有具体内容可以进行伪原创改写。如果您提供具体的内容，我很乐意帮助您完成这项任务。
- 初期阶段结合训练以实现文本提示识别、视觉标志辨识及物体划分功能。
- 第二个阶段对DINO-X核心部分实施冻结，并加入特定的关键点头部与语言处理模块进行独立训练，以增强模型在细节识别及语义解析方面的性能。
知识提炼与半精度浮点数推理优化该模型利用知识蒸馏方法从Pro模型获取信息，并采用FP16量化手段以加快推理过程的速度。
语言前端规划在DINO-X中，语言头部采用固定的DINO-X抽取目标标签，并将其与任务标签相融合，通过自回归方法来产生回应结果。