VSI-Bench指的是什么?
VSI-Bench,即视觉-空间智力基准,是由李飞飞、谢赛宁及其团队开发的一个评估工具集,旨在检验多模态大型语言模型(MLLMs)的空间认知与理解能力。该测试集合包含逾5000个问题及对应的答案,并涵盖了接近290段实际室内场景的视频片段,涉及家庭住宅、办公场所和工业设施等多种环境类型。VSI-Bench的任务类别包括配置任务(如物体数量统计、相对位置判断)、测量估算(例如估计物体尺寸或房间面积)以及时空分析(比如确定物体出现的时间顺序),这些设计用于全面评估并提升MLLMs在视觉空间智能领域的表现水平。
VSI-Bench的核心特性
- 评价视空智力能力评估多模态大语言模型(MLLMs)在视觉空间智能方面的表现,涵盖其识别、解析及存储空间关系的能力。
- 性能评测提供了超过五千组标准问答数据集,用于评估与对比多种大规模语言模型在处理视觉相关任务时的表现水平。
- 任务的多样化涵盖配置性工作(如物品数量统计、位置关系分析、方位判断及路径设计)、度量估算(例如物件尺度评估、室内外面积测量与精确间距测定)以及时间空间关联作业(涉及目标显现次序追踪),全方位触及视觉空间智能的众多维度。
- 视像解析通过视频作为输入源,VSI-Bench评估了MLLMs在处理连贯和时序数据方面的表现,这种方式更加贴近于人眼感知现实世界的模式。
- 数据的品质与管控通过人工核查来保障数据的质量,剔除模糊不清和不准确的标签,从而增强测试结论的可信度。
VSI-Bench的核心技术机制
- 构建数据集合利用诸如ScanNet、ScanNet++及ARKitScenes等多个公开的室内外三维场景重构数据库,该资料库呈现了高度精确的影像扫描,并附有细致到物体层级的三维标注信息。
- 生成问题与答案的配对形式利用数据集中包含的元数据(例如物体分类、边界框信息)及预设的问题框架来自动生成问答配对,并且需要人为地为路径规划任务添加标签。
- 品质管理执行人工审查程序,以保证问题描述明确且不产生误解,并追溯及改正任何存在的错误或含糊不清之处。
- 评价模型性能于零样本情境中对各类配备视频功能的多模态语言模型实施评估时,使用标准提示词并依赖精准匹配与近似匹配作为核心评判准则。
- 表现标准在处理多项选择题(MCA)时,采用准确率(ACC)作为评估指标;而对于需要数值回答(NA)的任务,则采用了平均相对精度(MRA)这一新提出的评价方法。
- 构建知识图表利用MLLMs来预报视频内物体的核心位置,并构建感知地图以检验模型的空间表征能力和存储性能。
VSI-Bench项目的仓库位置
- 官方网站项目页面:在vision-x-nyu的GitHub页面上可以找到thinking-in-space这个项目。
- Git代码库:访问该项目的网址为 https://github.com/vision-x-nyu/spatial-thinking探索相关代码和资源。
- HuggingFace的模型集合库:访问此链接以查看纽约大学视觉研究小组发布的VSI基准数据集——https://huggingface.co/datasets/nyu-visionx/VSI-Bench
- 关于技术的arXiv论文在该链接中所指向的文档为一篇学术论文的PDF版本,具体位置位于arXiv数据库内,其唯一标识符为2412.14171。
VSI-Bench的使用情境
- 机器人的导向及互动体验于机器人技术范畴内,对MLLMs进行评价与培训,深入解析空间结构,并增强机器人在陌生环境中自主航行及规避障碍的能力。
- 提升现实(AR)/模拟 reality(VR)于AR/VR应用程序内,辅助MLLMs更加精准地感知用户所处的实际空间场景,从而创造更为直观流畅的互动感受。
- 自动驾驶车辆为了处理复杂多变的交通环境,自动驾驶技术必须具备高度精准的空间认知能力,在研发与试验阶段用于构建和支持这种视觉及空间智慧系统的功能尤为关键。
- 智能家庭解决方案智能家庭控制系统需掌握室内结构及物件定位的信息,而VSI-Bench则辅助训练多模态大语言模型(MLLMs),以提升其在家居管理和自动化的效能。
- 室内外装潢与建筑设计筹划评价MLLMs在空间规划与设计领域的运用,助力系统生成更为科学的布置提案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。