MMSI-Video-Bench是什么
MMSI-Video-Bench 是一个专为评估多模态大语言模型(MLLMs)在视频空间智能方面性能而设计的基准测试工具。该工具由上海人工智能实验室等多家顶尖高校联合开发,旨在测试模型在现实环境中对空间的理解和逻辑推理能力。MMSI-Video-Bench 汇集了来自25个公开数据集以及1个自主研发数据集的1278个高质量视频片段,涵盖了室内环境、城市街景、机器人操作等多种复杂应用场景。这些问题由经验丰富的11位3D视觉专家精心设计,确保了测试内容的高度挑战性和准确性。该基准通过多维度任务设计,全面考察模型在空间感知、运动预测、行为规划和跨场景推理等方面的能力,从而系统性地评估其视频理解和决策能力。
MMSI-Video-Bench的主要功能
- 多模态性能评估:作为首个专注于测试多模态大语言模型视频空间智能的基准工具,MMSI-Video-Bench 能够系统性地评估模型对动态视频内容的理解和推理能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。