宇树开源：通用机器人操作大模型——UnifoLM-VLA-0

190 0 0

UnifoLM-VLA-0是什么

UnifoLM-VLA-0是由中国公司Unitree Robotics开源的一款通用视觉-语言-动作（VLA）大模型。该模型基于Qwen2.5-VL-7B架构，通过持续预训练不断优化性能。其创新之处在于将视觉、语言和动作指令进行深度融合，能够理解并执行复杂的机器人操作任务。在LIBERO仿真测试中，模型在12类复杂人形机器人操作任务中的平均准确率达到了98.7%，展现出卓越的空间推理能力和跨任务泛化能力。

UnifoLM-VLA-0的主要功能

多任务机器人操作能力：该模型能够根据自然语言指令，完成整理物品、叠毛巾、分拣水果等12类复杂的人形机器人操作任务。这些任务包括多个步骤的长程作业，展现了强大的执行能力和任务分解能力。
先进的空间感知与推理功能：模型具备卓越的2D和3D空间理解能力，可以准确识别物体、预测其位置关系（如”左边的铅笔”），判断可抓取点，并规划机器人动作轨迹。这些能力使其能够完成精细的操作任务。
单一模型多场景适应性：无需针对每个任务单独训练，UnifoLM-VLA-0通过持续预训练掌握了跨任务的迁移能力，在不同场景中都能展现出色性能。

UnifoLM-VLA-0的技术原理

创新的模型架构设计：在Qwen2.5-VL-7B视觉语言大模型的基础上，增加了专门的动作预测模块（Action Head），实现了从视觉感知、自然语言理解到机器人动作控制的端到端处理流程。
多维度持续预训练方法：模型在包含机器人操作场景的多样化数据集上进行持续训练，整合了2D检测分割、3D物体识别、空间推理和轨迹预测等多种监督信号，显著提升了对物理世界和视觉环境的理解能力。
先进的动作建模机制：通过引入动作块预测和动力学约束，模型能够同时理解机器人与操作对象之间的物理交互关系，并规划长距离动作序列。这种机制使模型在复杂场景中也能准确执行任务。
融合空间语义的技术突破：将文本指令与2D/3D空间信息深度融合，实现了语义理解和几何空间推理的精准结合，显著提升了模型的空间感知能力。