12月17日,智元AGIBOT宣布了一项重要研究成果:由香港大学、智元AGIBOT、复旦大学及上海创智学院组成的联合团队成功研发出一种新型人形机器人全身控制框架——WholeBodyVLA。

该研究基于智元灵犀X2平台,首次将视觉-语言-动作(VLA)技术扩展至双足人形机器人的全身控制领域,并在移动操作任务中验证了其有效性。




与传统固定位置操作相比,移动操作的核心挑战在于协调行走与操作动作的长期稳定配合。针对这一难题,WholeBodyVLA团队深入分析了制约该领域发展的两大关键障碍:实际机器人数据稀缺性和运动执行稳定性,并提出两项创新性解决方案:
-
基于人类动作学习:通过解析第一视角的人类操作视频,提取潜在的动作表征,使模型无需依赖大量机器人遥操作数据即可掌握移动与操作的语义信息,显著降低了人形机器人遥操作数据获取的成本和难度。
-
强化学习控制优化:将复杂的连续运动控制目标简化为离散动作指令,专注于移动操作核心任务的训练,从而大幅提升了控制器在动态环境中的稳定性表现。
研究团队在智元灵犀X2人形机器人上完成了多项真实场景测试,验证了WholeBodyVLA框架具备以下显著优势:
1. 长距离移动操作能力

2. 场景适应性
得益于统一潜在动作学习阶段获取的操作感知运动知识,WholeBodyVLA能够从不同起始位置准确移动至目标物体并完成操作任务。


3. 操作泛化能力
凭借统一潜在动作学习阶段获得的操作知识,WholeBodyVLA在面对不同场景、物体和位置时展现了良好的适应性。


项目链接:
https://opendrivelab.com/WholeBodyVLA/
© 版权声明
文章版权归作者所有,未经允许请勿转载。