基于三重空间感知的开源具身机器人AI模型 MolmoAct

AI资讯3个月前发布 ainav
91 0

近日,人工智能研究机构Ai2宣布在GitHub上开源其机器人”行动推理模型”(Action Reasoning Model, ARM),该模型专为具身机器人设计,能够在三维空间中解决机器人的动作规划与理解问题。

与传统视觉语言行动模型(VLA)不同,MolmoAct突破性地解决了仅依赖文字描述进行推导的局限。它通过VQVAE预训练生成空间感知Token,这些Token不仅包含物体的几何结构信息,还带有精确的位置数据,能够准确评估物体间的距离关系,并为后续的动作规划提供可靠的基础。

基于三重空间感知的开源具身机器人AI模型 MolmoAct

MolmoAct的动作规划分为三个阶段:首先,在图像空间中生成路径点作为中间目标,直观展示动作执行的顺序;其次,将这些路径点转化为机器人末端执行器或机械爪的具体操作指令;最后,结合机器人的运动学参数进行精确解码。

基于三重空间感知的开源具身机器人AI模型 MolmoAct

在SimplerEnv模拟测试环境中,MolmoAct-7B模型在从未见过的任务中实现了72.1%的成功率,这一成绩优于多家顶尖实验室的对比模型。在LIBERO平台的多任务与终身学习测试中,经过优化调整后,成功率更是提升至86.6%。值得注意的是,MolmoAct在训练效率方面也表现出色:预训练仅需2630万个样本和256颗H100 GPU,耗时不到一天;微调过程则只需64颗H100 GPU,约两小时即可完成。

基于三重空间感知的开源具身机器人AI模型 MolmoAct

在安全性方面,MolmoAct采用独特的运动轨迹可视化技术,在执行动作前会将内部规划的运动路径叠加到输入图像上,方便用户查看并修正方案。同时支持手绘标注功能,通过平板设备即可直接标注目标姿态或路径,模型能够实时响应这些标注信息进行调整。

目前,Ai2已将其MolmoAct-7B完整资源包开源(https://github.com/allenai/MolmoAct),为研究团队提供了一套完整的工具集。官方表示,这些资源将帮助开发者在不同机器人平台上进行充分的验证与优化。

(完)

© 版权声明

相关文章