EMMA-X —— 来自新加坡科技设计大学的全新具象多模态行动模型

AI工具3个月前发布 ainav
79 0

EMMA-X指的是什么?

EMMA-X是由新加坡科技设计大学开发的一款具备70亿参数的具身多模态动作模型,该模型基于经过合理链式思维(CoT)推理数据微调后的OpenVLA构建而成。它整合了分层式的具身体验数据集,其中包括3D空间中的运动路径、2D夹爪定位以及有根据的推理论证,并提出了一种创新的任务轨迹分割策略。此策略利用夹爪开闭状态与机器人手臂移动路径来加强基于证据的任务推理和前瞻性空间认知,在实际应用中,特别是在那些需要复杂空间推理能力的机器人任务上,显著提升了性能表现。

EMMA-X

EMMA-X的核心特性

  • 提升空间思维能力通过利用对未来2D抓取点位置及三维动作方案的预估,提升机器人执行长远任务规划的能力。
  • 明确任务计划细节该模型融合了视觉分析与任务逻辑推断,制定出符合当前情境的操作方案,从而增强了机器人在处理繁复作业时的表现能力。
  • 路径划分通过利用夹爪的状态与机械臂的移动路径,把操作流程划分成语义相关的动作片段,以此来提升对任务的理解及优化运动规划的过程。
  • 降低幻觉现象的发生率通过融合视觉图片与任务逻辑分析,降低在任务逻辑分析过程中出现的错误及误导性结论。
  • 分级设计数据创建针对每一操作步骤设计二维夹持器的位置与三维空间中的移动轨迹,并通过具体的逻辑推演来辅助机器人作出决策。

EMMA-X的核心技术机制

  • 分级嵌入式数据集合该数据集以BridgeV2为基础进行构建,内含6万条机器人的操作路径记录,并且每个路径都有详尽的空间与任务逻辑解析说明。
  • 预见性空间思维(Prospective Spatial Thinking):通过预测夹爪未来的空间定位及规划其移动方案,模型能够确保机器人当前的操作与其长远的目标保持一致。
  • 路径划分方案通过运用HDBSCAN算法并搭配定制化的距离测量技术,依据机械臂终端的移动路径及抓取装置的状态变化,实现对操作流程的实时划分。
  • Gemini系统执行的任务推断利用Gemini模型为各个部分创建子任务并细化推论,以增强对任务的理解精确度。
  • EMMA-X设计框架依托于对OpenVLA的优化调整,通过链式思考训练来提升空间推理与环境认知的能力,并据此预判机器人下一阶段的动作方案。

EMMA-X项目的网址

  • Git存储库:在GitHub上的Declare-Lab组织下可以找到名为Emma-X的项目。
  • HuggingFace的模型集合访问此链接以查看由Declare-Lab开发的Emma-X模型:https://huggingface.co/declare-lab/Emma-X
  • 关于arXiv的技术文章在学术预印本网站上发布的一篇论文可以找到相关内容,其网址为:https://arxiv.org/pdf/2412.11974。该文献提供了深入的研究分析和详细的数据支持。

EMMA-X的使用情境

  • 工业生产智能化机器人被应用于组装、打包及品质检查等工作,提升了生产流程的效能与适应性。
  • 运输与库存管理于仓储环境内,辅助机器人执行商品选取、转移及归类任务,并改进储存区域与物流程序的效率。
  • 服务业在餐饮及住宿服务业里,机器人承担起诸如协助烹饪、打扫客房以及传送物品等复杂工作。
  • 医疗服务支持于医学范畴内,机器人承担着精准作业的任务,例如协助外科手术或是管理实验室内的样品。
  • 智能家居系统家用机器人负责打扫卫生、归整物件及处理其他家事,从而提升生活便捷度。
© 版权声明

相关文章