谷歌、卡内基梅隆与斯坦福合作研发的Gen2Act——利用生成式人类视频指导机器人行动策略

AI工具5个月前发布 ainav
145 0

Gen2Act指的是什么?

由谷歌、卡内基梅隆大学和斯坦福大学联手开发的Gen2Act是一种创新性的机器人操控方案,它利用预测网络中的运动信息来创建人类视频,并通过这些视频指导机器人完成新任务。该方法依赖于丰富的在线视频资源库,从而绕过了直接生成用于机器人的操作视频所带来的复杂性问题。核心优势在于其能够进行零样本的人类动作模拟,这得益于预先训练的模型和少量特定的机器人互动数据来优化策略性能。

在实际应用中,Gen2Act展现了强大的适应性和泛化能力,在面对未见过的对象类型或全新的任务时也表现得尤为出色,并且成功率明显高于其他技术。此外,它还支持长时间执行复杂任务,比如一系列连续操作如“泡咖啡”。这种方法降低了对大量机器人特定数据的需求,并通过闭环策略动态调整以提升其精确度和可靠性。

Gen2Act

Gen2Act的核心特性

  • 无样例视频创作借助Gen2Act,可以直接利用预先训练好的视频生成模型,依据给定的语言说明及场景图片来创建展示人们完成某项工作的视频,并且不需要为不同的具体任务做额外调整。
  • 推广至新的应用领域借助由生成的模拟人类行为视频指导,Gen2Act能够驱动机器人完成那些在其培训资料中未曾遇到过的全新任务,涵盖操控陌生类型的物品及实行新颖的动作指令。
  • 封闭循环的策略实施通过整合产生的视频资料与机器人即时感知的信息,Gen2Act利用闭环策略灵活调节机器人的行为模式,确保能够精准应对环境变动并顺利完成任务。
  • 长时间作业管理Gen2Act具备处理单个任务的能力,并能通过连接不同的任务序列来实施一连串复杂且耗时的操作流程,例如“冲泡咖啡”,这一过程包含了多项连续进行的工作环节。
  • 降低对数据的需求量Gen2Act能够以更少的机器人示例数据实现目标,显著减少了数据采集的成本与劳动强度。

Gen2Act的核心技术机制

  • 人像视频创作:利用预先训练好的视频创建模型,通过语言说明的任务及场景中的起始画面,无需额外样例即可生成展示人物完成任务过程的视频。
  • 从视频中提取动作解析:采用闭合回路方法,把创造出来的人物影片转换成机器人可以执行的动作指令。此方法通过分析视频中的视觉元素及路径点来预估并转化隐形的动态数据代码。
  • 视像特性抽取:通过运用ViT编码器与Transformer编码器来从生成的视频及机器人过去的观测数据中抽取特性。
  • 路径点预测:利用Transformer模型对视频中的点运动路径进行预估,并采用辅助损失的方法来优化训练过程。
  • 行动模仿损耗:通过减少预测动作与实际动作间的差异来优化策略,从而模拟人类在视频中的行为模式。

Gen2Act项目的所在位置

  • 官方网站URLException:访问此链接以查看相关内容 – https://homangab.github.io/gen2act/ 页面提供了所需的信息。
  • arXiv科技文章该文献的PDF版本可以在网址 https://arxiv.org/pdf/2409.16283 上找到。

Gen2Act的使用情境

  • 智能家居系统于居家场景中,Gen2Act能够管理各种家用设施,包括控制微波炉的启停、调节咖啡机制作饮品以及归整物件等工作,助力达成智能家居体验。
  • 制造业智能化于制造行业里,Gen2Act能够完成精细的组装工作,并且可以在要求灵活应对及高度适应的场合下替代或支持人类作业。
  • 服务业领域在餐饮和零售行业中,Gen2Act系统指挥机器人执行诸如接收订单、送餐以及整理商品陈列架等工作。
  • healthcare support在医疗卫生行业,Gen2Act致力于创造能够精准执行任务的机器人,比如辅助外科手术或是配送医药物资。
  • 紧急援助在灾害发生时提供关键支持。于灾害救助场合中,Gen2Act指挥机器人执行探索与援救工作,在不明环境下运作。
© 版权声明

相关文章