清华开发的双臂机器人扩展基础模型 —— RDT

AI工具3个月前发布 ainav
131 0

RDT代表的是什么?

RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队开发的一款全球规模最大的双臂机器人执行任务扩散基础架构。该系统拥有十亿级别的参数量,并能够在无人干预的情况下独立完成一系列复杂的操作,例如调制鸡尾酒或遛狗等。通过模仿学习来获取人类的动作模式,RDT不仅具备出色的泛化能力及精确的操作水平,还能有效地应对未曾接触过的物体与环境挑战。目前,清华大学的研究团队已经公开了RDT的相关代码、模型以及训练所用的数据集,旨在促进机器人技术的进一步发展和广泛应用。

RDT

RDT的核心作用

  • 双手同步操控操控机器人两只手臂的协调作业,以执行诸如调配鸡尾酒及牵狗散步等复杂实体操作。
  • 自行完成任务能够独立执行以前未曾接触过的新型任务,无需人工干预。
  • 高度精准的操作RDT能够执行诸如引导机器狗沿直线行走的精细任务,这要求极其精准的操作能力。
  • 掌握语句含义领会并依照人们的口头指导,实施相应的行为。
  • 少量样本训练RDT具备出色的学习能力,能够通过少许示范掌握新的技能。

RDT的核心技术原理

  • 多种数据类型整合编码RDT融合了语言、图像与行为这三种模式,并采用多样化的编码技术来处理各类输入信息。
    • 运动代码带有傅里叶特性的多层感知器(MLP)。
    • 图像编译依据已对齐的SigLIP。
    • 言语编译采用T5-XXL文本生成模型。
  • 基于Transformer的主干架构RDT以Transformer为核心架构,并对其进行了针对机器人操作的重要调整。
    • QL2Norm与RootMeanSquareNorm解决由传感器故障引发的极端数值问题。
    • 非线性的MLP decoder提升对于非线性动态系统的逼近效果。
    • 轮换注射确保图像与文字模式之间的均衡,避免信息相互掩盖。
  • 预先训练及后续调整RDT通过在大型具身体验数据集上的预先训练获得了广泛的适应能力,并借助精细调整过的优质双臂操作数据集进一步提升了其操控双臂的能力。
  • 一致的动作区域创建一致的动作领域来标准化各类机器人的数据结构,使模型能够从中汲取并掌握普遍适用的物理规则。
  • 广义适用性与操作准确度评估创建具有挑战性的任务来测试RDT的广泛适用性和执行准确性,以保证其在真实场景中能够有效运作。

RDT项目的仓库位置

  • 官方网站 проекта

    注:这里的“项目官网”被翻译成了俄语“官方网站 проекта”,虽然改变了语言,但是由于原文信息点较少,在不偏离原始含义的情况下很难进行实质性的伪原创改写。如果您需要的是中文的表达变化,可能需要提供更多的上下文以便更好地完成任务。https://github.com/rdt-robotics/rdt-robotics

  • Git代码库:访问该机器人扩散变换器项目,请前往 https://github.com/thu-ml/RoboticsDiffusionTransformer 页面。
  • HuggingFace的模型集合:在Hugging Face平台上可以找到名为”robotics-diffusion-transformer/rdt-1b”的模型。
  • 关于技术的arXiv论文在学术论文数据库中可以找到这篇编号为2410.07864的研究文档。

RDT的使用场合

  • 食品与饮料供应服务应用于自动调制鸡尾酒、烹饪及菜品呈现等工作,以提升餐饮行业的运营效率与创新能力。
  • 家居助手在家中,负责完成打扫、整顿和洗涤衣物等家事,并且能够照料宠物,比如带狗狗散步。
  • 医疗服务支持协助医疗人员执行日常护理任务,如发放药品和移动医疗器械。
  • 制造业智能化在制造行业中,应用于精细组装作业、品质检验以及材料运输等工作。
  • 紧急援助在灾害中的应用于灾害地点开展搜寻与救助作业,特别是在人迹罕至或环境险恶的地方。
© 版权声明

相关文章