螺旋是什么呢?
Figure 发布了 Helix 这款通用视觉-语言-动作(VLA)模型,专为人形机器人的操作设计。它首次实现了对机器人上半身包括手腕、躯干、头部和手指的高速率(200Hz)连续操控,并支持多台机器人协同工作,共同使用一组神经网络权重来完成任务。Helix 能够根据自然语言指令拿起未知物品,显示出卓越的泛化能力。该模型通过完全端到端的方式训练而成,无需针对特定任务进行微调,在低功耗 GPU 上即可运行,并且具有商业应用潜力。
Helix的核心特性
- 全身操控能力实现以高速度(200赫兹)持续调控机器人的上半部分结构,涵盖腕部、主体躯干、头颅及指节,确保动作间的精准协同。
- 多个机器人协同工作可以允许多个机器人同步使用相同的神经网络参数,以协同执行任务,比如联合运输或归整物件。
- 对自然语言的解析及操作这款机器人能够依照自然语言的指示执行多种任务,比如抓取未曾接触过的物件、操控抽屉或者打开冰箱门等等。
- 出色的广义应用能力:应对成千上万形态多样、尺寸不一及材料不同的物件。
- 企业应用实施能力该解决方案完全依赖于低能耗的嵌入式GPU工作,非常适用于广泛的商业部署。
螺旋技术的工作机制
- 系统B(SB)一个开源的视觉语言模型(VLM),含有7B参数,专注于场景与文本的理解工作。该模型以7到9赫兹的速度运行,执行较为深入和复杂的思维处理任务,把所见图像及文字内容转化为有意义的信息表达形式。它会将这些信息编码成连续潜在向量的形式,并传输给第一系统进行进一步的处理。
- 程序集A(PA)采用包含80M参数的Transformer编码器-解码器模型作为基础控制系统。该系统以200Hz的速度运行,能够迅速完成操作并调整动作。通过整合S2模块传输过来的潜在向量与视觉信息,转化为对机器人动作的具体指导(包括手腕的位置、手指的操作以及头部和躯干的方向控制)。
- 全程训练通过将原生像素数据及文本命令转化为流畅的动作序列,并采用常规的回归误差函数来进行模型调优。在学习阶段加入了时间位移元素来反映S1和S2推断时可能出现的时间滞后问题,以此保障从培训到实际应用过程中的表现一致性。
- 松散耦合设计S1与S2各自运作于不同的时间框架内,其中S2专注于高层次的语义策划工作,而S1则承担即时操作的任务。这样的设计不仅提升了系统应对多样情况的能力,同时也确保了迅速的反应速度。
- 改进推论应用的部署流程于机器人系统中,模块 S1 与 S2 各自部署在一个单独的 GPU 上运作;其中,S2 负责异步地刷新潜藏矢量信息,而 S1 则即时处理行动操控任务。
Helix的工程网址
- 官方网站PROJECT这篇文章探讨了Helix平台的创新之处以及它如何改变了人工智能领域的游戏规则。通过其先进的技术解决方案,Helix不仅提升了数据处理效率,还大幅增强了模型训练的速度和精度。这一进步为研究人员和技术专家提供了前所未有的工具,使他们能够以前所未有的方式探索AI的可能性。
螺旋技术的工作机制
- 家政服务打理物件、归置物品、操控家用电器等日常生活中的家事。
- 多个机器人协同工作若干个机器人利用同一个神经网络系统协同执行运输和装配工作。
- 物件拾取根据自然语言命令提取未曾接触过的物件,适合应用于物流与仓储领域。
- 制造业智能化应用于复杂的人员与机器协同作业任务中,例如部件组装及品质检验。
- 服务业于酒店及餐馆等地承担指引、运送与保洁任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。