银河通用发布全球首个端到端具身 FSD 大模型

AI资讯1年前 (2025)发布 ainav

440 0 0

6月1日，银河通用宣布推出全球首个端到端具身大模型TrackVLA。该模型集成了纯视觉环境感知、语言指令理解和自主推理功能，并具备零样本泛化能力，为机器人智能交互和运动控制提供了全新解决方案。

TrackVLA是一款由仿真合成动作数据训练的“视觉-语言-动作”（Vision-Language-Action, VLA）大模型。它赋予机器人完整的闭环运动能力：通过视觉感知环境、理解语言指令并输出相应动作，无需依赖预先构建的地图或远程控制。这种创新架构使机器真正实现了基于语言驱动的智能交互和自主决策。

TrackVLA的核心八大能力包括：

1. 多人精准跟随：在拥挤的人流中仍能准确识别并持续跟踪目标，避免“认错人”；

2. 动态目标切换：根据语音指令快速改变追踪目标，并实时发出行为提醒；

3. 环境适应能力：在陌生环境中也能稳定运行，完成复杂场景下的连续任务；

4. 风险行为监测：通过第一视角实时监控环境，并主动识别潜在危险；

5. 技能扩展性：无需特定训练即可泛化到其他移动目标，展现出强大的学习潜力。

在实际应用中，TrackVLA已成功部署于宇树机器狗“二宝保镖”，在超市、服装店等真实场景中完成了多项复杂任务。它不仅能够准确跟随指定对象，还能根据指令灵活调整目标，并对突发情况做出及时反应。这一系列测试充分验证了模型的稳定性和实用性。

# AI资讯