小米开源机器人VLA模型

AI工具2个月前发布 ainav
42 0

Xiaomi-Robotics-0是什么

Xiaomi-Robotics-0是小米公司推出的首款开源机器人视觉语言动作(VLA)大模型,该模型具有47亿参数量级的深度神经网络。作为一款革命性的智能机器人框架,Xiaomi-Robotics-0采用了创新的MoT混合架构设计,并结合了先进的多模态融合机制。其核心计算模块基于Qwen3-VL视觉语言模型构建”大脑”部分,负责理解和解析复杂的视觉与语言指令;同时配备了Diffusion Transformer作为”小脑”系统,专注于生成高效的运动控制策略。

在技术创新方面,Xiaomi-Robotics-0最显著的突破在于其独特的异步执行机制和创新性Λ-shape注意力掩码技术。这些设计有效解决了传统机器人模型在推理过程中存在的延迟问题,确保了动作控制的实时性和流畅度。即便运行于消费级显卡硬件上,该系统依然能够实现高效的响应速度。

经过严格的测试,在LIBERO、CALVIN等多个国际领先的机器人仿真基准平台上,Xiaomi-Robotics-0均刷新了最佳性能记录(SOTA)。在实际应用场景中,该模型已成功完成了多项复杂的双臂操作任务,包括积木拆解、毛巾折叠等需要精确视觉判断和灵活动作控制的挑战性工作。

小米开源机器人VLA模型

Xiaomi-Robotics-0的主要功能

  • 智能语言解析能力: 能够准确理解人类的自然语言指令,包括处理模糊不清或不完整的表达。系统通过先进的视觉分析技术,精确识别操作空间中的物体位置、距离和相对关系。
  • 多模态感知与融合: 同时处理来自视觉传感器和其他输入源的数据信息,形成对机器人工作环境的全面理解,为后续的动作规划提供可靠的决策依据。
  • 高效动作生成系统: 通过Diffusion Transformer模块快速生成最优动作序列,在保证动作精度的同时显著提高执行效率。创新性的异步处理机制有效降低了计算延迟,使机器人能够实现更流畅、自然的操作流程。
  • 自适应学习框架: 基于模块化的架构设计,支持在线更新和持续优化,使机器人能够在实际应用中不断改进其操作技能和问题解决能力。
© 版权声明

相关文章