阿里达摩院开源具身智能三大件机器人协议

AI资讯1个月前发布 ainav
28 0

8月11日,在2025世界机器人大会盛大开幕之际,阿里达摩院重磅发布了三项创新技术:开源自研的VLA模型 RynnVLA-001-7B、先进的世界理解模型 RynnEC,以及革命性的机器人上下文协议 RynnRCP。这些突破性成果旨在解决具身智能开发中的关键难题,推动数据、模型与机器人的深度协同。

尽管具身智能领域发展迅猛,但行业仍面临着开发流程分散化严重、数据与机器人本体适配难度高等核心挑战。达摩院创新性地将MCP理念引入具身智能领域,全球首次开源了RCP(Robotics Context Protocol)协议。这一协议为不同来源的数据、模型与机器人硬件之间的互联互通提供了标准化接口。

基于多年的技术积累,达摩院打造了一套完整的机器人服务协议和框架——RynnRCP。该系统实现了从传感器数据采集到模型推理,再到机器人动作执行的全链路打通,为开发者提供了灵活的定制化能力。目前,RynnRCP已成功支持包括Pi0、GR00T N1.5在内的多款主流模型,以及SO-100、SO-101等机械臂产品,并持续拓展更多硬件适配。

阿里达摩院开源具身智能三大件机器人协议

从技术架构来看,RynnRCP系统包含两大核心模块

  • RCP框架:专注于机器人本体与传感器的连接,提供统一的能力接口标准,并实现不同传输层协议和模型服务之间的兼容性。

  • RobotMotion模块:作为具身大模型与机器人控制系统的桥梁,该模块能够将离散的低频推理指令实时转换为高频连续控制信号,确保机器人动作的平滑性和物理约束符合性。

  • 功能亮点:RobotMotion还配备了完整的仿真-真机控制系统,支持任务规划、仿真同步、数据采集与回放、轨迹可视化等实用功能,显著降低了机器人控制策略的迁移难度。

此次大会上,达摩院还开源了两款具有里程碑意义的具身智能大模型:

  • RynnVLA-001:这是一款基于视频生成和人体轨迹预训练的视觉-语言-动作(VLA)模型。它能够从第一人称视角的视频中学习人类操作技能,并将其隐式转化为机器人手臂的精准操控能力,使机械臂的动作更加连贯自然。

  • RynnEC:作为世界理解模型,RynnEC将多模态大语言模型与物理世界感知深度结合。该模型能从位置、功能、数量等维度全面解析场景中的物体信息,在复杂室内环境中实现精准的目标定位与分割。通过仅使用视频序列,RynnEC就能构建连续的空间感知能力,并支持灵活的人机交互。

值得一提的是,达摩院此前刚刚开源的WorldVLA模型也在大会上备受关注。该模型首次实现了世界模型与动作模型的深度融合,显著提升了图像理解与动作生成能力。相比传统方案,WorldVLA在抓取成功率上提升4%,视频生成质量也得到了明显优化,展现出更优的协同性和准确性。

附开源地址:

  • 机器人上下文协议 RynnRCP:https://github.com/alibaba-damo-academy/RynnRCP

  • 视觉-语言-动作模型 RynnVLA-001:https://github.com/alibaba-damo-academy/RynnVLA-001

  • 世界理解模型 RynnEC:https://github.com/alibaba-damo-academy/RynnEC

  • WorldVLA 模型:https://github.com/alibaba-damo-academy/WorldVLA

© 版权声明

相关文章