6月24日,谷歌DeepMind在其官方博客上发布了一款全新的机器人AI模型——Gemini Robotics On-Device本地化技术。
这一创新模型采用了视觉-语言-动作(VLA)架构设计,能够在无须云端支持的情况下实现对实体机器人的独立控制。其主要特点包括:
技术能力:
-
具备低延迟响应能力,可独立运行于机器人设备(特别适用于网络条件较差的环境,如医疗领域)
-
能够完成高精度操作任务,例如打开包袋拉链、叠衣服和系鞋带等复杂动作
-
支持双机械臂设计,并兼容ALOHA、Franka FR3以及Apollo等多种人形机器人平台
开发适配:
-
提供Gemini Robotics SDK工具包,便于开发者进行二次开发
-
通过50-100次任务演示即可快速实现新功能的定制化
-
支持使用MuJoCo物理模拟器进行测试和验证
安全保障:
-
采用Live API实施语义安全检测,确保操作的安全性
-
通过底层安全控制器严格管理动作的力度和速度
-
开放语义安全基准测试框架,便于开发者进行安全性验证
项目负责人Carolina Parada表示:”我们借鉴了Gemini在多模态世界理解方面的能力,就像Gemini能够生成文本、代码和图像一样,现在它也可以直接生成机器人的动作指令。”
目前,该模型仅面向参与可信测试计划的开发者开放,并基于Gemini 2.0架构进行开发(相较于最新的Gemini 2.5版本稍有滞后)。
参考资料:
-
《Gemini Robotics On-Device brings AI to local robotic devices》
© 版权声明
文章版权归作者所有,未经允许请勿转载。