**谷歌DeepMind推出Gemini Robotics 1.5与Gemini Robotics-ER 1.5:打造新一代物理智能体**
谷歌DeepMind团队于9月25日发布博文,宣布推出两款全新的AI模型——Gemini Robotics 1.5和Gemini Robotics-ER 1.5。这两款专为物理世界设计的模型旨在打造能够感知、规划、思考并行动的智能体,以更高效地解决现实世界中的复杂多步任务。
Gemini Robotics-ER 1.5模型作为“高层大脑”,主要负责物理环境中的规划与决策,具备卓越的空间理解能力。它能够指导机器人完成复杂任务,并通过搜索本地指南制定详细执行计划。
例如,在执行“根据规定分类垃圾”任务时,ER 1.5会主动搜索本地指南,制定计划并将其分解为自然语言指令,传递给作为“身体”的Gemini Robotics 1.5模型。
Gemini Robotics 1.5是一个视觉-语言-行动(VLA)模型,负责接收指令并转化为具体运动指令。它具备“先思考后行动”的能力,能够生成内部推理序列,理解任务深层语义。
例如,在按颜色分类衣物时,模型会先思考分类规则,再规划具体步骤。这种能力不仅提高了任务成功率,还使决策过程更加透明。
Gemini Robotics 1.5展示了强大的跨机器人形态学习能力。传统上,为一个机器人学习的动作难以迁移到不同形态的机器人上。
而新模型突破了这一限制,成功将技能迁移到不同形态的机器人上,无需专门训练,显著加速了新技能的学习和部署。
谷歌强调,Gemini Robotics系列模型在具身人工智能方面具有潜力,并积极构建新的安全与对齐方法。Robotics 1.5实施了整体安全策略,包括行动前思考安全、遵循现有安全政策以及触发内置的安全子系统。
目前,Gemini Robotics-ER 1.5已通过Gemini API向开发者开放,而Gemini Robotics 1.5则提供给部分合作伙伴使用。
