谷歌重塑物理AI智能体：赋予机器人“大脑和身体”，使其学会“先思考，后行动”

228 0 0

**谷歌DeepMind推出Gemini Robotics 1.5与Gemini Robotics-ER 1.5：打造新一代物理智能体**

谷歌DeepMind团队于9月25日发布博文，宣布推出两款全新的AI模型——Gemini Robotics 1.5和Gemini Robotics-ER 1.5。这两款专为物理世界设计的模型旨在打造能够感知、规划、思考并行动的智能体，以更高效地解决现实世界中的复杂多步任务。

Gemini Robotics-ER 1.5模型作为“高层大脑”，主要负责物理环境中的规划与决策，具备卓越的空间理解能力。它能够指导机器人完成复杂任务，并通过搜索本地指南制定详细执行计划。

例如，在执行“根据规定分类垃圾”任务时，ER 1.5会主动搜索本地指南，制定计划并将其分解为自然语言指令，传递给作为“身体”的Gemini Robotics 1.5模型。

Gemini Robotics 1.5是一个视觉-语言-行动（VLA）模型，负责接收指令并转化为具体运动指令。它具备“先思考后行动”的能力，能够生成内部推理序列，理解任务深层语义。

例如，在按颜色分类衣物时，模型会先思考分类规则，再规划具体步骤。这种能力不仅提高了任务成功率，还使决策过程更加透明。

Gemini Robotics 1.5展示了强大的跨机器人形态学习能力。传统上，为一个机器人学习的动作难以迁移到不同形态的机器人上。

而新模型突破了这一限制，成功将技能迁移到不同形态的机器人上，无需专门训练，显著加速了新技能的学习和部署。

谷歌强调，Gemini Robotics系列模型在具身人工智能方面具有潜力，并积极构建新的安全与对齐方法。Robotics 1.5实施了整体安全策略，包括行动前思考安全、遵循现有安全政策以及触发内置的安全子系统。

目前，Gemini Robotics-ER 1.5已通过Gemini API向开发者开放，而Gemini Robotics 1.5则提供给部分合作伙伴使用。

文章版权归作者所有，未经允许请勿转载。

ainav

202 0

ainav

182 0

ainav

195 0

ainav

194 0

ainav

153 0

ainav

175 0