谷歌DeepMind发布新款AI模型优化机器人现实世界应用场景

AI资讯1年前 (2025)发布 ainav

332 0 0

近日，谷歌DeepMind宣布推出两款创新AI模型，旨在助力机器人在现实世界中完成更多复杂任务。

这两款模型分别为Gemini Robotics和Gemini Robotics-ER。其中，Gemini Robotics是一款先进的视觉语言行动一体化模型，其显著优势在于能够使机器人在未经专门训练的情况下快速适应并理解新场景。

据介绍，Gemini Robotics基于谷歌最新发布的AI旗舰产品——Gemini 2.0构建而成。谷歌DeepMind机器人部门高级总监Carolina Parada指出，该模型通过整合物理操作的新模态能力，充分发挥了Gemini在多模态世界理解方面的优势，使机器人能够在实际环境中灵活运用。

在技术突破方面，Gemini Robotics显著提升了机器人的三大核心能力：通用性、交互性和适应性。除了能够处理未知情境外，该模型还展现了更强大的人机协作能力和精密操作水平，例如完成折纸、开启瓶盖等复杂动作。

另一款名为Gemini Robotics-ER的模型，则专注于具象推理能力。据官方介绍，这是一款先进的视觉语言模型，专为理解和应对复杂多变的真实世界场景而设计。

Parada进一步解释称，在进行便当盒组装时，机器人需要考虑桌面上物品的位置及其操作方式。Gemini Robotics-ER正是为解决这类推理任务而开发，研究人员可将其与现有的低阶控制系统结合，从而实现全新功能的拓展。

此外，谷歌DeepMind研究员Vikas Sindhwani透露，团队正在开发一种”分层安全策略”，以确保机器人行为的安全性。值得注意的是，去年谷歌已推出受阿西莫夫定律启发的《机器人宪法》，为AI机器人的行为规范设定了基本准则。

在应用层面，DeepMind与Apptronik合作推进新一代人形机器人的研发工作。同时，包括Agile Robots、Agility Robotics、波士顿动力和Enchanted Tools等多家”受信任的测试者”企业已获得授权，可使用Gemini Robotics-ER模型进行深入研究。Parada表示：”我们致力于打造能够深刻理解物理世界并有效行动的智能系统，并期待其在多个领域绽放光彩。”

# AI资讯