Genie 2 —— 深入解析谷歌DeepMind新发布的基础世界模型世代

AI工具3个月前发布 ainav
101 0

Genie 2指的是什么?

DeepMind最新发布的Genie 2是一款先进的大规模基础世界模型,能够通过单张图片构建出一个持续60秒的互动式3D游戏环境。此模型支持包括物体交互、角色动画及物理效果在内的多种动态场景,并允许用户利用键盘和鼠标进行操作体验。值得一提的是,Genie 2还拥有持久记忆特性,可以准确重现短暂脱离视线范围内的景象细节。此外,在整个一分钟内,它能够实时生成合乎逻辑的新内容并确保游戏世界的连贯性与一致性。

Genie 2

Genie 2的核心特性

  • 利用图片构建三维环境借助Genie 2,用户能够从单一图像创建一个可以互动的3D游戏环境,并且该游戏体验最多可持续一分钟。
  • 运动操控该模型能够对键盘与鼠标的操作作出反应,并准确地控制角色的移动。
  • 创造假设性情境从同一初始场景出发,设计出多种迥异的发展路线。
  • 长期记忆能够记忆起短暂消失的画面细节,并在景象再次出现时准确再现。
  • 不断创造新的情境在整个流程中即时生成与逻辑相符的全新情境,并确保世界的统一性。
  • 创建多样的环境设定能够创建各种独特的视点效果,包括但不限于第一人称视点、等轴测视点以及第三人称驾车视点。
  • 构建三维模型构建精细的三维视觉环境。
  • 物体特征及其相互作用模拟各类物件互动场景,如气球破裂、门的开启以及爆炸物的引爆。

Genie 2的运作机制

  • 基于自身预测的隐含变量扩展模型利用大型视频数据库训练的自回归潜在变量扩散模型。
  • 视频图像帧的处理视频中的隐含特征帧最初通过自动编码器进行处理,随后被送入一个大型的Transformer动态系统中。
  • 因果遮罩训练Transformer模型通过应用因果屏蔽来进行训练,这种方式与大型语言模型采用的屏蔽技术相似。
  • 自动回溯取样于推理过程中,Genie 2采取自回归方法来进行抽样,通过单一的动作与前一时刻的潜在变量帧结合来逐步生成每一帧。
  • 无需分类器引导通过采用无分类器引导技术,在动作调控中增强了对动作精确性的掌控能力。

Genie 2 的工程链接

  • 官方网站项目的入口:在google的deepmind博客中介绍了genie-2的相关内容,网址为https://deepmind.google/discover/blog/genie-2/

Genie 2的使用情境

  • 智能体的培训及评价构建一个复杂的仿真场景,用于锻炼及评估人工智能实体在此类环境中做出决定的能力及其性能。
  • 制作电子游戏借助Genie 2创建的生动场景,游戏设计师能够开发更为多样且交互性强的内容,增强用户的参与体验。
  • 仿真和培训通过在军事演习中复制战斗场景,或是于教学活动中再现历史时刻,创造出身临其境的仿真实验,在培训与求知过程中发挥重要作用。
  • 机器人的学习过程作为一个用于机器人的培训基地,该平台创建多样化的场景与状况,旨在辅助机器人掌握在实际环境中移动及运作的能力。
  • 仿真技术中的虚拟现实(VR)与增強現實(AR)利用VR与AR技术构建虚拟场景,在娱乐、教育及专业培训中应用,以带来深度沉浸式的体验。
© 版权声明

相关文章