Genie 2是什么
Genie 2是DeepMind推出的新一代大规模基础世界模型,仅凭一张图片生成长达1分钟的可交互3D游戏世界。Genie 2能模拟出物体交互、角色动画、物理效果等复杂动态,支持用键盘和鼠标进行操作。Genie 2具备长时间记忆功能,能记住且精确还原暂时离开视野的场景。Genie 2能实时创造符合逻辑的新场景内容,在长达一分钟的时间内保持整个世界的一致性。
Genie 2的主要功能
- 基于图像生成3D世界:Genie 2能根据单张图片生成可交互的3D游戏世界,最长可玩1分钟。
- 动作控制:模型能响应键盘和鼠标输入的动作,识别且正确移动角色。
- 生成反事实场景:基于同一个开始画面,创造出多个不同的发展路径。
- 长时间记忆:能记住暂时离开画面的场景,在画面重新进入视野时精确还原。
- 持续生成新场景:在过程中实时创造出符合逻辑的新场景内容,且保持世界一致性。
- 多样化环境生成:能生成多种不同的观察视角,如第一人称视角、等距视角或第三人称驾驶视角。
- 3D结构创建:创建复杂的3D视觉场景。
- 物体属性与交互:建模各种物体交互,例如气球爆裂、开门和射击炸药桶。
Genie 2的技术原理
- 自回归潜变量扩散模型:基于大规模视频数据集训练的自回归潜变量扩散模型。
- 视频帧处理:视频的潜变量帧首先基于自动编码器处理,再传递给一个大规模Transformer动态模型。
- 因果掩码训练:Transformer模型基于因果掩码进行训练,类似于大型语言模型所使用的掩码方式。
- 自回归采样:在推理阶段,Genie 2用自回归的方式进行采样,逐帧用单个动作和先前的潜变量帧。
- 无分类器指导:在动作控制中用无分类器指导(classifier-free guidance)提高动作的可控性。
Genie 2的项目地址
- 项目官网:deepmind.google/discover/blog/genie-2