南洋理工携手北大、上交AI团队发布WorldMem全球生成模型

AI工具1周前发布 ainav
8 0

WorldMem是什么

WorldMem是由南洋理工大学、北京大学和上海人工智能实验室联合开发的一款革命性AI世界生成模型。该模型通过引入创新性的记忆机制,在长时序生成中实现了前所未有的世界一致性。与传统方法不同,WorldMem能够让智能体在多样化的虚拟环境中自由探索,并在视角和位置变化后保持几何一致性和时间连贯性。这一突破使得生成的虚拟世界不仅真实可信,还能动态响应环境变化(如光照、物体移动等)。模型基于大规模Minecraft数据集进行训练,并通过真实场景测试验证其有效性,为构建持久化、可交互式的虚拟世界提供了全新解决方案。

WorldMem的核心优势

  • 长期一致性: 在长时间生成过程中保持虚拟世界的高度一致性和稳定性。
  • 动态变化模拟: 精确模拟时间推移带来的各种环境变化,例如光照调整、物体移动及其对周围环境的影响。
  • 深度交互支持: 支持用户在虚拟世界中进行操作(如放置物体),所有交互行为都会被记录并影响后续生成过程。
  • 多样化场景生成: 能够生成多种类型的自然景观,包括平原、沙漠、冰原等复杂地形。
  • 真实场景验证: 在真实世界的数据集上进行测试,确保生成结果的可靠性和一致性。

WorldMem的技术架构

  • 条件生成模块: 采用条件扩散变换器(Conditional Diffusion Transformer)作为核心生成引擎,结合Diffusion Forcing训练策略,实现高效的长时序生成。系统能够接收外部动作信号(如移动、视角调整、物体操作等),并根据这些输入引导第一人称视角的生成过程。
  • 记忆读写机制: 内置的记忆模块负责存储生成过程中积累的关键历史信息。每个记忆单元包含图像帧及其对应的状态参数(包括视角位姿和时间戳)。通过贪心匹配算法,系统能够基于视野重叠度和时间相关性高效检索最相关的记忆片段。
  • 智能融合机制: 将当前帧与存储的记忆帧进行状态嵌入的结合,利用注意力机制提取对当前场景最具参考价值的信息。该模块采用Plücker坐标表示位姿信息,并通过MLP网络处理时间戳数据,引入相对嵌入机制以增强模型的空间感知力和细节保留能力。

WorldMem项目资源

WorldMem的应用前景

  • 游戏开发: 用于创建具有长期一致性的虚拟游戏世界,支持玩家自由探索和深度交互。
  • VR/AR技术: 在虚拟现实和增强现实中构建持久化、动态变化的数字环境,显著提升沉浸式体验。
  • 自动驾驶仿真: 为自动驾驶测试提供高度逼真的虚拟场景,模拟各种复杂交通状况。
  • 城市规划: 用于生成城市景观模型,辅助建筑师和城市 planner进行设计决策。
  • 影视制作: 创建电影级的虚拟场景,降低影视制作成本并提升视觉效果质量。

WorldMem的技术突破不仅为计算机图形学领域带来了新的可能性,也正在推动多个行业的创新与发展。

© 版权声明

相关文章