GenXD – 来自新加坡国立大学与微软联手打造的全方位3D及4D协同生成平台

AI工具2年前 (2025)发布 ainav

435 0 0

GenXD代表的是什么？

GenXD是由新加坡国立大学与微软公司联合开发的一款融合了3D与4D元素的综合生成框架。该系统能够利用任意数量的参考图像来创建出高精度的三维及四维场景。其工作流程包括从视频资料中提取摄像机姿态和物体动态信息，并通过大规模的数据集CamVid-30K进行训练，从而增强模型的表现力。GenXD采用了多视角时序模块以分离相机与物体的动作路径，并借助掩码潜在条件实现跨多种视点的图像生成任务，在单一架构内实现了复杂且多样化的三维和四维场景构建能力。

GenXD的核心特性

三维与四维环境构建GenXD具备从单一或多个视角创建包含动静态元素的高品质3D及4D环境的能力。
摄像机位置与角度估算通过运用基于结构的运动估计（SfM）方法，GenXD能够估算出视频内的摄像机位置和朝向，并以此为基础创建一条与摄像机动态路径相吻合的视频流。
对物体的移动情况进行评估借助深度估计和技术点追踪，GenXD能够捕捉并仿效视频内对象的动作。
多元化时间序列组件在框架内，模块负责管理和分析多个视角及时间数据，分离摄像机移动与物体移动的影响，从而创造出更为逼真的动态环境。
隐藏可能的先决条件GenXD能够利用掩码潜伏条件实现有条件的内容生成，并且该模型可以在无需调整其架构的前提下处理任意数量的输入视角。

GenXD的核心技术机制

数据处理程序GenXD通过一套数据处理程序从视频内容中捕捉相机的位置及物体的动作细节，以供后续模型训练使用这些关键数据。
多元化时间序列组件GenXD内的多元视角时间序列组件能有效管理多个角度与时间段的数据，并通过采用α混合方法，在三维及四维资料间实现流畅的学习过程。
隐藏可能的前提扩散模式GenXD通过利用掩码潜在条件扩散模型（LDM）来创建具有各种摄像机角度及时序步骤的图像，并且它能够处理单一及多个视角的图像生成任务。
分离相机与对象的移动效应利用多角度时间序列组件，GenXD能够区分摄像机移动与物体移动，这对于创建动态场景极为关键。
三维与四维数据的整合在培训期间，GenXD融合了三维与四维数据，使模型能够同步掌握空间及时间维度的信息，从而增强其生成效果的质量。
三维表现提升通过运用GenXD生成的图像来改进三维表现形式，比如在构建高品质三维场景时使用到的3D高斯点云（3D-GS）以及Zip-NeRF技术。

访问GenXD项目的网址

官方网站：x-d-gen.github.io
Git代码库：可在GitHub上找到HeliosZhao开发的GenXD项目页面。
arXiv科技文章在学术预印本网站上可以找到这篇研究论文的完整版本，其在线地址为：https://arxiv.org/pdf/2411.02319。该链接直接指向PDF格式的文档，便于读者进行深入阅读与分析。