谷歌与哥伦比亚大学等机构联合发布的利用单目视频构建4D场景的技术——CAT4D

AI工具2年前 (2025)发布 ainav

312 0 0

CAT4D代表的是什么？

由Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校联合研发的CAT4D技术能够利用单目视频数据构建出动态3D场景即4D表示形式。该系统采用多视角视频扩散模型，能够在任何指定相机位置及时间点生成新的视图，并将单一视角的视频转换为多个视角展示的内容，从而实现稳定可靠的四维重建效果。CAT4D技术不仅能够从实际拍摄的视频中创建出逼真的4D场景，还能利用这些生成的数据制作更丰富的4D内容，在电影、游戏和虚拟现实等创意产业开启全新的应用潜力。

CAT4D的核心特性

构建四维环境利用单一来源的视频素材，不论是实际录制的影像还是通过计算机制作的画面，构建一个能够展现动态三维效果的四维场景。
多个视角的视频创作提供一段单一视角的视频作为输入，系统能够创建出从多个新颖视角观看的视频内容。
实时三维环境构建通过利用生成的多个视角视频，可以重构出一个能够动态演变的三维环境，这样的环境可以用随着时间推移而发生变化的三维高斯模型来表达。
实现相机与时间管理的独立操作CAT4D 的基础架构采用了一个多视角视频扩散算法，能够实现摄像机角度与场景动作的独立调控，让用户可以分别调整观察的角度及时序变动。
即时渲染利用互动浏览工具，允许用户于网页上即时呈现四维情境，创造了一种直觉式的感受模式。

CAT4D的核心技术机制

基于多个视角的视频扩展技术利用多视角视频扩散技术的模型能够处理一系列包含图片、摄像机设置及时间数据的输入视角，并据此产生特定视角及时段下的目标画面。
使用数据集进行模型训练鉴于在动态环境中获取多样视角的训练资料较为困难，CAT4D采用了结合实际与虚拟的数据集进行培训，这些数据涵盖了从静止环境收集的不同角度影像、特定视角录制的视频片段以及生成的四维数据等内容。
全新角度融合该系统通过处理单一视角录制的视频资料，在不同的时间和角度下生成场景的新视觉效果，从而完成了由单一视角输入向多视角输出的转变。
改进灵活的三维高斯表述形式所创建的多视角视频旨在优化并利用可调整的三维高斯表征来复原动态三维模型，这种方法能够有效地反映场景中的运动变化。
实现功能的独立管理通过CAT4D，可以实现对摄像机移动与场景动画的单独操控，从而能够基于提供的源图像创建出在不同时段及视角下的多种输出系列。
轮换采样方法为了实现精确的4D重建并生成高度一致性的多视角视频，CAT4D采用了一种交错取样方案，在多个视角与不同时刻之间的取样工作轮换执行，从而保障了视频内容在不同时间点和观察角度下保持一致性。