智源研究院发布的See3D —— 一款无需标记视频即可学习的三维生成模型

AI工具2年前 (2025)发布 ainav

380 0 0

见3D是何物

见立方（意为“观看视频，获得三维”）是由北京智源人工智能研究院开发的一款三维内容创建模型。该模型能够通过分析大量未标注的互联网视频数据来自我学习，并从中提取出三维信息。不同于传统上需要依赖相机参数来生成3D图像的方法，见立方运用视觉引导技术，仅依靠视频中的视觉元素就能产出具有可控摄像机视角和几何一致性的多角度图像。这种方法省去了获取昂贵的3D或摄像头标注的需求，使其能够高效地从互联网上的视频内容中学习到三维空间的知识。此外，该模型还支持将文本、单一视图及稀疏视图转换为三维形态，并能执行三维编辑与高斯渲染任务。

See3D的核心特性

由文本、单一视角及少量视角至三维模型的创建See3D具备利用文字说明、单一视图图像或是几幅图像来创建三维内容的能力。
三维编辑及高斯效果渲染该模型允许用户修改生成的三维内容，并采用高斯渲染方法以增强图像质量。
开启三维交互新境界上传图片之后，能够创建出一个可供互动的三维立体环境，让用户即时漫游和探究实际的空间布局。
利用少量图像实现三维重构提供少量图像（从3到6张），该模型能够创建出精细的三维环境。
三维开放世界的创建依据文字指引，该模型能够创造艺术风格的图像，并进一步将这些图像转化为虚拟的三维环境。
利用单一视角实现三维生成上传一幅现实世界的图像，该模型能够创造出极其真实的三维环境。

See3D的运作机制

视感环境技艺See3D无需依靠传统摄像机参数，运用视觉环境技术，借助视频内的视觉提示来创建能够控制视角并且保持几何一致性的一系列多角度图片。
海量未标记视频的学习分析See3D能够有效地从网络视频中获取三维空间的知识，并不需要依靠成本高昂的三维数据或是摄像机标记。
构建数据集合该团队开发了名为WebVi3D的高品质且多样化的大型多视角图片数据库，包含了源自1.6亿个短视频段落的三亿两千万张影像帧。此数据集合能够随着网络视频内容的增长通过自动机制持续扩展其规模。
在多个视角下对扩散模型进行训练See3D提出了一种创新性的视觉处理方式，通过对掩码视频数据施加时间相关的噪声扰动来创建纯粹的二维归纳性视觉信号。这种方法支持可扩展的多视角扩散模型（MVD）训练，并且摆脱了对特定相机参数的需求，从而实现了“仅凭视觉实现三维”的目标。
三维创建平台See3D掌握的三维先验知识为一系列三维创作应用奠定了基础，涵盖了从单一视角生成三维模型、利用少量视角进行重建以及在开放世界的环境中对三维内容进行编辑等功能，并且能够在面对物体和场景层面复杂摄像机路径时创建长时间序列视图。

查看See3D项目的链接

官方网站访问这个链接以查看相关内容：https://vision.baai.ac.cn/explore3d
GitHub代码库：访问此链接以查看BAAI Vision团队的See3D项目 – https://github.com/baaivision/See3D
arXiv科技文章在学术论文数据库中可以找到这篇文档，其在线链接为：https://arxiv.org/pdf/2412.06699 ，该链接直接指向了PDF格式的原始文件。