智源研究院发布的See3D —— 一款无需标记视频即可学习的三维生成模型

AI工具3个月前发布 ainav
93 0

见3D是何物

见立方(意为“观看视频,获得三维”)是由北京智源人工智能研究院开发的一款三维内容创建模型。该模型能够通过分析大量未标注的互联网视频数据来自我学习,并从中提取出三维信息。不同于传统上需要依赖相机参数来生成3D图像的方法,见立方运用视觉引导技术,仅依靠视频中的视觉元素就能产出具有可控摄像机视角和几何一致性的多角度图像。这种方法省去了获取昂贵的3D或摄像头标注的需求,使其能够高效地从互联网上的视频内容中学习到三维空间的知识。此外,该模型还支持将文本、单一视图及稀疏视图转换为三维形态,并能执行三维编辑与高斯渲染任务。

See3D的核心特性

  • 由文本、单一视角及少量视角至三维模型的创建See3D具备利用文字说明、单一视图图像或是几幅图像来创建三维内容的能力。
  • 三维编辑及高斯效果渲染该模型允许用户修改生成的三维内容,并采用高斯渲染方法以增强图像质量。
  • 开启三维交互新境界上传图片之后,能够创建出一个可供互动的三维立体环境,让用户即时漫游和探究实际的空间布局。
  • 利用少量图像实现三维重构提供少量图像(从3到6张),该模型能够创建出精细的三维环境。
  • 三维开放世界的创建依据文字指引,该模型能够创造艺术风格的图像,并进一步将这些图像转化为虚拟的三维环境。
  • 利用单一视角实现三维生成上传一幅现实世界的图像,该模型能够创造出极其真实的三维环境。

See3D的运作机制

  • 视感环境技艺See3D无需依靠传统摄像机参数,运用视觉环境技术,借助视频内的视觉提示来创建能够控制视角并且保持几何一致性的一系列多角度图片。
  • 海量未标记视频的学习分析See3D能够有效地从网络视频中获取三维空间的知识,并不需要依靠成本高昂的三维数据或是摄像机标记。
  • 构建数据集合该团队开发了名为WebVi3D的高品质且多样化的大型多视角图片数据库,包含了源自1.6亿个短视频段落的三亿两千万张影像帧。此数据集合能够随着网络视频内容的增长通过自动机制持续扩展其规模。
  • 在多个视角下对扩散模型进行训练See3D提出了一种创新性的视觉处理方式,通过对掩码视频数据施加时间相关的噪声扰动来创建纯粹的二维归纳性视觉信号。这种方法支持可扩展的多视角扩散模型(MVD)训练,并且摆脱了对特定相机参数的需求,从而实现了“仅凭视觉实现三维”的目标。
  • 三维创建平台See3D掌握的三维先验知识为一系列三维创作应用奠定了基础,涵盖了从单一视角生成三维模型、利用少量视角进行重建以及在开放世界的环境中对三维内容进行编辑等功能,并且能够在面对物体和场景层面复杂摄像机路径时创建长时间序列视图。

查看See3D项目的链接

  • 官方网站访问这个链接以查看相关内容:https://vision.baai.ac.cn/explore3d
  • GitHub代码库:访问此链接以查看BAAI Vision团队的See3D项目 – https://github.com/baaivision/See3D
  • arXiv科技文章在学术论文数据库中可以找到这篇文档,其在线链接为:https://arxiv.org/pdf/2412.06699 ,该链接直接指向了PDF格式的原始文件。

See3D的使用情境

  • 开发电子游戏利用AI创造的3D模型能够应用于构建游戏角色、场景及物件上,这不仅提升了开发工作的速度,同时也缩减了制作成本。
  • 建筑创作在建筑工程的设计阶段,人工智能能够创建建筑物的模型,辅助设计人员迅速形成并调整他们的创意方案。
  • 电子商务在线零售商能够运用由人工智能创建的三维模型来展示商品,从而增强消费者的购买体验。
  • 增强现实与虚拟现实于AR/VR行业中,借助AI构建的三维模型能够助力打造高度真实的数字场景与人物形象,从而提升用户体验的真实感受。
  • 影视与休闲借助AI技术,电影创作者能够用CG角色替代实际演员,从而让特效制作过程更为简洁。
  • 产品设计利用AI创建的3D模型能够促进工业产品设计方案的仿真,从而加快产品研发的步伐。
© 版权声明

相关文章