Bolt3D:牛津大学与谷歌联合开发的3D场景生成技术

AI工具1周前发布 ainav
26 0

Bolt3D是什么

作为一种创新的3D场景生成技术,Bolt3D由谷歌研究院、牛津大学VGG团队以及谷歌DeepMind联合开发。它基于潜在扩散模型,能够在单个GPU上快速完成从图像到三维场景表示的转换过程,最快仅需不到七秒即可完成处理。在英伟达H100图形处理器的支持下,Bolt3D能够将照片转化为完整的三维场景,耗时仅需6.25秒。

Bolt3D:牛津大学与谷歌联合开发的3D场景生成技术

Bolt3D的主要功能

  • 快速生成能力:作为前馈式生成方法,Bolt3D能够直接从单张或多张输入图像中采样出3D场景表示。这种高效的处理方式使其在单一GPU环境下仅需6.25秒即可完成处理。
  • 多视角支持与泛化性能:系统支持从单视图到多视图的多种输入模式,能够生成未被观测区域的内容,并展现出良好的泛化能力。
  • 高保真度输出:采用基于高斯溅射技术的数据存储方式。通过二维网格上的三维高斯函数布置,构建完整的三维场景。每个高斯函数都包含位置、颜色、透明度和空间信息等关键数据,从而生成高质量的3D场景。
  • 实时交互体验:用户能够在浏览器中即时查看并渲染生成的3D场景,为游戏开发、虚拟现实、增强现实、建筑设计、影视制作等多个领域提供了广阔的应用前景。

Bolt3D的技术原理

  • 多视角潜在扩散模型:通过训练多视图潜在扩散模型,实现了对图像与3D点图的联合建模。该模型以单张或多张图像及其相机位姿作为输入,能够准确捕捉目标图像、点图及源视图点图之间的联合分布特性。
  • 几何变分自编码器:训练了一个几何VAE模型,将一个视图的点图和相机射线图联合编码为几何潜在特征。通过最小化标准VAE目标函数与特定设计的几何损失函数的组合优化策略,实现了对点图的高精度压缩。
  • 多视图高斯头部网络:基于给定的相机参数以及生成的图像和点图信息,训练了一个多视图前馈高斯头部模型。该模型输出经过优化的三维高斯分布参数,包括位置、尺度和朝向等关键属性。
  • 高效渲染机制:结合上述技术构建了完整的3D场景生成管道,并通过高效的渲染算法将抽象的几何表示转化为可交互的3D场景数据。

Bolt3D项目信息

如需深入了解Bolt3D技术细节或获取相关资源,可通过以下链接访问:项目官方网站

Bolt3D的应用场景

  • 游戏开发:为实时渲染和虚拟世界构建提供高效工具支持。
  • 虚拟现实:助力打造沉浸式的VR体验环境。
  • 增强现实:提升AR应用中的3D内容生成效率。
  • 建筑设计:为建筑师和设计师提供快速建模解决方案。
  • 影视制作:推动电影特效和虚拟场景创作的技术革新。

通过以上介绍可以看出,Bolt3D作为一种创新的3D生成技术,在多个领域都展现出了重要的应用价值。其高效的处理能力和优秀的生成质量,为相关行业带来了新的发展机遇。

© 版权声明

相关文章