北大与字节跳动共同开发的 3D 创建架构 —— DiffSplat

166 0 0

DiffSplat指的是什么？

DiffSplat是一种创新的三维生成技术，能够依据文字提示与单一视角图片迅速创建出3D高斯点阵（Gaussian Splats）。该方法通过对预先训练好的文本至图像扩散模型进行微调，并利用丰富的二维数据作为基础，加入三维渲染损失以确保所产生物体在不同角度观察时的一致性。DiffSplat的主要优点是其高效和多功能特性，可以在1到2秒内生成精细的3D物体，适应基于文字、图片或是两者结合的输入条件。它还配备了一个轻便的重建模型来构造有结构化的高斯表示形式，并为训练提供高质量的数据支撑。

DiffSplat的核心特性

创建基于文本和图片的三维高斯网格DiffSplat 可以利用文本提示或单一视角的图像来创建具有三维一致性的高斯点云。
有效运用二维前置知识通过对大型文本至图像扩散模型进行精细调整，DiffSplat 利用互联网级别的二维先验数据，并结合三维渲染损失函数来保证生成的图像在所有视角下都具备三维一致性。
允许多种条件的输入使用 DiffSplat 时，用户能够选取文本条件、图像条件或是它们的结合作为输入形式，以满足不同的需求。
可调控的创造功能通过整合像ControlNet这样的技术，DiffSplat能够支持利用文本指令及各类文件形式（包括但不限于法线映射、深度图像与Canny边缘检测结果）来引导生成可控制的三维模型。

DiffSplat的核心技术机制

利用大型预训练技术实现从文本生成图像的扩散模型DiffSplat 利用对这些模型进行微调的方式，直接创造出基于网络大小的二维先验信息的有效三维高斯点阵。
简约重建架构为开启训练进程，DiffSplat 设计了一种简洁高效的重构模型，能够迅速创建适用于大规模数据集构建的多视角高斯分布网格。
三维渲染损耗DiffSplat 创新性地采用了三维渲染损耗技术，保证所创造的三维内容能在所有视角中维持一致的效果。

DiffSplat项目的仓库位置

官方网站PROJECT访问此项目页面以了解更多详情：https://chenguolin.github.io/projects/DiffSplat/ 页面展示了项目的各种成果和相关信息。
Git存储库：访问该项目的GitHub页面可使用此链接 https://github.com/chenguolin/DiffSplat
关于arXiv上的科技文章这篇论文可以在如下链接中找到：https://arxiv.org/abs/2501.16764，该链接提供了文档的概览和下载选项。请注意，直接访问以.pdf结尾的链接可能需要通过主页面进行导航以确保获取最新版本或相关资源。

DiffSplat的使用情境

三维内容制作适合于快捷原型制作与创意生产。利用 DiffSplat，设计师能够迅速创建出3D模型的基础构想版，适用于初期的概念测试或是后续的深入优化工作。
从文本转换为三维创建在基于文本描述的3D模型创建任务上，DiffSplat展现了卓越的能力，能够依据详尽的文字说明来创造出相应的三维模型。
从图片生成三维模型DiffSplat 能够利用单一图片创建出精确呈现原图形态与材质的三维模型。这项技术特别适用于迅速将现有的视觉素材转化为三维形式，在电影特技和电子游戏创作等行业中大有裨益。
应用程序的下端兼容性支持DiffSplat 的产出能够无缝集成到多个后续应用场景中，包括但不限于 3D 制造、虚拟现实(VR)以及增强现实(AR)等行业。

# AI工具