英伟达发布的 LATTE3D —— 一款利用文字迅速创建三维物体的模型

AI工具2年前 (2025)发布 ainav

447 0 0

LATTE3D指的是什么？

由英伟达多伦多AI实验室的研究团队开发的LATTE3D是一款能够依据文字描述迅速创建高质量三维物体的软件工具，其响应时间仅为400毫秒。该技术采用了名为“摊销优化”的策略，在处理大量文本输入的同时对一个共用的文字引导模型进行调优，这样不仅提升了模型对于新提示的理解与适应能力，还大幅缩短了生成每个3D项目的时间。

进入LATTE3D的官方网站入口

官方网站地址：https://research.nvidia.com/labs/toronto-ai/LATTE3D/
研究报告：[文件链接](https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view)

LATTE3D的核心特性

从文本生成三维组合：依据文字说明创建对应的三维图形。使用者可以借助提供文本指令的方式，例如提出需求为“一个戴着顶帽子的阿米巴形状毛绒玩具螃蟹”，以创造出带有独特属性与设计风格的立体模型。
迅速创建：LATTE3D能在约400毫秒的时间框架内创建出三维物体，从而实现与用户输入的即时互动，并迅速呈现视觉效果给用户。
高端图像渲染：利用神经场与纹理面生成技术的融合，LATTE3D能创造出精细度极高的纹理网格，从而实现极具视觉真实感的三维渲染效果。
三维艺术效果：LATTE3D亦可充当一种3D样式处理软件，它赋予使用者能力，在已有的三维资源之上添加不同的风格与主题，进而生成丰富的视觉效果变化。

LATTE3D的空间构建技术

LATTE3D 的培训过程分为两步：初始阶段通过体积渲染技术同步提升纹理和几何结构的质量；为了增加提示的稳定性，在此过程中采用包含来自3D感知图像先验的SDS梯度及将预测形状与库内3D模型对比以实现正则化的损失函数作为训练目标。接着，运用表面渲染方法专注于优化纹理质量而不调整其他元素。这两步均对给定的一系列提示实施摊销优化策略，确保了高效的生成速度。

LATTE3D 所采用的技术涉及两个神经网络组件：负责纹理细节的T网和处理几何结构的G网，它们都基于tri-plane与U-Net架构的融合构建而成。在初期阶段，这两个网络中的编码部分使用同一组权重参数进行工作。进入后续阶段后，则固定住G网（即不再更新其权重），专注于优化T网，并通过多层感知器(MLP)来根据输入文本的嵌入向量对tri-planes实施更精细的比例调整。

# AI工具