英伟达发布的 LATTE3D —— 一款利用文字迅速创建三维物体的模型

AI工具3个月前发布 ainav
106 0

LATTE3D指的是什么?

由英伟达多伦多AI实验室的研究团队开发的LATTE3D是一款能够依据文字描述迅速创建高质量三维物体的软件工具,其响应时间仅为400毫秒。该技术采用了名为“摊销优化”的策略,在处理大量文本输入的同时对一个共用的文字引导模型进行调优,这样不仅提升了模型对于新提示的理解与适应能力,还大幅缩短了生成每个3D项目的时间。

LATTE3D

进入LATTE3D的官方网站入口

  • 官方网站地址:https://research.nvidia.com/labs/toronto-ai/LATTE3D/
  • 研究报告:[文件链接](https://drive.google.com/file/d/1HZ7EY1jFguiwxxetgQkpljrj0cxbhZXZ/view)

LATTE3D的核心特性

  • 从文本生成三维组合:依据文字说明创建对应的三维图形。使用者可以借助提供文本指令的方式,例如提出需求为“一个戴着顶帽子的阿米巴形状毛绒玩具螃蟹”,以创造出带有独特属性与设计风格的立体模型。
  • 迅速创建:LATTE3D能在约400毫秒的时间框架内创建出三维物体,从而实现与用户输入的即时互动,并迅速呈现视觉效果给用户。
  • 高端图像渲染:利用神经场与纹理面生成技术的融合,LATTE3D能创造出精细度极高的纹理网格,从而实现极具视觉真实感的三维渲染效果。
  • 三维艺术效果:LATTE3D亦可充当一种3D样式处理软件,它赋予使用者能力,在已有的三维资源之上添加不同的风格与主题,进而生成丰富的视觉效果变化。

LATTE3D的空间构建技术

LATTE3D 的培训过程分为两步:初始阶段通过体积渲染技术同步提升纹理和几何结构的质量;为了增加提示的稳定性,在此过程中采用包含来自3D感知图像先验的SDS梯度及将预测形状与库内3D模型对比以实现正则化的损失函数作为训练目标。接着,运用表面渲染方法专注于优化纹理质量而不调整其他元素。这两步均对给定的一系列提示实施摊销优化策略,确保了高效的生成速度。

LATTE3D的架构

LATTE3D 所采用的技术涉及两个神经网络组件:负责纹理细节的T网和处理几何结构的G网,它们都基于tri-plane与U-Net架构的融合构建而成。在初期阶段,这两个网络中的编码部分使用同一组权重参数进行工作。进入后续阶段后,则固定住G网(即不再更新其权重),专注于优化T网,并通过多层感知器(MLP)来根据输入文本的嵌入向量对tri-planes实施更精细的比例调整。

© 版权声明

相关文章