南大复旦联合推出高分辨率3D生成框架

AI工具1年前 (2025)发布 ainav

258 0 0

Direct3D-S2：重新定义三维内容生成

Direct3D-S2是由南京大学、DreamTech实验室、复旦大学以及牛津大学的研究团队共同开发的革命性三维内容生成框架。该系统基于先进的稀疏体积表示和创新的空间稀疏注意力机制（SSA），在保持高生成质量的同时，显著提升了计算效率，并大幅降低了训练成本。Direct3D-S2的核心组件——全端到端的稀疏SDF变分自编码器(SS-VAE)，采用对称的编码器-解码器结构设计，支持多分辨率训练模式，在1024³这样的高分辨率下仅需8个GPU即可完成训练任务。这一突破性的框架在三维生成领域树立了新的性能标杆，为高质量3D内容创作提供了前所未有的技术支持。

Direct3D-S2的核心优势

Direct3D-S2在三维生成领域实现了多项技术突破，主要体现在以下几个方面：

高分辨率内容创作：系统能够生成高达1024³分辨率的三维模型，确保输出结果具备极致的几何细节和视觉品质。
计算效率革命性提升：通过优化扩散变换器(DiT)的计算流程，在保证生成质量的同时大幅降低了计算资源消耗。在高分辨率训练任务中，系统仅需8个GPU即可完成，显著降低了算力成本。
基于图像的内容生成：创新地引入了图像条件下的三维建模功能，用户可以通过输入特定图像直接获得与之匹配的高质量三维模型。

Direct3D-S2的技术革新

Direct3D-S2的核心技术优势主要源于其独特的空间稀疏注意力机制(SSA)和高效的变分自编码器架构：

智能的空间稀疏注意力机制：该系统将输入的tokens按照三维坐标进行区域划分，通过稀疏卷积和池化操作提取关键特征信息。这种创新性的处理方式不仅降低了计算复杂度，还显著提升了模型对空间关系的理解能力。
高效的稀疏SDF变分自编码器：系统的另一大核心技术是全端到端的SS-VAE架构，该结构能够有效建模三维物体的表面特征和体积信息。通过对冗余计算的消除，系统实现了在高分辨率下的高效训练。