Meta GenAI与牛津大学联合开发的双步骤三维生成架构——Flex3D

100 0 0

Flex3D指的是什么？

由Meta的GenAI团队及牛津大学的研究人员共同开发的创新两步式3D内容创作框架——Flex3D，旨在根据多个高质量输入视图从文本、单张图像或稀疏视角生成高精度三维模型。其流程分为两个阶段：首先运用微调过的多视角与视频扩散技术来创建多样化的候选视觉，并通过一套精选机制筛选出那些既优质又具一致性的视角以备重建之用；其次借助基于transformer架构的灵活重构模块（FlexRM），此模块能够处理任意数量的输入图像并直接生成3D高斯点，从而确保了三维建模过程的高度效率与细节丰富性。实验结果显示，该框架在3D模型重建和创建任务中表现出卓越性能，并且用户满意度研究显示其胜率为92%以上。

Flex3D的核心特性

高品质的三维内容创作利用文本说明、单一图片或是少量视角的图像来创建高精度的三维模型。
可变的视角创造利用针对多视角与视频扩散模型的精细调整技术，创建出多样化的备选视角，全面反映三维物体的不同侧面。
视角过滤方法：挑选出具有高质素及稳定性的视角，应用于随后的三维重建步骤中。
可变重构系统（AdaptiveRS）利用transformer框架，能够应对不限量的输入视角，并且可以直接生成三维高斯点。
高效率的三维展示运用三平面展示方法及三维高斯渲染技巧，能够迅速而详尽地创建出三维模型。
稳定性通过使用带有缺陷的输入数据来培训模型，可以提升其抵抗各种干扰的能力。

Flex3D的核心技术机制

多重视角扩展模型通过调整过的多重视角图像扩展模型及视频扩展技术来创建候选视角集合。
选取视图路径利用质量评价与特性比对网络，甄选出优质视角用于三维重构。
转换器结构FlexRM依托于变换器结构，能够应对各种数目与视角的输入视图。
三个平面的展示及三维高斯图的绘制通过融合三平面特性与三维高斯绘图方法，利用MLP将三平面特性解析成三维高斯点。
双步骤培训方法首先对模型进行初步的预训练，然后在下一阶段利用来自现实世界的真实密集渲染数据对其进行进一步调优。
非理想输入视角仿真于训练阶段引入非理想输入视角的仿真，并通过在3D高斯点分布中注入噪音来提升模型的稳定性。

Flex3D的工程链接

官方网站URLException：访问地址为github用户junlinhan的项目页面flex3d，网址是https://junlinhan.github.io/projects/flex3d
关于技术的arXiv学术文章访问链接以获取最新研究文档的内容: https://arxiv.org/pdf/2410.00890，请直接查阅原文以便获得最准确的信息。