Meta GenAI与牛津大学联合开发的双步骤三维生成架构——Flex3D

AI工具3个月前发布 ainav
85 0

Flex3D指的是什么?

由Meta的GenAI团队及牛津大学的研究人员共同开发的创新两步式3D内容创作框架——Flex3D,旨在根据多个高质量输入视图从文本、单张图像或稀疏视角生成高精度三维模型。其流程分为两个阶段:首先运用微调过的多视角与视频扩散技术来创建多样化的候选视觉,并通过一套精选机制筛选出那些既优质又具一致性的视角以备重建之用;其次借助基于transformer架构的灵活重构模块(FlexRM),此模块能够处理任意数量的输入图像并直接生成3D高斯点,从而确保了三维建模过程的高度效率与细节丰富性。实验结果显示,该框架在3D模型重建和创建任务中表现出卓越性能,并且用户满意度研究显示其胜率为92%以上。

Flex3D

Flex3D的核心特性

  • 高品质的三维内容创作利用文本说明、单一图片或是少量视角的图像来创建高精度的三维模型。
  • 可变的视角创造利用针对多视角与视频扩散模型的精细调整技术,创建出多样化的备选视角,全面反映三维物体的不同侧面。
  • 视角过滤方法:挑选出具有高质素及稳定性的视角,应用于随后的三维重建步骤中。
  • 可变重构系统(AdaptiveRS)利用transformer框架,能够应对不限量的输入视角,并且可以直接生成三维高斯点。
  • 高效率的三维展示运用三平面展示方法及三维高斯渲染技巧,能够迅速而详尽地创建出三维模型。
  • 稳定性通过使用带有缺陷的输入数据来培训模型,可以提升其抵抗各种干扰的能力。

Flex3D的核心技术机制

  • 多重视角扩展模型通过调整过的多重视角图像扩展模型及视频扩展技术来创建候选视角集合。
  • 选取视图路径利用质量评价与特性比对网络,甄选出优质视角用于三维重构。
  • 转换器结构FlexRM依托于变换器结构,能够应对各种数目与视角的输入视图。
  • 三个平面的展示及三维高斯图的绘制通过融合三平面特性与三维高斯绘图方法,利用MLP将三平面特性解析成三维高斯点。
  • 双步骤培训方法首先对模型进行初步的预训练,然后在下一阶段利用来自现实世界的真实密集渲染数据对其进行进一步调优。
  • 非理想输入视角仿真于训练阶段引入非理想输入视角的仿真,并通过在3D高斯点分布中注入噪音来提升模型的稳定性。

Flex3D的工程链接

  • 官方网站URLException:访问地址为github用户junlinhan的项目页面flex3d,网址是https://junlinhan.github.io/projects/flex3d
  • 关于技术的arXiv学术文章访问链接以获取最新研究文档的内容: https://arxiv.org/pdf/2410.00890,请直接查阅原文以便获得最准确的信息。

Flex3D的使用场合

  • 电子游戏制作高效创建用于游戏资产与场景的三维模型,以增强游戏制作及开发的工作效率。
  • 提升现实感的增强技术(AR)与构建全沉浸式数字世界的虚拟实境(VR)为了增强用户在AR和VR应用程序中的沉浸体验,制作高度真实的3D模型与环境。
  • 影视与动漫创作于电影及动画领域内创建高精度的三维模型,应用于人物造型设计、物品制造与环境搭建之中。
  • 自动化机械技术创建三维模型来仿真及锻炼机器人的空间导引与作业技巧于繁复场景中。
  • 网上购物创建在线店铺商品的三维视觉效果,以更加全面的方式展现商品细节,辅助顾客进行购物选择。
© 版权声明

相关文章