卡内基梅隆与上海AI实验室等机构共同发布基于单一图像构建三维人物骨架的GAS技术

AI工具4周前发布 ainav
41 0

GAS代表的是什么?

来自卡内基梅隆大学、上海人工智能实验室以及斯坦福大学的研究团队开发了一种名为GAS(基于单一图像的生成式角色综合)的技术,该技术能够从单个图像出发创造出高质量且在不同视角下保持一致与时间连贯性的虚拟人物形象。此框架巧妙地整合了回归性3D人体重建技术和扩散模型的特点。通过利用3D人体重建技术来创建中间视角或姿态,并将其作为视频扩散模型的条件输入,GAS确保了生成内容的质量、视点一致性及时序上的连续性。此外,引入了一种“模式切换器”机制以有效区分视角合成与姿态变换任务,从而进一步优化输出效果。

GAS

GAS的核心作用

  • 从多个角度统一观点的融合技术利用单一图片创建高精度的多角度视图渲染,以维持在各种观察角度下的一致性表现与构造统一。
  • 连续时间下的动作流动画利用提供的姿势序列创建平滑而逼真的柔性变形动画,确保动态姿势之间的过渡自然顺畅。
  • 一体化架构及广泛的适用性通过对视角融合与姿势组合任务实施一体化处理,并采用共同的模型参数及借助海量实际资料(例如在线视频片段)开展训练工作,能够增强生成模型在现实环境中的适应性和扩展性。
  • 紧凑视觉指示器利用由3D重构模型产生的详细数据作为前置条件,保证了最终产出在外形与构造上具有高度的真实性。

GAS的工作机制

  • 三维人像复原及高密度状态信息GAS 利用回归型 3D 人体重建技术(例如单视角通用人类 NeRF)从给定图像中创建中间视图或姿态。该过程涉及将输入图像转换至规范空间并进行重新定位,以产生密集的外观提示信息。这些详尽的数据作为条件被馈入到后续扩散模型中,提供充足的细节和结构资讯,从而保证生成内容的质量与一致性得到维护。
  • 视频传播模型及一体化平台所创建的中间视点或姿势作为视频扩散模型中的条件输入使用,借助该扩散模型来生产具备高度视觉一致性和时间连贯性的动画片段。GAS设计了一个整合框架,将视点生成与姿势生成的任务结合起来,并共享模型参数,从而实现了从姿态转换到视角变换上的自然扩展功能。
  • 模式转换工具为区别处理视角合成与姿态合成的任务,GAS加入了模式转换组件。该组件使网络能够在创建视角时注重保持一致,并在构建姿态时强调实现真实的形变效果。
  • 现实世界数据的广泛适用性GAS利用大量来自现实世界的视频资料(例如在线视频)进行训练,大幅增强了其在实际情境中的适用性。多样化的数据源让该模型能够在不同的光线环境、服饰类型及动作模式下保持高效运行。
  • 培训与推断GAS的培训过程包含两个步骤:初期专注于构建3D人体结构模型,随后固定此模型以优化视频扩散算法。在进行推断操作时,则依据具体应用场景的需求——无论是视点变换还是姿势模拟,灵活运用差异化的分类器指导(CFG)方案。

GAS项目的网址位置

  • 官方网站项目页面访问此链接以获取更多信息:https://github.com/humansensinglab/GAS
  • 关于arXiv的技术文章在学术论文数据库中可以找到编号为2502.06957的文档。该链接指向了一篇存储于arXiv平台上的研究文章,有兴趣者可通过提供的URL访问原文内容进行深入学习或参考。

GAS的使用情境

  • 电子游戏与沉浸式体验技术(IVT)利用GAS技术能够从单一图片创建出高品质的虚拟人物,并且该技术还允许这些虚拟角色在不同的视角下以及在进行各种动作时保持视觉上的流畅与一致。
  • 电影与电视节目创作于电影特技及动画创作领域内,GAS可迅速创建高度真实的数字人物形象,显著降低常规模型构建与动画生产所需的时间与经济投入。
  • 运动与健康锻炼利用单一图片创造出动态的虚拟角色,GAS能够制作出定制化的运动模拟效果,适用于运动员的动作解析或是健身软件当中。
  • 潮流与服饰创意设计通过使用GAS,可以创建多种姿势与角度的数字人物模型,这有助于设计师迅速查看服饰的实际呈现效果,并提高他们的创作效率。
© 版权声明

相关文章