快手携手浙大与清华等多个机构开发的多角度视频创造模型——SynCamMaster

AI工具3个月前发布 ainav
114 0

SynCamMaster指的是什么?

由浙江大学、快手科技、清华大学及香港中文大学的研究团队联合研发的SynCamMaster是世界上首个能够生成多角度视频的模型。它利用六自由度相机的位置信息,能够在任意视点下创建开放世界的动态影像内容,并确保预训练文本到视频转换过程中的视角一致性,从而支持多摄像机协同录制视频的能力。通过运用可插拔模块和多视图同步技术,该系统实现了不同视角间的实时协调统一,在四个维度上维持了高度的一致性表现。此外,SynCamMaster还具备扩展至新视点下的影像合成能力,并能重新渲染输入的视频内容以适应新的观看角度需求。

SynCamMaster

SynCamMaster的核心特性

  • 从多个角度创建视频图像SynCamMaster能够生成来自相同活动场景多种视角的多段视频。
  • 视角间的实时协同更新维持各角度间的实时同步,以保证由多台相机拍摄的视频在时间与空间维度上的统一性。
  • 生成开放式世界的视频内容SynCamMaster能够创建开放世界视频,视角随意变换。
  • 六维度摄像机位置与姿态利用融合了六个自由度(6DoF)的摄像机位置技术,用户能够以任何角度记录画面。
  • 提升预训练模型的能力通过集成即插即用的组件来提升预先训练好的文字转视频模型的效果,应用于多摄像头视频内容的创建。
  • 全新角度的视频融合技术SynCamMaster具备将参考视频融入多相机视图生成模型的能力,从而能够拓展至新型的视角融合技术,并对输入的影像内容进行新颖角度下的再渲染展示。

SynCamMaster的核心技术机制

  • 预先训练好的文字转视频模型利用预先训练好的从文字转换为视频的扩散模型,依据给定的文字说明来创建相匹配的三维视频片段。
  • 多个视角的协同工作单元集成多视角同步组件至每一个Transformer单元内,以确保各视角之间的视觉与几何特征一致。
  • 摄像机编码设备利用摄像机编码器把摄像机的外参,例如旋转矩阵和位移矢量,转换为与空间特性同维数的嵌入表示。
  • 多角度自我关注机制于多视角协同组件内,通过运用跨视角自我注意机制来汇集各个角度的独特特性,从而确保了各视角间的资讯交互与协调一致。
  • 结合多种来源的训练数据集合制定一种融合训练计划,整合多种摄像头拍摄的图像、单一视角录制的视频以及由虚幻引擎生成的多个摄像机视图视频。
  • 逐步训练方法实施逐步增强的训练方案,稳步加大训练过程中各视角间的相对角度差距,以此提升模型应对显著视角变化的能力。

SynCamMaste的程序库位置

  • 官方网站项目https://github.com/jianhongbai/SynCamMaster
  • Git代码库:访问该项目的网址为 https://github.com/KwaiVGI/SynCamMaster
  • 关于arXiv上的科技文章在该链接中所指向的文档提供了最新的研究成果,具体可见于电子预印本仓库ArXiv上的编号为2412.07760的文章。

SynCamMaster的使用场合

  • 数字化摄制于电影与视频创作领域内,通过多视角合成影像内容,助力导演及制作小组提前审视各个场景布局,并达成精妙的镜头拼接效果。
  • 制作电子游戏游戏制作人设计并生成充满活力的游戏宣传片或演示短片,用来呈现游戏角色与场景之间的交互效果,并通过多种视点来增强视觉体验。
  • 仿真环境技术包括虚拟现实(VR)与增强现实(AR)两种形式。于VR及AR应用程序内,创造随用户视觉角度变动而同步更新的活动场景,增强用户的沉浸感受。
  • 仿真练习在涉及需多方位审视的情境中,比如驾车仿真或外科手术演练时,通过呈现多个视点的即时影像来提升培训的质量和成效。
  • 监测体系在安防监测行业中,通过合并多路摄像设备捕捉的画面,并合成一个综合视图的录像片段,有助于监视工作人员更清晰地掌握事态进展。
© 版权声明

相关文章