幽灵——字节跳动开发的统一风格视频生成系统

AI工具4周前发布 ainav
60 0

Phantom指的是什么

ByteDance的智能创作团队开发了名为Phantom的框架,专用于将主题转化为视频(Subject-to-Video, S2V)。该框架利用跨模态对齐技术,并通过结合文本和图像提示信息来从参考图片中提取主体元素并生成符合描述的文字内容的相关视频。建立在现有的文字转视频(T2V)与图像转视频(I2V)架构基础上,Phantom重新构思了集成的文本-图像注入模型,在利用三元组数据集进行跨模态对齐学习方面取得了进步。该框架能够处理单个或多个主体参考,并特别关注在人类生成任务中的主体一致性问题,这使其能有效地提升保持身份特征的视频生成任务的质量与表现力。

Phantom

幽灵的核心特性

  • 从参照图片中抽取核心成分从图片中辨识和抽取主要对象(包括人像、生物或物品等)以构成视频创作的关键元素。
  • 依据文字说明创建视频:根据用户的文字指导调整视频的题材与样式,达到个性化定制视频的效果。
  • 多个角色的视频创作能够同步管理多种对象,并创建出多样化的交流情境,比如多人群体的互动或是人物与宠物之间的相互作用。
  • 身份维护(ID-Maintaining)在制作视频的过程中,维持人物的独特标识(例如面部特征和衣物风格),这项技术尤其适合应用于虚拟换装体验及数字化人物创建等领域。
  • 高清晰度视频生成所创建的视频在视觉呈现、主题连贯性和文字适应性上都有卓越表现,可比肩当前市场上的专业级方案。

幽灵技术的工作机制

  • 设计数据组织形式Phantom设计了一种包含文本、图像和视频的三元组数据结构,用于训练模型以理解各种媒体格式间的关联性。这些数据被分类为In-paired(图片与视频内容相符)及Cross-paired(不同视频间匹配),以此防止模型仅进行简单的输入图像复制操作。
  • 框架设计根据现有的文本转视频(T2V)及图片转视频(I2V)框架,我们重新构思了一个集成文本与图像注入机制的模型设计。此模型架构包括一个输入处理单元(Input Head)以及一系列可训练的DiT组件。其中,输入处理单元主要任务是编码视频内容、相关文本描述和参考图片信息;而DiT组件则专注于实现多模态数据的一致性调整及最终视频产出工作。
  • 多模式数据同步经过特定视觉编码器(例如VAE或CLIP)处理的参照图片会被转换成代码形式,并与视频及文字特性结合,随后这些信息被送入DiT模块中的视像和文本路径中进行进一步处理。
  • 身份保存方法当处理像人脸这样的个人标识信息时,利用面部识别技术(例如ArcFace算法)来对比生成的视频和参照图片之间的相像程度,以保障主要对象的身份一致无误。
  • 改进和培训通过利用大量的三元组信息进行培训,该过程专注于掌握于制作视频时协调文字与视觉元素两方面线索的方法。在初步训练中,系统吸收了初始模型的数据参数,并通过对多模式内容实施精细化调整来优化性能,从而确保能够创造出高水准的视频作品。

Phantom的工程链接

  • 官方网站建设项目:访问 https://phantom-video.github.io/Phantom 获取更多信息。
  • Git代码库:可在GitHub上找到名为”Phantom-video/Phantom”的项目页面。
  • 关于arXiv的技术文章访问该链接以获取名为“2502.11079”的学术论文的PDF版本:https://arxiv.org/pdf/2502.11079

幻影技术的使用情境

  • 在线试衣体验制作服饰的动态演示视频,以便让用户提前查看穿着效果。
  • 虚拟人物创建设计适用于虚拟主播等领域、具备独特外观的数字人物。
  • 制作宣传影片通过结合图片与文字迅速创作商品宣传广告,以提高生产效率。
  • 电影与动画作品创建角色动画初稿,支持创意测试,减少生产费用。
  • 教育与培训制作关于科学实验和历史情境的教学视频,提升互动体验。
© 版权声明

相关文章