字节跳动发布基于单图的全方位动态视频创建工具 OmniHuman

AI工具1年前 (2025)发布 ainav

778 0 0

OmniHuman代表什么

字节跳动开发了名为OmniHuman的端到端多模态人类视频生成系统，该系统能够利用单一的人类图像与运动信息（比如声音或影像及其融合）来创建高度逼真的人类影片片段。通过采用一种结合多种模式信号训练的方法，OmniHuman解决了因优质数据不足而导致的技术限制问题，并且它可以处理各种比例的图片输入（例如特写、中景和全景），以适应不同应用场景的需求。在歌唱表演、对话交流及手势表达等众多方面表现出色的同时，该系统还支持多样的视觉与听觉风格组合，并能够根据音频源或视频信号甚至是它们的结合来生成高品质的人类影像内容。

OmniHuman的核心特性

由多种模式引导的视频创作由于提供的内容仅有标点符号冒号，并没有实际的文字信息需要进行伪原创改写，因此无法完成此请求。如果您能提供具体的内容或文本段落，我将能够帮助您进行相应的修改和再创作。
- 该技术能够处理声音指令（例如语音或歌声）及姿态引导（比如手部动作与身体运动），并可将这两种方式融合起来产生无缝衔接的真人动态影像。
- 本服务可接受多种形式的图片输入，涵盖脸部细节照、半身照片以及全身照片，并能适应各种尺寸比列与艺术风格的影像资料。
高度真实的多样动作表现由于提供的原文内容为空，无法进行伪原创改写。如果您有具体的文本需要处理，请提供相关内容。
- 制作出的视频在视觉效果上极为真实，展现了自然而细腻的表情变化、身体动作以及平滑连贯的动作过渡。
- 能够应对复杂的行为及物品互动场景，比如在演唱的同时演奏乐器，以及手部动作与物件间的自然交流等。
便捷的视频制作请提供需要改写的具体内容。没有给出具体文本的情况下，我无法完成您的请求。一旦提供了原文本，我很乐意帮助您进行伪原创的改写工作。
- 能够创建具有任意纵横比及持续时间的视频，并依据输入信号来生产各种长度的视频段落。
- 支持多种图像样式，涵盖真实、动漫及艺术化的人物形象。
适用于多种情境于各类情境中制作高水准的视频内容，涵盖多样化的背景设置、光线状况及拍摄视角。

OmniHuman的核心技术机制

结合多种条件的训练方法由于提供的内容为空，没有具体内容可以进行伪原创改写。如果您能提供具体段落或句子，我很乐意帮您完成这项任务。
- 多种条件的结合在训练中融合包括文本、声音及姿态在内的多种与运动相关的要素，避免因数据选择而造成的资源损耗，并利用这些要素间的相互补充作用。
- 按步骤培训采用分步式培训方案，在各个阶段依次加入多样化的元素（包括文字说明、声音信息和姿态数据）。依据各元素对结果影响的不同程度来调节其在训练中的权重分配，从而提升模型应对各类情况的能力。
- 培训准则利用较轻松的限制下的任务和其相关联的数据集来扩充数据量，以支持具有更严格限制的任务。随着限制程度的提升，用于训练的比例应当减少，以防模型过分倚重这些严格的条件进行学习。
扩展转换器结构请提供需要改写的具体内容，以便我能够帮助您完成任务。
- 采用DiT架构的模型OmniHuman 利用了高级的视频生成框架DiT，通过采用因果3D变分自编码器(Causal 3DVAE)来映射视频至潜在空间内，并且其训练过程以流匹配(Flow Matching)为指导目标。
- 环境注入由于提供的原文为空，没有具体内容可以进行伪原创改写。如果有具体的文本需要帮助，请提供相关内容。
  - 声音环境通过运用wav2vec模型来抽取音频的特性，并将这些特性与视频画面的特性相融合，进而创建出代表声音的令牌(tokens)。随后利用跨模态注意力机制把这些信息融入进系统当中。
  - 姿态状况通过使用姿态指导工具(Pose Guider)来管理姿态状况，融合姿态热力图特性及视频画面的特性以创造姿态标记(tokens)，随后把这些标记同噪音潜表一同作为输入供给给模型处理。
  - 根据提供的指示，您似乎想要一个示例文本以供修改。由于没有提供具体的内容，我无法直接执行该请求。如果您能给出需要改写的特定段落或句子，我很乐意帮助您进行伪原创的创作工作。请供应具体的文本内容以便继续。维持DiT框架内的文本路径，用于阐述所生成视频的细节。
- 参照条件处置运用新颖的参照条件方法，通过调整3D旋转位置嵌入（RoPE），实现参考图象特性与视频特性的整合，且不需附加任何额外的网络组件。
- 推理解法由于提供的内容仅有标点符号冒号，并没有实际的文字信息可以进行伪原创的改写，请提供具体的内容以便于我能够完成您的请求。
  - 类别区分自主指引(CFG)在执行推理时，通过采用逐渐减弱的CFG策略来处理音频与文本条件，以此达到优化表现力并提高运算效率的目的，并且还能减小生成视频中缺陷（比如皱纹）的存在。
  - 创建长时间的视频内容采用前一段视频结尾的若干帧图像作为过渡帧，以保障长时间录像制作时的时间连续性及角色一致性的维持。

OmniHuman项目的网址

官方网站 проекта
注：这里将”项目官网”进行了语言变换，使用了俄文来表达相同的意思“项目的官方网站”，以满足伪原创的需求。但如果需要中文的表达变化，请告知。例如：”该项目的网站主页”也是符合要求的一种改写方式。：访问该链接以查看OmniHuman实验室的官方网站 -> https://omnihuman-lab.github.io/
关于arXiv上的科技学术文章这篇论文可以在网址 https://arxiv.org/pdf/2502.01061 上找到。