Snapchat开发的AI驱动视频创建工具——Snap Video

AI工具2个月前发布 ainav
73 0

Snap Video指的是什么?

Snap Video是一款由社交媒体平台Snapchat背后的公司——Snap的研究小组所开发的人工智能视频创作工具。该工具的核心功能是依据文本叙述自动生成对应的视频片段,即用户只需提供一段描述性的文字内容,系统即可据此生成相应的视觉材料。考虑到视频数据本身的复杂性和重复性特征,Snap Video特别致力于克服从纯文本来制作出高质量、时间上流畅且动作细节逼真的视频这一难题。通过用户的反馈和对比测试显示,相较于同类的Pika与Runway Gen-2等模型,Snap Video的表现至少相当甚至更胜一筹。

Snap Video

访问Snap Video的官方网页入口

  • 项目官方网站:https://snap-research.github.io/snapvideo/
  • 研究报告链接如下所示:https://arxiv.org/abs/2402.14797

Snap Video的核心特性

  • 以视频为主的模式Snap Video是一款专为创建视频内容而设计的模型,它在时间连贯性和动作表现上做了特殊的改进。不同于很多由图像生成功能扩展至视频处理的其他模型,这些模型可能会在应对视频特定需求时遇到一些限制。
  • 扩增的电子直接营销架构此模型对EDM架构进行了拓展,提升了其在管理和减少视频内容空间及时间重复方面的效能,进而增强了生成的视频质量。
  • 高性能的Transformer结构Snap Video利用了基于Transformer的FIT框架,该框架在管理序列信息及识别长时间段内的相关性上表现出色,特别是在创建视频内容以及应对高清晰度影像处理时尤为突出。
  • 高效培训与推断相较于传统的如U-Net这样的结构,Snap Video在训练和推断方面表现得更为迅速,并且能以更高的效率创造视频内容。
  • 创建高清视频内容Snap Video具备生产高质量视频片段的能力,在从前的文字转视频技术里这是一个难题,因为它要求更精细的画面呈现及复杂动态的管理。
  • 集成时空模型分析Snap Video利用结合时空维度的模型,创造出动作复杂且时间连贯性高的视频内容。

Snap视频的应用框架

  • 拓展版的电子直接营销架构Snap Video扩展了EDM框架的应用范围,使其适用于高分辨率视频的创建。原本,EDM框架主要用于图像合成,通过模拟数据扩散来创造新的样本数据。为了适应视频处理的需求,Snap Video增加了输入缩放参数(σin),调整了正向扩散流程,确保在生成过程中保持原有的信噪比(SNR),这样就能保证在高分辨率视频制作时维持高水平的性能表现。
  • 转换器结构Snap Video运用了基于转换器(Transformer)的设计理念,这种深度学习模型特别擅长于序列数据分析,并展现出高效性能。通过利用自注意力机制和交叉注意力机制,转换器能够识别并分析输入数据中的整体关联性。在Snap Video的应用中,该技术被用于处理视频帧序列以生成动作连贯的视频内容。
  • 适应性集成技术框架Snap Video 采用了专为高分辨率图像与视频合成设计的变换器架构——FIT(Far-reaching Interleaved Transformers)。该架构通过学习并利用输入数据的紧凑表达形式,并在可调谐潜在空间中进行运算,实现了即便随着输入维度增加也不显著损害性能的效果。这种高效的压缩表示方式使Snap Video 能够处理高分辨率视频数据时保持高效性。
    Snap Video FIT架构
  • 集成时空模型分析Snap Video 在创建视频的过程中,兼顾了时空两个维度的要素,从而能够更好地反映画面内的移动与变迁细节。这样的整合模型方式显著增强了视频在时间上的一致性以及动作的真实感。
  • 两级串联模型为创建高清晰度影片,Snap Video运用了双步骤串联技术框架。首个环节构建出较低清版本的影片内容,接着第二个环节负责把这些影像升级至更精细的画面解析度。此种连贯的技术流程确保了既能够维持系统的效能又可以产出优质视频的效果。
  • 培训与推断流程Snap Video于训练阶段运用了LAMB优化算法并实施了余弦退火学习率策略。进行推理时,该模型通过确定性采样方法从高斯噪声中生成视频样本,并利用分类器自由引导技术增强文本与视频内容的匹配度。
  • 相关信息条件在创建视频时,Snap Video整合了各类条件参数来指导其生产流程,包括文字说明、噪音等级、每秒帧数及清晰度等细节。所有这些设定都是经由附加的数据读取步骤输入到系统中,以此精确调控内容的产出方式。
© 版权声明

相关文章