谷歌新推的AI视频创作工具 — VideoPoet

AI工具2个月前发布 ainav
89 0

VideoPoet指的是什么

谷歌的研究团队开发了名为VideoPoet的人工智能视频创作方案,该方案利用大型模型技术从文本、图像或现有视频中合成高质量影像,并配以相应的音频内容。其主要特点在于采用了多模态大模型架构,能够灵活处理和转换各种输入信息类型,在没有特定数据集或者扩散模型的情况下也能生成多种风格动作的视频片段,每段时长可达10秒。

Google VideoPoet

访问VideoPoet的官方网站入口

  • 该项目的官方网站地址为:http://sites.research.google/videopoet/
  • 在Arxiv平台上发布的一篇科研文章可以在这里找到:https://arxiv.org/pdf/2312.14125.pdf

VideoPoet的核心特性

  • 从文字转变为影片利用VideoPoet,可以根据文字说明创建匹配的视频素材。使用者只需提供一段叙述,系统就能产出对应的视频剪辑。
  • 从图片转换成动态视频除文本之外,VideoPoet也能将静止图转变为动画内容。比如,当用户上传一幅图片后,该模型能够把这幅图片转化为一段动态视频。
  • 视频艺术化处理VideoPoet具备调整现有视频样式的功能,可以将视频转化为油画效果、动画样式等不同的艺术形态。
  • 视频的剪辑与拓展该模型具备编辑视频的能力,包括调整画面内对象的行为或是融入新要素。不仅如此,还能延伸现有影片的内容,创造出更加绵延的视觉段落。
  • 将视频文件转化为音频格式VideoPoet 能够从视频素材中创建声音元素,这表明它具备为缺乏声音的视频添加音效和背景音乐的能力。
  • 多种模式的学习方法VideoPoet 具备跨模态学习的能力,可以在视频、图片、声音及文字间进行知识的迁移与变换,从而完成更为复杂的创意工作。

VideoPoet的主要功能

VideoPoet的工作机制

  • 多种类型数据的综合处理VideoPoet具备接受并解析多种类型的数据输入的能力,包括但不限于图片、视频片段、文字以及声音波形。各类数据经由专门设计的分解单元转化为独立的小单位或称作标记(token),随后这些标记会被系统进一步处理和分析。
  • 解码结构设计VideoPoet运用了仅含解码器组件的Transformer架构设计。这种结构常见于自然语言处理领域,而在VideoPoet项目里被进一步应用于视频创造的任务上。通过输入一系列标记,该解码器能预测出相应的输出序列,在生成视频的过程中即表现为能够连续产出帧图像。
  • 预先训练及任务适配VideoPoet的培训过程包含两个步骤。首先,在初步训练期间,该模型利用一系列多模态创作目标在一个自回归变换器架构中进行磨炼,从而建立起一个能够胜任各类视频制作工作的坚实基础。随后,在特定任务调优阶段,经过初步训练的模型可以被进一步调整优化,以提升其在具体应用中的表现或是使其掌握新的工作能力。
  • 多种类型的词汇集合为应对多种类型的数据输入,VideoPoet开发了一套综合性的多模态符号系统。这套符号系统涵盖了图象、影片及声音的相关标签,使该模型具备了理解与创造跨越不同媒介内容的能力。
  • 自动回溯创造VideoPoet利用自回归技术来创建视频,确保每新增一帧都基于前序所有帧的内容进行处理。这种做法能够有效维护视频整体的流畅度和统一性。
  • 超高解析度组件为提升视频输出的质量与清晰度,VideoPoet集成了一个特定的空间超分辨率(SR)转换器组件。该组件基于语言模型的结果运行,利用局部窗口注意机制优化了处理速度,进而生产出更为精细的画面解析度视频内容。
  • 无样本视频创作VideoPoet体现了其在未接触过具体的数据类型前仍能有效处理全新文本、图像和视频内容的能力,这一特性称为零样本视频创作,展示了该模型出色的泛化性能。
  • 任务顺序执行因为VideoPoet在预训练期间掌握了多项任务的技能,它可以灵活地把这些技能串联起来,从而完成一些并未在其培训过程中特别教导的新颖任务,比如进行视频剪辑与风格转换。
© 版权声明

相关文章