开放版Sora —— 类似Sora结构的开源视频生成模型与实现方案

AI工具3个月前发布 ainav
117 0

Open-Sora指的是什么

Open-Sora是一款由Colossal-AI团队公开发布的视频制作软件,其目标是模仿OpenAI推出的Sora视频创作工具。该程序采用了DiT架构,并通过分三个阶段进行训练:首先是大规模图像预处理,接着是大量的视频数据预训练,最后是对高质量的视频内容进行精细调整,从而创造出与文本说明相匹配的视觉输出。此开源项目全面覆盖了从数据准备到模型调优的所有步骤,并公开所有相关的技术细节和检查点信息,供那些对基于文本生成视频的技术感兴趣的开发者免费研究和应用。

Open-Sora

访问Open-Sora的官方网站入口

  • 官方网站地址:https://hpcaitech.github.io/Open-Sora/
  • Git仓库地址:https://github.com/hpcaitech/Open-Sora

Open-Sora的系统结构

Open-Sora框架运用了广受认可的扩散变换器(DiT)结构,借鉴了华为开放源代码项目中的高精度文本转图像工具PixArt-α,并且引入了一个时间注意力模块来增强其功能,使之能够生成视频内容。具体的实现方案包括如下要点:
Open-Sora的架构

关键部件

  • 预先训练好的变分自动编码器(VAE):作为数据压缩工具,VAE将输入的视频信息转换为潜在空间中的低维表达形式。在Open-Sora框架里,VAE的编码器模块于训练期间负责压缩视频内容;进入推理阶段时,则从该潜在空间抽取高斯噪声以生成视频输出。
  • 文本编译器该模块的任务是把文字提示(例如描绘视频场景的文字)转化为文字嵌入形式,并将其与视频信息融合,以此保证最终产生的视频能够准确反映文字说明的内容。
  • STDIT (Space-Time Diffusion Transformer)这是Open-Sora的关键部分——一个采用时空注意机制的DiT模型。STDiT通过依次将一维的时间关注模块加在二维的空间关注组件上来捕捉视频资料里的时间序列联系,并且还使用了跨模态注意力模块来匹配文本的意义内容。

系统构建规划

  • 时空注意机制在STDiT模型中,每层结构均集成了用于分析的空间注意组件以及负责序列关联的时间注意单元。其中,空间注意机制专注于解析每一视频帧内的二维图像特性;相对地,时间注意力部分则侧重于捕捉不同帧间的动态联系。这样的架构设计确保了该模型能够在处理视频信息时同时兼顾其空间布局和时间演变的特征维度。
  • 互交关注点经过时间注意力模块处理后,通过交叉注意力机制整合文本嵌入和视频特征,以保证最终生成的视频内容能够准确反映相应的文字说明。
  • 培训及推理解释过程于训练过程中,编码器组件负责压缩视频资料,并结合文字嵌入数据来优化STDiT模型的学习效果。当进入推理环节时,则是从VAE潜在空间中提取噪声样本,与特定的文字提示合并后输入至STDiT模型内,以此生成清除噪点后的特征信息;最终经由解码器处理,重构出完整的视频输出。
    Open-Sora模型训练过程

Open-Sora的再现方法

参考了Stable Video Diffusion (SVD)的工作方法,Open-Sora的设计包含三个培训步骤:大规模图像预训练、基于大量视频的数据预训练以及使用高质视频数据进行微调。依照这一系列的培训流程,Open-Sora模型逐渐增强了其生成视频的能力,从最初的图像识别逐步发展到能够创建复杂且高质量的视频内容。

初始阶段:广泛图片初步训练

于初始阶段,该模型借助海量图片数据库进行初步训练,旨在构建对图像信息的基本认知能力。此步骤的核心目标是采用成熟的高质量影像创建算法(例如Stable Diffusion)作为起点来设定视频生成架构的参数初值。如此操作能使系统有效汲取图像中的视觉特性精华,从而为后续的视频模型培训奠定稳固基石。

第二阶段:海量视频的前期训练

在第二轮中,重点是通过大量视频资料对模型进行预训练,旨在提升其理解视频时空连续性的能力。此过程中,利用丰富多样的视频内容来教导模型识别时序关系及动态模式的变化至关重要。同时,在这一环节引入了时间序列注意力机制以优化处理时间相关数据的效果。该阶段的培训将基于首个阶段的结果继续推进,并以其权重作为初始值进行调整和深化学习。

第三个阶段:对高清晰度视频资料进行精细调整

最终一步是对模型实施微调,通过采用高质量的视频资料进一步增强所产生视频的真实度与品质。尽管此阶段运用的视频数量可能少于前一阶段,但这些视频在时长、分辨率及质量方面都将更为出色。这一精细调整过程能够使模型更好地把握细节和真实性,进而创造出更贴近用户期待的视觉内容。

© 版权声明

相关文章