阿里的AtomoVideo —— 一款卓越的图片转视频生成系统

AI工具3个月前发布 ainav
140 0

AtomoVideo指的是什么

AtomoVideo是一款由阿里巴巴研究团队开发的高度真实的图像转视频(Image-to-Video, I2V)创作系统,其目标是从单一的静态图片中创造出生动的高质量视频片段。此系统通过采用多层次的图像融合技术和优质的数据集和训练方案,确保了生成的视频能够忠实地反映原始参考图的同时,还具备动态效果丰富以及时间连贯性强的特点。

相比Runway Gen-2与Pika 1.0,AtomoVideo在维护图像细节、创造动态视频及实现个性定制和控制性生产上展现出一定的优越性。

AtomoVideo

进入AtomoVideo的官方网站入口

  • 该项目的官方在线地址为:https://atomo-video.github.io/
  • 在arXiv平台上发布的一篇学术文章:https://arxiv.org/abs/2403.01800

AtomoVideo的特色功能

  • 从高清图片转换为视频制作AtomoVideo具备将用户的静态图片转化为相匹配视频的能力,所创造的视频能在样式、信息及细微之处忠实再现原图特征。
  • 预测视频画面帧此框架能够生成长时间的视频序列,它利用逐步预测下一帧的方法,从一组起始帧出发创造出更为延长的视觉内容。
  • 时间和稳定性的统一性在制作视频的过程中,AtomoVideo强调时间上的顺畅与稳定连接,以保证观看体验中动作自然过渡,并避免任何突然跳跃或是画面断裂的情况发生。
  • 从文字转换为视频制作借助高级的文字转图像技术,AtomoVideo同样支持文字转视频的功能,让用户能够依据文字说明来引导视频内容的设计。
  • 定制化与可调控的创作借助个性化文本转图像模型及可控制的生成技术相结合的优势,AtomoVideo能依据用户的具体要求制作出量身定做的视频素材。

AtomoVideo的操作机制

  1. 整个过程AtomoVideo 以预训练的文本转图像(T2I)模型为根基,在每个空间卷积与注意层次之后嵌入新的时间一维卷积及时间注意力组件。在培训期间,仅对新增的时间层和输入层进行参数更新,而T2I模型的参数则保持不变。
  2. 图片数据嵌入为了确保在生成视频时保持与输入图片的一致性,AtomoVideo 在两个特定点融入了图片信息。首先,利用VAE编码器将输入的图片转换为低级表达形式,并将其同高斯噪声相融合。同时,借助CLIP图像编码器获取该图像的高级语义特征,并通过交叉注意力机制将其嵌入到生成流程中。
    AtomoVideo的工作原理
  3. 预测视频画面帧为生成长时间段的视频内容,AtomoVideo运用了递归式的预估技术。基于一段起始视频图像序列,该系统能够推测后续的画面帧。这样的方法确保了即便是在受到GPU存储限制的情况下,也能制作出较长时序的视频片段。
  4. 培训与推断于训练期间,AtomoVideo利用了一个内部规模约15M的数据集进行学习,该数据集中每个视频片段时长约为10至30秒,并将相应的文字描述一并输入模型中。为了增强视频产出的质量和一致性,在训练环节引入了零端信噪比(SNR)及v-预测策略。此模型处理的图像分辨率为512×512,涵盖24个帧数。当进入推理阶段时,则采取分类器自由引导技术,同时融合视觉与文本条件输入的方式以确保生成结果的一致性和可靠性提升。
  5. 定制化视频创作AtomoVideo在培训过程中保持了基础2D UNet参数的不变性,并仅对新增加的部分进行训练,这使其能够与社区内的个性化模型无缝集成。举例来说,它可以同epiCRealism这类擅长创造光影效果的文本到图像(T2I)模型结合,在处理图像转视频(I2V)任务时生成富含光感元素的影片内容。
© 版权声明

相关文章