StoryDiffusion —— 开源的用于创建一致图像与视频序列的人工智能平台

195 0 0

StoryDiffusion指的是什么？

StoryDiffusion是一款尖端的AI图像与视频创建框架，旨在根据文字描述产出一致性的影像序列及影片片段。它通过采用Consistent Self-Attention机制来提升各幅图像间的一致性水平，在角色身份和着装细节等方面保持连贯性表现。该系统还配备了一个名为Semantic Motion Predictor的新模块，能够在语义层面预测图像间的运动变化趋势，从而生成流畅且统一的视频内容。StoryDiffusion能够将文本叙述转换为视觉表达形式，如漫画或影片，并增强了用户通过文字提示来调控输出结果的能力。这一技术革新了视觉故事创作的研究领域，并开辟了新的内容制作途径。

StoryDiffusion的核心特性

一致性的图片创造：通过文字描绘出与叙述相匹配的画面，适用于叙述性和 storytelling 场景。
制作延长版视频把图片转变成一段拥有流畅变换及统一主题的视频。
由文本引导的内容管理允许用户依据文字提示来调控生成的图象与视频的内容。
未经过培训的组件整合：可以不经训练直接将Consistent Self-Attention模块融入至已有的图像生成模型之中。
滚动视窗适用于连载小说滑动窗口技术能够实现对长篇文字叙述的画面创作，且不受到输入字数的约束。

StoryDiffusion的核心技术机制

统一自注意力机制（Unified Self-Attention）在执行自注意力计算时，加入来自其他图片的令牌，以提升多图之间的统一性。
语义动作预报模型(Semantic Action Forecaster)利用预先训练好的图像编码模型，把图片转换至语义领域，并推测出中间帧的动作前提。
Transformer架构的预报在语言的维度里，运用Transformer架构来预报一连串的过渡帧。
视频传播模型利用从预测中获得的语义空间矢量作为指导指令，通过视频扩散模型将其转换为最终的视频画面。
随时可用，无需预先训练：在Consistent Self-Attention模块中，现有自注意力的权重被重复利用，并且不需要进行附加的培训。

StoryDiffusion项目的仓库位置

官方网站项目：在网站storydiffusion.github.io上可以找到相关内容。
Git存储库：在GitHub上可以找到HVision-NKU团队的项目页面，网址是https://github.com/HVision-NKU/StoryDiffusion
关于arXiv上的科技文章该论文的详情可在以下链接中找到：https://arxiv.org/pdf/2405.01434，探索了相关领域的最新研究成果。