STIV – 苹果开发的视频创作大型模型

AI工具3个月前发布 ainav
72 0

STIV代表的是什么?

STIV(可扩展文本与图像条件下的视频生成模型)是由苹果公司开发的一款先进的视频生成功能模块。该模型配备有8.7亿个参数,并能够胜任从文本到视频(T2V)以及从图文组合到视频(TI2V)的转换任务。通过运用联合图本文本分类器自由引导(JIT-CFG),STIV进一步提升了其生成视频的质量。此模型依托于PixArt-Alpha架构,整合了时空注意力机制、旋转位置编码(RoPE)和流匹配训练目标等技术要素,从而大幅提高了视频生成的稳定性和处理效率。此外,STIV还能够广泛应用于多种下游场景中,比如视频预测分析、帧插值计算以及长篇幅视频创作等领域。

STIV

STIV的核心作用

  • 从文字转换为视频(T2V)及结合文图信息转化为视频(TI2V)的制作过程STIV具备通过文本指令或是融合文本与起始图像帧来创建视频内容的能力。
  • 多种模式条件下提供支持该模型能够根据文本和图像的条件来创建视频,从而提高生成的视频内容与给定条件之间的匹配度。
  • 预测视频内容该模型能够预测视频中的下一帧画面,广泛应用于自动驾驶技术和嵌入式人工智能等场景中。
  • 帧间差值通过在指定帧序列中插入额外的中间帧来增强视频的画面流畅性和连贯性。
  • 从多个角度创造通过变换单一角度拍摄的视频至多角度视图,提升影像的空间层次与现实体验感。
  • 制作长时间视频内容利用关键技术如关键帧预估与帧间插值方法,创造延长版的视频素材。

STIV的核心技术机制

  • 扩散变换器(DiT)采用DiT框架,能够高效地管理和分析时空信息。
  • 画面置换在培训期间,用无噪影像替代含噪的画面作为参照帧,以提升视频制作的精准度和连贯性。
  • 结合图像与文本的分类器自主导向(JIT-CFG)一项不依赖分类器指导的技术,通过调节文本与图像条件的权重来提升视频制作的质量。
  • 时间空间注意机制采用分解式的时空注意力方法,独立地优化空间与时间层面的特点,从而增强模型的表现力和效能。
  • 旋转变换位置编码(Rotary Position Embedding, RPE):通过提升对相对时空关系的处理能力,RoPE增强了模型在各种分辨率生成任务中的适应性。
  • 流量匹配的训练目的通过采用流匹配目标来取代常规的扩散损耗方法,能够促进更为高效的有条件最优传输方案的形成,并进一步增强生成效果的质量。

STIV项目的网址位置

  • HuggingFace的模型集合在Hugging Face的论文页面上可以找到编号为2412.07730的研究文档。
  • 关于arXiv的技术文章访问该链接以获取名为2412.07730的学术论文副本:https://arxiv.org/pdf/2412.07730

STIV技术的使用场合

  • 休闲与社交网络用户创作个性化视频,涵盖舞蹈表演、旅游见闻及日常生活片段,并在诸如抖音和Instagram这样的社交媒体平台进行发布。
  • 宣传与市场推广公司制作生动的广告短片,依据产品的独特特性和服务的优势迅速创造出引人注目的视觉内容,以增强广告的魅力并提升转换效果。
  • 教育培训教育组织制作教学影片,比如重现实验步骤或者历届大事,旨在给学员带来更为形象及参与感强的学术探索经历。
  • 资讯与报导媒体组织把新闻资讯改编成视频格式,高效地制作出可视化的新闻叙述,从而增强了信息传递的速度以及观众对内容的认知程度。
  • 自动驾驶技术及模拟测试自动驾驶科技企业创建多种路况的视频资料,用于检验与提升其驾驶系统在决策制定及应对上的效能。
© 版权声明

相关文章