如意 – 图森未来开发的图像生成视频大型模型

AI工具3个月前发布 ainav
117 0

如意是指什么

Ruyi是由图森未来研发的一款专门用于生成图像视频的大模型,特别优化以适应消费级显卡的性能需求。它支持多种分辨率及时长的视频创建,并拥有包括首帧和末帧控制、运动幅度调节以及镜头管理在内的多项功能特性。该模型采用DiT架构构建,由Casual VAE组件与Diffusion Transformer构成,主要用于处理视频数据的压缩与生成任务。Ruyi能够显著缩短动画和游戏内容制作的时间及降低其成本,因此成为ACG社区内创作者们的理想选择工具。图森未来现已正式开放了Ruyi-Mini-7B版本的源代码供公众使用。

Ruyi

如意的核心用途

  • 多种分辨率与时间段的生成能力Ruyi能够生成分辨率为最低384×384至最高1024×1024的视频,并且可以适应各种不同的纵横比例,最多可创建包含120帧或持续时间为5秒钟的影片。
  • 初始帧与结尾帧的生成管控利用不超过5个初始画面与不超过5个终止画面来创建视频,并通过循环叠加的方式制作出任意时长的视频内容。
  • 运动范围调控配备四种级别的运动范围调节功能,让用户能够轻松调整整个画面的变动强度。
  • 摄像机操控增加了包括向上、向下、向左、向右移动以及保持不动在内的五种视角操控选项,提升了视频创作的灵活度。

如意的核心技术机制

  • 框架设计如意采用的是结合了Transformer的扩散模型(DiT)结构,该模型分为两个主要部分。
    • 轻松版VAE组件承担视频资料的压缩与解码任务。
    • 扩散变压器:承担已压缩视频的制作工作。
  • 压缩及编码处理在Casual VAE单元中,空间解析度被缩减到原来的八分之一,时间解析度则降低为四分之一,在此之后的每一个像素点都将采用16位的BF16格式来表达。
  • 地点编码在DiT组件中采用3D全注意力机制,并通过2D的RoPE(旋转式位置嵌入)来进行空间上的定位处理,而在时间维度则运用正弦余弦函数来实现位置编码。
  • 调整学习误差指标在训练过程中,采用了DDPM(去噪扩散概率模型)来优化最终的损失函数。
  • 模型的参数数量及其训练所用的数据集大小该模型拥有大约7.1亿个参数,并通过利用近2亿个短视频进行了训练。
  • 在培训期间该训练过程包含四个步骤,由初始的低分辨率前期学习过渡至高分辨率精细调整,循序渐进地优化模型的表现能力。

Ruyi的工程链接

  • Git代码库:在GitHub上可以找到由IamCreateAI创建的Ruyi-Models项目,链接如下所示。
  • HuggingFace的模型集合访问该链接以查看IamCreateAI创建的Ruyi-Mini-7B模型详情:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

Ruyi的使用情境

  • 动画预设迅速创建动画人物与背景的活动展示,审查动画构思及情节发展。
  • 生成游戏过场动画在游戏中实现自动创建宣传视频或是生成动态的背景画面。
  • 电影视觉效果展示在影片创作过程中,协助导演及视觉效果小组提前查看特技画面,以改进后续的视觉效果处理工作。
  • 数字主持人创建用于直播、新闻报道及线上教学的虚拟主播动态影像。
  • 社交平台信息制作引人注目的动态视频以增强社交媒体平台上的用户互动性和品牌可见度。
© 版权声明

相关文章