智谱最新发布的开源AI视频创作模型——CogVideoX v1.5

AI工具3个月前发布 ainav
124 0

CogVideoX 版本 1.5 是什么?

最新发布的CogVideoX v1.5是由智谱开发的一款开放源代码的AI视频生成软件。该版本提供了两个模型选择:CogVideoX v1.5-5B和专用于图像转视频的CogVideoX v1.5-5B-I2V。其中,标有“5B”的模型能够创建时长在5到10秒之间、分辨率为768P且帧速为每秒16帧的视频片段;而I2V版本则具有处理各种尺寸和比例图像转换成视频的能力,并且未来将与即将启动内测阶段的CogSound音效系统集成,实现自动化的背景音乐生成。此模型在提升视觉效果、美学呈现以及动态合理性和复杂场景理解方面展现出了显著的进步。智谱AI已经将其开源,在GitHub上可以找到相关的源代码资源。

CogVideoX v1.5

CogVideoX 版本 1.5 的核心特性

  • 高质量视频制作能够创建时长10秒、分辨率为4K且帧率达到60fps的极清影片,确保用户享受卓越的画面质量。
  • 任何大小的比例I2V(图像转视频)模型能够生成各种尺寸比例的视频,适用于多种播放环境。
  • 制作视频的能力CogVideoX v1.5-5B致力于将文字说明转化为视频(Text-to-Video),能够依据用户的文字指引创建匹配的视觉内容。
  • 多个输出途径使用相同的命令或图像能够批量生产多段视频,大大提升了创作的自由度。
  • 配有声音效果的人工智能视频通过融合CogSound音效技术,可以创造出与视觉场景相协调的声音效果,从而增强视频的综合感官体验。
  • 提高由图像生成的视频的质量在生成图像的视频质量、审美呈现、动作合理性和对复杂指令语义的理解上有了明显提升。

CogVideoX 版本 1.5 的技术机制

  • 数据过滤及强化由于提供的内容仅有冒号,并没有实际的文字信息需要进行伪原创的改写,所以无法完成此项请求。如果有具体的文本内容,请提供,我将会按照要求对其进行相应的处理。
    • 自动化的选择架构构建自动化的筛选系统来排除不具备动态连接特性的视频资料,以增强训练素材的整体质量。
    • 全程视频解析模型利用CogVLM2-caption模型来创建精确的视频内容说明,以增强对文本的理解和执行指令的能力。
  • 三维变异自动编码器(3D VAE)请提供需要伪原创改写的内容。由于您当前的消息没有包含具体文本,我暂时无法完成这个请求。如果有具体的段落或句子,请告诉我,我会帮助你进行相应的修改。
    • 视频资料的压缩处理利用3D变分自编码器把视频资料的大小缩减到初始体积的2%,从而减少训练开支并简化训练过程。
    • 基于时间的因果卷积结构运用基于时间因果关系的卷积平行处理技术来提升模型在转换分辨率方面的效能,并加强其在时间轴上各序列间的独立特性。
  • 基于Transformers的模型结构请提供需要改写的具体内容。由于您未给出具体文字,我暂时无法完成此请求。一旦提供了详细信息,我很乐意帮您进行伪原创的改写工作。
    • 三个层面的整合我们独立研发的框架整合了文本、时间及空间三个层面的信息,并去除了传统上的交叉注意力组件,以增强文字与影像内容之间的互动效果。
    • 三维全方位关注模型采用3D全方位注意力机制,以减小视觉数据隐形传输的影响,并简化模型结构。
  • 三维旋转位置嵌入(3D RPE):利用3D RoPE增强模型识别视频中帧与帧之间的时间关联性,并构建更持久的序列依赖关系。
  • 扩展模型的培训架构请提供需要改写的具体内容。没有给出具体的文本,所以我无法完成您的请求。如果您能提供原文,我就能帮您进行伪原创的改写工作了。
    • 迅速培训创建一个能够高效训练扩散模型的框架,通过运用并行处理技术和时间效率提升方法,加快长时间视频序列的学习过程。
    • 生成任意尺寸的视频内容参考NaViT技术方案,该模型能够适应各种分辨率与长度的视频需求,不需要进行修剪操作,从而防止了因修剪而产生的误差。

CogVideoX 版本 1.5 的项目链接

  • Git存储库:访问该项目的GitHub页面可以使用这个链接 https://github.com/THUDM/CogVideo 。
  • HuggingFace的模型集合:访问链接 https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT 以了解 CogVideoX1.5-5B 相关信息。

应用场景示例:利用CogVideoX v1.5的多种情况

  • 创作内容创作定制的短片素材,适用于社交网络分享,并在影片及录像制作过程中创造特殊效果片段或是预告视讯。
  • 宣传与市场推广依据产品的独特属性迅速制作出引人注目的视频宣传短片,以增强广告的魅力并提升转换效率。针对不同的受众群体制作个性化的视频素材,达成精确市场定位。
  • 学习与培养制作教学视频,助力学生更清晰地掌握复杂的概念与理论知识。
  • 娱乐与嬉戏创建动感的背景视频和故事情节动画以增强游戏的乐趣与沉浸感。
© 版权声明

相关文章