中科大与浙大合作开发的个性视频创作平台 – CustomVideoX

94 0 0

CustomVideoX指的是什么

CustomVideoX 是由中科大和浙大等机构共同研发的一款创新个性化视频生成系统，能够根据提供的参考图像及文本描述来创建高质量的定制化视频内容。该系统采用基于视频扩散变换器（Video Diffusion Transformer）的技术架构，并通过零样本学习方式专注于训练LoRA参数以捕捉参考图像的关键特征，从而高效地实现个性化的视频创作。CustomVideoX 的关键技术组件包括：三维参考注意力机制，能够使参考图像的特征与视频帧在空间和时间维度上直接互动；时序感知偏差（TAB）策略，通过灵活调节参考信息的影响来提升生成视频的时间连续性；以及实体识别增强模块（ERAE），利用语义对齐技术强调关键区域。这些创新有效解决了传统方法中常见的时空一致性不足及质量下降问题。

CustomVideoX的核心特性

定制化视频创作：借助CustomVideoX，用户能够依据所提供的参照图片及文字说明创建出精确匹配的视频片段。该工具确保所产视频既贴合文描又兼顾了原图的具体元素。
具有高度忠实性的参照图片整合利用3D参照注意机制，CustomVideoX实现了参考图片特性与视频帧在时空上的流畅互动，保证了所生成视频内容符合文字说明，并且每帧画面都能保留参照图的主要特性和细微之处。
时间流畅性提升CustomVideoX 采用了时间敏感的注意力偏移（TAB）方案，通过对各时间段内参照特性影响的灵活调节，提升了生成影片的时间流畅度。这一创新有效解决了常规技术经常出现的画面跳帧或连贯性差的问题。
重点区域强化借助实体区域感知增效（ERAE）组件，CustomVideoX 可以检测并提升视频内符合文字说明的核心部分的视觉效果。

CustomVideoX的运作机制

三维参照注意机制利用3D因果变分自编码器(3D Causal VAE)处理参照图片的编码工作，并使其特性能够与视频帧在时间和空间层面实现无缝对接，以保证所生成的每一张视频画面都能够忠实再现参照图的主要特性和细微之处。
时间认知偏误注意力效应(TAB)于扩散模型中的降噪流程里，利用抛物线型时间遮罩对参照特性的重要性进行动态调控。初始时减少这些参照特性的影响力，在过程的核心部分则加大其作用，并在最终环节重新减小影响程度，以此来提升生成视频的时间一致性和视觉效果。
实体空间识别强化（ESRI）通过对文本说明里重要对象激活程度的分析，来辨识并突出视频内相关联的部分，并进行意义匹配强化处理。这种方法着重强调了特定对象的同时维持了背景内容的丰富性，从而增强了生成影片的意义连贯性和真实感。
无样本培训及LoRA参数调优通过专注于调整少量LoRA参数以捕捉参考图片的特点，这种方法规避了传统微调技术可能导致的效果退化问题，并且还维护了原始预训练模型的完整结构，从而简化了整体的学习过程难度。
高水准的数据集合及标准评估研究人员创建了一个高品质的专业视频数据集合，并推出了VideoBench评测系统，旨在提升和检验模型的应用广度与效能。