港中文携手腾讯等机构开发的多提示视频生成技术 — DiTCtrl

AI工具2年前 (2025)发布 ainav

262 0 0

DiTCtrl指的是什么？

DiTCtrl是一种利用多模态扩散变换器（MM-DiT）架构来实现多重文本指令下无缝视频创作的技术方案，由香港中文大学和腾讯等研究机构共同研发。该方法能够在无需额外训练的前提下，确保多个文字指引下的视频内容连贯一致，并且动作流畅自然。通过分析MM-DiT中的注意力机制，DiTCtrl采用了键值共享与潜在空间混合的策略来实现不同文本提示间的顺畅过渡，从而提高了生成视频的整体质量和真实感。在最新的MPVBench基准测试中，DiTCtrl不仅保持了高效的计算性能，在多指令视频合成领域也达到了顶尖水平的表现力，展示了这一技术领域的显著进步。

DiTCtrl的核心作用

带有多个提示的视频创作DiTCtrl具备处理多种文本指令的能力，能够创建出流畅的视频内容，这对于展现现实中复杂且包含多重动作的场景尤为关键。
不需要进一步的培训不同于传统的视频生成技术，DiTCtrl能够在没有附加训练资料和计算资源的情况下创建视频，并支持基于多种提示进行零样本（zero-shot）视频生成。
顺畅衔接DiTCtrl能够确保在带有各种提示的视频片段间顺畅转换，维持视频的整体连贯性与视觉统一感。
精准的语义调控通过对MM-DiT注意力机制的研究和应用，实现对视频内容的精准操控，以保证生成的视频能够与文字说明高度一致。

DiTCtrl的核心技术机制

DI-TMM结构利用多模态扩散变压器（MM-DiT）框架，把文字与影像转换为一致的序列格式以执行注意力机制运算，从而高效地整合多种类型的数据信息。
对注意机制的解析对MM-DiT的三维全方位注意力机制进行了初步研究，结果显示它与UNet类型扩散模型里的跨通道/自我注意组件相类似，这为其在精准语义操控方面打下了坚实的基础。
键值共存模式通过运用键值(KV)共享技术，在各类提示的不同视频片段中实现注意力数据的互通，确保核心物体的意义连贯性。
可能的组合策略为了达到视频片段之间流畅转换的效果，DiTCtrl采用了潜在融合的方法，在相邻视频段落的交集部分运用了依据位置变化的加权算法，从而确保具有不同含义的部分能够无缝衔接。
基于掩码指导的注意力整合抽取指定目标的关注度遮罩，并利用该遮罩指导关注点整合，创建具有连贯性的新型提示关注特性。
MPVBench测试标准为了评测多提示视频生成的表现，我们制定了MPVBench标准，该标准涵盖了各种类型的过渡效果，并配备了特定的评价指标。