魔法1比1 – 北京大学、英伟达等机构开发的高效率视频制作模型

AI工具1年前 (2025)发布 ainav

378 0 0

Magic 1-For-1指的是什么？

Magic 1-For-1是一款由北京大学、Hedra Inc. 和 Nvidia 共同研发的高性能视频生成工具，专注于通过减少内存使用和缩短推理时间来快速创建高质量的视频片段。该模型把复杂的文本转视频过程细分为两个相对简单的子步骤：文本至图像转换与图像至视频合成。借助扩散步长蒸馏技术，Magic 1-For-1极大地提升了收敛速度，并利用结合了文字和视觉元素的多模态输入来增强生成影片的质量及其语义连贯性。此外，通过模型量化方法将原32GB大小压缩到16GB，使该工具能够在消费级GPU上高效运作。

Magic 1-For-1的核心特性

有效创建能够在极短的时间内创作出高品质的视频剪辑。比如，只需3秒钟就能制作出一段5秒长的视频，而一分钟长度的视频则可以在大约60秒之内搞定。
制作高清晰度的视频内容通过改进扩散过程并利用多种类型的输入数据，所创建的视频在画面清晰度、动作流畅性以及内容逻辑统一性上均有卓越表现。
较少的资源占用通过应用模型量化技术，成功地将所需内存从32GB压缩至16GB，从而使该模型能够在普通消费者级别的GPU设备上实现高效的运作。
具备高度的灵活度提供丰富的创作模式选择，涵盖从文字转换成图片以及将图片演变成视频的功能，能够依照用户的特定要求产出形式多样的视频作品。

魔术般的1比1技术机制

工作拆分把繁复的文本转换成视频的任务细分为两项更为基础的工作：从文字转化为图片(T2I)以及将图片转变为视频(I2V)，这样可以使得整个生成流程更加简洁，并有利于提升模型的学习效率及性能调优空间。
传播模型及传播过程的精炼通过应用扩散模型来创建视频，并采用类似DMD2的蒸馏技术以缩短生成过程中的步数组合。
多种形态的输入形式通过融合文本与视觉元素（例如参照图片）作为引导信号，提升模型对内容含义的理解及创作效能，确保所创建的视频能够更精准地反映文字叙述与参照图片中的意义细节。
模型改进及精简运用诸如INT8量化的模型量化方法来降低模型所需的存储空间，并通过采用优化训练方案（例如CFG精炼）以增强模型的推断性能。
滚动窗口方法采用滑动窗口方法逐段创建长视频内容，既保证了效率又增强了整个视频的品质与流畅度。

魔术1换1项目的网址

官方网站项目页面访问此链接以查看Magic 1 For 1项目: https://magic-141.github.io/Magic-1-For-1/
Git存储库：在GitHub上可以找到由北京大学数据挖掘小组维护的项目页面，链接如下所示——https://github.com/DA-Group-PKU/Magic-1-For-1
关于arXiv上的科技文章在学术论文数据库中可以找到编号为2502.07701的文件，具体链接如下所示：https://arxiv.org/abs/2502.07701