Adobe与德克萨斯大学联合推出视频生成模型

77 0 0

什么是Self Forcing技术

Self Forcing是一项由Adobe Research与德克萨斯大学奥斯汀分校联合开发的创新性自回归视频生成算法。该技术通过模拟真实的视频生成过程，在训练阶段就采用自生成的帧作为条件来预测下一帧，从而有效解决了传统生成模型在训练和测试阶段之间的分布差异问题。

Self Forcing的核心理念在于”以假乱真”：它不再依赖真实视频中的帧来进行训练，而是通过模拟生成过程让模型学习如何根据前一时刻生成的画面内容来预测下一时刻的画面。这种独特的训练方式使得模型在实际应用中能够保持高度的稳定性与一致性。

此外，Self Forcing引入了创新性的滚动KV缓存机制，这不仅使视频生成长度理论上可以无限延长，并且在硬件资源占用方面表现优异。基于单个H100 GPU，该技术可实现每秒17帧的实时生成能力，延迟控制在一秒以内。

高效实时生成能力： Self Forcing实现了显著的性能突破，在单GPU环境下就能达到17 FPS的实时视频生成效果，满足直播、游戏等实时应用的需求。
无限长度支持： 通过滚动KV缓存机制，Self Forcing成功克服了传统模型在处理长视频时遇到的内存瓶颈问题，可生成长度不受限制的连续视频流。
自适应训练机制： 在训练过程中，Self Forcing采用创新性的自回归模拟策略。它不依赖真实帧作为条件，而是使用之前生成的虚拟帧来预测下一帧，这种方式有效弥合了训练与测试阶段的分布差异。
低资源消耗： 该技术优化了计算资源利用率，在单张RTX 4090显卡上即可支持流式视频生成。这种高效的资源管理使得普通设备部署成为可能。
多模态创作支持： Self Forcing的高效性和实时性使其在多个领域展现出广泛的应用潜力，包括游戏直播中的虚拟背景生成、在线教育中的动态交互内容创建等场景。

自回归展开机制： Self Forcing采用独特的递归式生成方法。在训练阶段，模型每一步的输入都是上一帧预测的结果，而不是真实视频中的帧。这种设计使得模型能够直接从自身的预测中学习和改进。
整体损失监督： 与传统的逐帧损失计算不同，Self Forcing采用视频级别的整体分布匹配损失函数。这种方式能够更全面地评估生成序列的质量，帮助模型同时优化整个视频的连贯性和一致性。
滚动缓存机制： 通过引入创新性的KV缓存技术，Self Forcing实现了内存的高效管理。这种机制不仅降低了显存占用，还支持了超长视频的连续生成需求。

总体而言，Self Forcing在视频生成领域实现了多项技术创新，特别是在解决自回归模型的暴露偏差问题方面取得了重要突破。这一技术为实时视频生成、虚拟现实、增强现实等领域带来了新的可能，未来有望成为多模态内容创作的重要工具。