6月4日讯,科技媒体The Decoder昨日发布博文称,谷歌DeepMind团队与布朗大学合作,在视频生成模型中引入”力提示”技术。这项创新无需依赖复杂的3D建模或物理引擎,即可生成高度逼真的运动效果。
通过”力提示”技术,用户只需指定力量的方向和强度,就能直接控制AI生成的视频内容。该技术支持两种主要的施力方式:全局力(如模拟风吹过整个场景)和局部力(如特定点的敲击或推动)。这些力以矢量场的形式输入系统,并通过算法转化为连贯自然的运动轨迹。
研究团队基于CogVideoX-5B-I2V视频生成模型,引入ControlNet模块来处理物理控制数据。借助Transformer架构,该系统能够高效地将输入的力信息转化为高质量的视频输出。每段视频包含49帧,训练过程仅需4台Nvidia A100 GPU即可在一天内完成。
在物理概念的融入方面,该系统采用了创新性的处理方式。通过结合文本描述和多样化策略(如改变光照条件或运动速度),模型能够更好地理解并应用物理规律。这种多维度的控制机制显著提升了生成视频的真实感和准确性。
实验评估显示,在复杂场景下的表现仍有提升空间。尽管”力提示”技术在运动匹配度和真实感方面已超越现有基准模型(如PhysDreamer),但在处理烟雾与风力的相互作用以及人体动作细节时,仍存在一些不自然的现象。
DeepMind首席执行官Demis Hassabis近期指出,新一代AI视频生成技术(如Veo 3)正在逐步突破传统限制,开始理解并应用物理规律。他认为这标志着AI向更通用化方向发展的重要一步,并展望未来AI将能够通过模拟环境中的经验学习来提升能力。
相关参考链接
-
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals 论文地址
-
Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals GitHub地址