FlexiAct是什么
FlexiAct是由清华大学与腾讯ARC实验室联合开发的创新动作迁移模型。该模型能够基于目标图像将参考视频中的动作精准迁移到目标主体上,在面对空间布局差异显著或跨领域异构场景时,依然能保持动作适配和外观的一致性。通过引入轻量级的RefAdapter模块和频率感知动作提取(FAE)模块,FlexiAct有效克服了现有技术在人物姿势、视角变换以及骨架结构差异等方面的限制,实现了身份与动作的完美结合。该技术不仅适用于人类之间的动作迁移,在动物动作迁移方面也展现出色性能,具有广阔的应用前景。

FlexiAct的核心功能
- 跨主体动作迁移: 支持从人物到人物、人物到动物的动作迁移,突破传统技术的迁移边界。
- 外观一致性保障: 在动作迁移过程中,确保目标主体的外在特征(如服装、发型等)与原始目标图像保持高度一致。
- 空间结构灵活适配: 针对参考视频和目标图像之间的布局差异、视角变化及骨架结构差异,提供智能化的解决方案,实现自然流畅的动作迁移效果。
FlexiAct的技术架构
- RefAdapter(空间结构适配器): 这是模型中的轻量级图像条件适配模块。通过随机选取视频帧作为训练条件,最大化地处理空间结构差异问题。该模块使模型能够适应不同姿态、布局和视角的变化,同时保持目标主体的身份一致性。创新性地引入少量可训练参数(如LoRA模块),在CogVideoX-I2V的MMDiT层中实现灵活的空间适配,避免传统方法中的过度约束问题。
- 频率感知动作提取(FAE): 这是模型的核心动作提取模块。与传统依赖独立时空架构的方法不同,FAE直接在去噪过程中完成动作特征的提取。通过分析去噪过程中的时间步特征,发现模型对运动信息和外观细节的关注存在动态变化:早期时间步更关注运动信息(低频),而后期时间步则更关注外观细节(高频)。基于此,FAE设计了动态调整注意力权重机制,在关键时间点优先捕捉运动信息,同时在后期注重保持动作的外观细节,实现精准的动作控制和迁移。
FlexiAct项目资源
- 官方网站: 访问官网了解更多详情
- 开源仓库: 在GitHub上查看项目代码和文档
- HuggingFace页面: 访问HuggingFace模型库获取预训练模型
- 技术论文: 阅读详细技术内容可参考arXiv论文:点击此处查看
FlexiAct的应用场景
- 影视制作: 在无需真人拍摄的情况下,实现复杂动作的数字化迁移,降低影视制作成本。
- 动画创作: 为角色设计提供高精度的动作参考,提升动画制作效率和质量。
- 教育培训: 用于体育训练、舞蹈教学等领域,帮助学习者更直观地掌握专业动作技巧。
- 虚拟现实: 在VR/AR应用中实现更加自然流畅的交互体验,提升用户体验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。