港中文与清华等机构共同研发的可控制角色视频生成系统AnyCharV

73 0 0

AnyCharV指的是什么

AnyCharV是由香港中文大学、清华大学深圳国际研究生院以及香港大学共同研发的一款角色可控的视频合成系统，该系统能够将任意参考人物图像与指定驱动视频相融合，从而制作出高质量的人物视频内容。此框架采用了分阶段训练的方法来实现从精细到粗略的引导效果：首先，在第一阶段中使用细粒度分割掩模和姿态信息进行自我监督下的综合处理；接着在第二阶段通过自增强学习以及应用较粗糙的掩码来优化角色细节，确保其得到妥善保留。实验表明，AnyCharV具备卓越的表现力，不仅能自然地保持人物外观上的细腻特征，并且能够支持复杂的人物与物体互动及背景融合操作。此外，该系统还拥有良好的泛化性能，可以同文本转图像（T2I）和文本转视频（T2V）生成的素材相结合使用。

AnyCharV的核心特性

任何人物与特定背景的融合把指定的人物图片和目标引导的视频结合起来，创造出既真实又高质的视觉内容。
精细保存角色的高清晰度特征利用自我强化学习及粗略遮罩指导技术，确保人物形象与细微特征得以保存，并防止图像畸变。
在多变的环境里实现人物与物体间的互动操作：该功能允许角色在多样且复杂的环境中实现流畅的互动体验，包括动作执行和物品操控等方面。
支持多样化的输入形式通过整合文本至图像(T2I)与文本至视频(T2V)模型所创建的内容，展现了卓越的广泛适用性。

AnyCharV的核心技术机制

初始阶段通过自监督合成及精细化引导技术，利用目标人物的分段遮罩与姿态数据作为指引信息，精准地将参照人物嵌入至预定场景内。结合参考图像中的CLIP特征和ReferenceNet所提取的人物外观特性，确保角色的身份与外貌得以保留。对分割遮罩实施高强度增强处理，以减轻由于形状不一致引发的细节损失问题。
第二个阶段通过采用自增强训练及利用粗糙边界的引导方法处理生成视频对时，以较为宽松的边界框遮罩替代精细分割遮罩来减轻对于人物形态的具体限制。这种方法使得模型能够更加有效地保持参照对象的特点，并在推断过程中创造出更为逼真的视频效果。

AnyCharV项目的网址

官方网站项目：访问此网址以获取更多信息：https://anycharv.github.io/
Git代码库：在GitHub上的用户AnyCharV发布了名为AnyCharV的项目，地址是https://github.com/AnyCharV/AnyCharV。
arXiv科技文章在该链接中所指向的文档是一个学术论文，具体位置位于arXiv数据库内，其编号为2502.08189。这篇论文包含了作者对于某一特定研究领域的深入分析与探讨。