中科院与腾讯合作开发的AI虚拟主播营销视频生成技术——AnchorCrafter

AI工具3个月前发布 ainav
233 0

AnchorCrafter指的是什么?

AnchorCrafter是一款利用扩散模型的智能系统,专长于自动生成高质量主播风格的产品推广视频。该系统通过整合人-物互动(HOI)到姿态引导的人体视频生成过程中,实现了对物体外观及运动的高度精准控制,并有效管理了复杂的人物与物体交互场景。采用HOI-appearance perception和HOI-motion injection技术以及HOI-region reweighting loss训练目标,AnchorCrafter加强了细节学习能力,确保在视频制作中人物的外观和动作保持一致性和连贯性。此系统不仅提高了物体外观保真度、增强了互动感知效果,并且提升了整体视频质量,在线广告与消费者参与领域因此迎来了新的可能。

AnchorCrafter

AnchorCrafter的核心特性

  • 高品质影像创作生成具有高度真实感的主播特色商品宣传视频。
  • 物体与人类互动(HHI)整合在视频中自然而然地加入人与物的互动,以增强其真实性和参与感。
  • 外貌维持保证视频中的物品细节清晰可见,并且能够确保从各个角度查看时其外观的一致性和准确性。
  • 运动调控确保物体运动路径的精准调控,并使之与人物的动作和谐同步。
  • 遮挡处理机制在处理人物和物体互动过程中的遮挡情况时,确保视频流畅且逼真。
  • 细化强化学习通过在训练中应用HOI区域重新加权损失函数,以强化对物件细节的捕捉和学习。

AnchorCrafter的核心技术机制

  • 视频传播模型采用扩散模型框架,结合扩散UNet与变分自编码器(VAE),对视频帧进行处理,实现将视频流映射至潜伏空间,并从中恢复出高清晰度的视频图像。
  • HOI-视觉认知(HOI-visual cognition)由于提供的内容为空,没有具体的信息可以进行伪原创改写。如果您有具体的段落或文章需要处理,请提供详细信息。这样我就能帮助您完成需求了。
    • 整合多种视角的特性通过利用多个角度的物件参照图片来捕捉物件的视觉特性,提升模型在辨识物件形态与表面细节上的效能。
    • 人物双重匹配器通过用替代的交叉注意力层改造UNet,能够更有效地分开人物与物体的特点,防止视觉上的混杂。
  • HOI-动作输入(HOI-action input)由于提供的原文为空,没有具体内容可以进行伪原创改写。如果您能提供具体的文本内容,我就能帮助您完成这个需求。
    • 对象运动路径调控以深度图像为输入源,运用精简型卷积神经网络来解析和操控视频内物体的移动路径。
    • 处理相互遮挡问题通过集成3D手部模型数据,解决人物在操作物品时的手部遮挡难题,以保障互动的真实感和精确度。
  • HOI区域的重新权重损失(HOI-region redistribution loss)于训练期间提升对手与物互动区的关注度权重,使系统更聚焦此类区域,从而增强物品细节数学建模及产出效果的质量。

AnchorCrafter项目的网址

  • 官方网站项目版块https://github.com/cangcz/Anchor-Crafter
  • Git存储库:https://github.com/cangcz/AnchorCrafter(即将对外开放)
  • 关于技术的arXiv论文在学术预印平台ArXiv上发布了一篇编号为2411.17383的论文,详情可访问此链接进行查阅。

AnchorCrafter的使用场合

  • 网络购物站点生成自动化的商品展示视频,增强产品页的吸引力并激发用户的购买兴趣。
  • 社交网络推广向品牌及个人创作者供应创作工具,助力打造引人注目的商品宣传内容,增强与粉丝的互动并提升品牌的可见度。
  • 电视剧目广告的创作与制作高效创建高品质电视广告,降低常规拍摄开销与时间消耗。
  • 在线模拟商品销售直播通过在直播过程中利用虚拟主播来呈现与推销商品,以增强直播的效能及提升观众的参与感受。
  • 教育培养通过创建演示教学视频来仿真真实的操作流程,比如烹饪或手工艺项目,以提升学习体验和效果。
© 版权声明

相关文章