复旦大学、百度及南京大学联合开发的音频引导视频生成系统——Hallo2

AI工具5个月前发布 ainav
136 0

Hallo2指的是什么

Hallo2是由复旦大学、百度公司以及南京大学联合研发的一款音频驱动视频合成模型。该模型能够结合单张参考图像和一段持续数分钟的音频输入,并通过可选的文字提示来调整人物表情,进而生成与音轨同步的高分辨率4K视频内容。利用先进的数据增强技术如补丁降噪及添加高斯噪声等方式,Hallo2提升了视频在长时间播放中的视觉一致性和连贯性表现。此外,该模型还采用了潜在代码矢量量化和时间对齐的技术手段来生产出高质量的4K视频,并通过引入语义文本标签作为附加条件输入以增强动画内容生成的可控度与多样性。经过多次实验验证,在多个公开数据集上,Hallo2展示了其在创建长时间、高分辨率及多样化可控制动画方面的卓越能力。

Hallo2

Hallo2的核心特性

  • 长时间视频创作能够创建持续时间为一小时的视频,并且有效解决了视觉偏移与时间错位的问题。
  • 高质量图像显示达成4K分辨率的人物视频制作,确保画面呈现细腻的视觉效果。
  • 音效引导视觉动态通过音频输入来操控肖像图片的动态效果,确保嘴唇动作与面部表情能够实时匹配。
  • 调整文字提示设置通过运用文本提示来调整与精炼人物表情的设计,从而丰富动画的表现形式并增强其情感传达能力。
  • 数据扩增方法利用补丁匹配技术和高斯噪声增强方法,提升视频在长时间内的视觉统一性和时间连续性。

Hallo2的核心技术机制

  • 修补项减少增强技术(Patch-Reduction Enhancement)通过在条件帧中随机移除一些图像片段,降低先前帧对后续帧外貌的干扰,确保长时视频生成过程中的视觉统一性。
  • 增加高斯噪音效果通过在已应用降噪处理的数据上添加高斯噪声,可以增强模型对参照图片视觉特征的依存度,并且保持动态信息的同时降低累加性伪影与失真的出现。
  • 基于矢量量化的生成对抗网络(VQ-GAN)利用向量量化潜码及时间同步技术,Hallo2能够确保在时间轴上的连续性,并生成高清晰度的4K视频。
  • 语义化文本标识Hallo2采用了可以调节的语义文本标记作为其条件输入,使得模型能够依据提供的文字指引来创建指定的表情与动作,从而增强了内容生产过程中的控制能力。
  • 交叉注意机制(Cross-Attention Mechanism)该模型能够有效结合诸如音频特性及文本嵌入等动态因素,在去除噪声的同时产生符合给定输入条件的画面。

Hallo2的项目位置

  • 官方网站建设项目:在网址fudan-generative-vision.github.io可以找到Hallo2的相关信息。
  • Git代码库:访问该项目的网络地址为 https://github.com/fudan-generative-vision/hallo2
  • HuggingFace的模型集合访问该链接以查看复旦生成式AI团队的模型Hallo2: https://huggingface.co/fudan-generative-ai/hallo2
  • 关于技术的arXiv学术文章访问该链接可查阅最新发布的科研论文版本,其内容聚焦于特定领域的前沿研究。请注意,直接提供的是PDF格式的文档下载地址。
  • Hallo3人物动画制作平台:https://robot-intelligence.tech/greeting4/

Hallo2的使用情境

  • 影片与视像创作在影片创作过程中,Hallo2被用来创建或加强人物的脸部情感表达及唇形同步效果,广泛应用于富含虚构角色与视觉特效的科幻及动画类型作品之中。
  • 智能助理与数字化人物形象在客户服务、教育培训及娱乐等行业中,Hallo2能够生成高度真实的虚拟助理与数字人物,从而带来更为流畅且引人入胜的互动感受。
  • 制作电子游戏游戏创作者利用Hallo2制作出极具真实感的人物动作,从而增强游戏的沉浸式效果及提升玩家们的整体体验。
  • 社交网络与创意制作内容制作者利用Hallo2制作动感的人物视频,并将其发布于社交网络上以提升作品的魅力及增强用户参与度。
  • 媒体与播送Hallo2具备创建新闻主持人的动画图像的能力,并且在需求多种语言广播时,能够迅速匹配相应的语音和面部表情。
© 版权声明

相关文章