什么是Hallo?
Hallo是一项由复旦大学、百度公司、苏黎世联邦理工学院及南京大学的研究人员联合开发的人工智能面部表情动画技术。该技术能够根据语音音频输入生成高质量且动态变化的脸部图像视频。其架构融合了扩散模型和层级化的音驱视觉合成模块,显著提升了声音与画面同步的精确度。Hallo通过结合UNet去噪器、时间对齐技术和参考网络来优化输出内容的质量和真实感,不仅改善了影像的清晰度与流畅性,还大幅提高了口型同步的效果,并丰富了表情动作的变化。
Hallo的特点与功能特性介绍
- 音效与动画的协同播放Hallo采用前沿的音讯解析科技,结合导入的声音档案和人物画像来创建生动的脸部动画。凭借精准的口型匹配计算方法,保证影片中的人物嘴部动作能与声轨保持一致,生成极具真实感的对话体验。
- 脸部表情创造通过分析音频流中情绪与声调的变化,Hallo具备自动检测并匹配适合的面部表情的能力,涵盖从笑容到蹙额再到惊愕的各种表现形式,从而使动画人物的表情演绎更为真实且充满感情色彩。
- 头姿调控Hallo提供了精细调节视频中人物头部姿势的功能,包括倾斜和旋转等多种变化,确保了视频能更准确地传达音轨所蕴含的情绪与目的,并提升了视听同步的质量。
- 专属动画设计服务根据个人喜好与具体使用场景,用户能够调整动画的人物样式、面部表情及肢体动作。借助Hallo提供的个性设置选项,每位使用者都有机会打造专属角色,以达到独特的视觉呈现和情绪传达效果。
- 确保时间的一致性Hallo运用时间同步技术,保证动画里的人物动作与表情能够平滑地转换,在视觉上更加连贯且无生硬跳跃。
- 动作的多元性除实现基础的音画同步之外,Hallo还能创建多种多样的动态效果与风格。使用者能够依据个人需求挑选各类动作集锦,向其动画人物中融入丰富的运动细节,比如手部动作或眼部闪烁等,以此增强视频内容的生动性。
访问Hallo的官方网站入口
- 官方网站链接:https://fudan-generative-vision.github.io/hallo/#/
- 在GitHub上的项目仓库地址如下所示:https://github.com/fudan-generative-vision/hallo
- Hugging Face的模型集合:https://huggingface.co/fudan-generative-ai/hallo
- 在arXiv平台上发布的一篇技术论文可在此链接找到:https://arxiv.org/abs/2406.08801
Hallo的工作机制
- 层次化音效引导视像整合Hallo运用了层次化的策略对声音与视觉数据进行解析。该层级架构使得系统能够独立分析嘴部运动、脸部表情及头部方位,并最终依据调整后的权值整合各项要素。
- 全程扩散模型Hallo采用了基于扩散原理的生成模型,这是一种通过潜伏空间来创建数据的技术。在其训练流程中,逐步向原始数据添加噪音,在随后的反过程里再将这些噪音移除以恢复出干净的图像。
- 交错注意机制借助交叉注意力机制,Hallo实现了音频特性与视觉特性间的关联。这一机制让模型能聚焦于与现有声音输入最为相干的脸部区域。
- UNet降噪工具Hallo采用了一种以UNet为基础的降噪模型,渐进式地清除图片里的杂音,进而产生出更为清楚的动画画面。众所周知,UNet架构因为在处理图像分割任务时表现出色而备受青睐,并且它通过利用低层特征图与跳跃连接的方式显著提升了生成结果的质量。
- 同步定时方法为了维持动画在时间段内的流畅连接,Hallo应用了时间同步技术,这一举措有效保证了连续画面间的平稳转换及统一性。
- 参照互联网(InternetReference)ReferenceNet旨在捕捉全面的视觉纹理细节,确保角色动画的一致性和可控制性,并辅助模型通过借鉴现有图片来提升生成内容的视觉效果和质量。
- 脸部与声音编解码器Hallo采用预先训练好的脸部编码模型来捕捉人物的独特身份特质,并利用声音特性编解码技术(例如wav2vec)把声波数据转化为能够操控动画动作的数据信息。
- 动态权重调节Hallo提供了一个功能,可以调节各种视觉元素(例如嘴巴动作、面部表情和身体姿势)的重要性程度,以此来掌控动画的表现丰富度和精细水平。
- 培训和推断于训练期间,Hallo提升其单帧产出效能的方法是调整面部图像编码器与空间交叉注意力组件的相关参数。进入推演环节后,该系统利用参照图片及引导声音数据合成为动态视频流。
© 版权声明
文章版权归作者所有,未经允许请勿转载。