腾讯混元发布开源端到端AI模型:视频+文字生成电影级音效

AI资讯2周前发布 ainav
12 0

8月28日讯

今日中午,腾讯混元团队宣布开源端到端视频音效生成模型——Hunyuan-Foley。这一创新工具只需输入视频和文字描述,即可自动生成匹配的电影级音效。

据官方介绍,HunyuanVideo-Foley不仅解决了传统AI生成视频无法提供声音效果的问题,还实现了”看懂画面、读懂文本、精准配音”的核心功能。这为短视频制作、影视后期、广告创意及游戏开发等领域提供了革命性的创作工具。

引擎轰鸣声中伴随着加速的声浪…

枯枝落叶在狐狸幼崽脚下沙沙作响…

据悉,混元团队打造了完整的数据处理流水线,实现了对音视频数据的自动标注与筛选。基于此,他们构建了约10万小时级的高质量TV2A数据集,为模型训练提供了坚实的基础。得益于此,Hunyuan-Foley能够生成与画面完美同步、语义高度一致的高品质音频,包括音效和背景音乐。

了解更多资源,请参考以下链接:

  • 体验地址:https://hunyuan.tencent.com/video/zh?tabIndex=0

  • 项目官网:https://szczesnys.github.io/hunyuanvideo-foley/

  • 代码仓库:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

  • 技术文档:https://arxiv.org/abs/2508.16930

  • Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley

© 版权声明

相关文章