腾讯混元发布开源端到端AI模型：视频+文字生成电影级音效

194 0 0

8月28日讯

今日中午，腾讯混元团队宣布开源端到端视频音效生成模型——Hunyuan-Foley。这一创新工具只需输入视频和文字描述，即可自动生成匹配的电影级音效。

据官方介绍，HunyuanVideo-Foley不仅解决了传统AI生成视频无法提供声音效果的问题，还实现了”看懂画面、读懂文本、精准配音”的核心功能。这为短视频制作、影视后期、广告创意及游戏开发等领域提供了革命性的创作工具。

引擎轰鸣声中伴随着加速的声浪…

枯枝落叶在狐狸幼崽脚下沙沙作响…

据悉，混元团队打造了完整的数据处理流水线，实现了对音视频数据的自动标注与筛选。基于此，他们构建了约10万小时级的高质量TV2A数据集，为模型训练提供了坚实的基础。得益于此，Hunyuan-Foley能够生成与画面完美同步、语义高度一致的高品质音频，包括音效和背景音乐。

了解更多资源，请参考以下链接：

文章版权归作者所有，未经允许请勿转载。

ainav

234 0

ainav

218 0

ainav

166 0

ainav

161 0

ainav

157 0

ainav

242 0