TANGOFLUX指的是什么?
TANGOFLUX是一款高效的文本转音频生成工具,由新加坡科技设计大学(SUTD)与NVIDIA联合开发。该模型配置了大约5.15亿个参数,并且能够在单张A40 GPU上仅耗时3.7秒就生成一段长达30秒、采样率为44.1kHz的音频文件。TANGOFLUX采用CLAP-Ranked Preference Optimization(CRPO)框架,通过迭代优化和调整偏好数据来增强其对齐文本与音效的能力。在各项客观及主观测试中,该模型均表现出色,并且它的源代码和模型已经在GitHub等平台上开源,便于后续的研究工作进行。
TANGOFLUX的核心特性
- 高性能音频创作TANGOFLUX能够在短短3.7秒内创作出一段时长为30秒、采样率为44.1kHz的高品质音频。
- 从文本生成语音该模型能够把文字叙述转变为对应的语音效果,实现了从文本到音频的即时转化。
- 倾向性改进TANGOFLUX能够调整音频输出,使其更贴合用户喜好及输入文本的目的。
- 使用非专属的数据集进行培训利用非专属的数据集来进行训练,使得模型更为公开与易获取。
TANGOFLUX的工作机制
- 变异自动编码器通过使用VAE对音频波形进行编码以生成其潜在表示,并从中恢复出原始音频信号。
- 时间和内容的融入该模型通过运用文本编码与时间长度编码技术来管理和调控生成音频的内容及时长,从而达到对音效生成过程的有效控制。
- FluxTransformer结构该模型采用FluxTransformer块作为基础架构,并融合了Diffusion Transformer (DiT)与Multimodal Diffusion Transformer (MMDiT)的功能,旨在对文本指令进行解析并合成音频输出。
- 流量配对(Flow Pairing, FP)利用流匹配架构,通过学习由简易初始分布向复杂的目标分布转变的过程来创建示例样本。
- 基于CLAP的排序偏好优化(CRPO)CRPO架构通过迭代产生偏好的数据配对以提升音轨同步效果。它采用CLAP系统充当辅助奖赏机制,根据文字与声音共同生成的数据表示形式评价音频结果的优劣,并利用这些评估来创建一个偏向性数据库用于改进偏好模型。
- 直接喜好优化TANGOFLUX利用DPO技术在流匹配中对比胜利案例与失败案例的音频样本,以此来改进模型,并增强音频内容与文字说明之间的同步精度。
TANGOFLUX项目的所在位置
- 官方网站项目https://github.com/tangoflux
- Git代码库:在GitHub上的Declare-Lab团队发布了名为TangoFlux的项目
- HuggingFace的模型集合访问此链接以查看TangoFlux模型: https://huggingface.co/declare-lab/TangoFlux
- 关于arXiv上的科技文章访问文档的链接如下所示:https://export.arxiv.org/pdf/2412.21037
- 网上试用演示版本访问此链接以查看Declare-Lab团队开发的TangoFlux项目:https://huggingface.co/spaces/declare-lab/TangoFlux
TANGOFLUX的使用情境
- 多形式媒体创作于电影创作、游戏开发、广告宣传及视频製作领域内运用,旨在创造背景音乐、声音效果与旁白录音,从而提升製作效能並节省成本。
- 声音内容的创作与规划音乐创作者与声效工程师致力于打造创新的音乐作品及定制化的声音体验。
- 音频博客与听书应用程序通过自动创建背景音乐与声音效果来提升播客及有声书的音频质量,从而丰富听众的聆听感受。
- 教育培训在教学行业中,制作仿照实际情境的声音材料,以帮助语言习得或是职业技巧的练习。
- 人工智能助理与对话机器人的应用通过提供更加流畅和多样化的语音反馈来增强虚拟助手及聊天机器人的性能,从而优化用户的互动感受。
© 版权声明
文章版权归作者所有,未经允许请勿转载。