Meta发布Spirit LM —— 融合语音与文字的多模态语言模型

AI工具2年前 (2025)发布 ainav

289 0 0

Spirit LM指的是什么？

Meta AI团队开发了一种名为Spirit LM的多模态语言模型，该模型能够流畅地结合文本与音频数据。它起始于一个预先训练好的文本语言模型，并通过在文本及音素上的持续训练扩展至处理音频模式。此模型包括两个版本：基础版（BASE）和表现力版（EXPRESSIVE）。基础版使用语音的语义单元，而表现力版除了语义单元外，还利用了音高与风格单元来模拟声音的表现性特征。在训练过程中，Spirit LM通过词级交错的方法将音频与文本序列整合为统一的标记集。该模型能够生成具备文字模型含义能力的文字内容和具有语音模型表达效果的声音，并且可以在少量样本的基础上跨模态学习新的任务，比如自动语音识别（ASR）、文本转语音（TTS）以及声音分类。

Spirit LM的核心特性

多模态文本创作Spirit LM具备生成文本与语音的能力，并可顺畅转换两者形式。
含义与表述能力融合文本处理技术的理解优势与语音系统的表现力。
小样本训练利用有限的样例迅速掌握新的工作，比如自动 speech recognition（ASR）、文本转语音(TTS)及声音归类。
情绪稳定：情感版（EMOTIONAL）能够解析并创建带有特定情绪的音频与文字内容。
多种形态的理解能力掌握并创建多种形态的内容交互，比如把文字转成声音或者反过来处理。

Spirit LM的核心技术机制

预先训练与拓展利用预先训练好的文本语言模型，并通过在其上不断进行文本与语音单元的培训来增强其语音处理功能。
交叉培训通过采用词汇级交织技术，把音频与文字序列整合成一个统一的标签集合来进行训练，从而达到音频与文字间的同步对应。
双重模式标识符请提供需要改写的具体内容。由于您的请求中没有包含具体文本，我暂时无法完成此项任务。如果有具体的段落或句子，请告诉我，我很乐意帮助您进行伪原创的改写工作。
- 标准版(BASIC)运用声音含义组件（例如HuBERT标签）。
- 传达版本（COMMUNICATIVE）除了语义单元之外，通过融合音高（F0）与风格元素来把握语音的表现力。
编码与解码过程请提供需要伪原创改写的具体内容。由于您当前的消息中没有包含具体内容，我无法完成这项请求。如果您能分享具体文本，我会很高兴帮助您进行伪原创的修改。
- 编码器可以被表述为数据转换设备。利用如HuBERT之类的模型对语音进行编码，将其转化为标签形式。
- 解析器把标签恢复成最初的形态（文字或声音）。
训练资料与模型练习由于提供的原文内容为空，没有具体内容可以进行伪原创改写。如果您提供具体的段落或句子，我就能帮助您完成这项任务了。您可以试试再次给出需要处理的文本吧！
- 利用大量的文本与语音数据集合。
- 利用包含对齐信息的音频与文字数据集执行交叉训练。