微软与清华大学合作开发的多模态创作模型 LatentLM

157 0 0

LatentLM代表的是一个隐含的机器学习模型。

微软研究院与清华大学联手开发了名为LatentLM的多模态生成模型，该模型能够同时处理离散型数据（如文字）及连续型数据（例如影像或声音）。借助变分自编码器(VAE)，它可以将连续性资料转化为潜在空间中的向量，并采用前一词扩散技术实现向量的递归式创建。LatentLM通过因果Transformer架构实现了跨模态信息共享，从而提升了模型在多模态任务上的表现力与扩展能力。此外，为了克服方差崩溃的问题并增强自回归建模的稳定性，LatentLM引入了σ-VAE解决方案，在图像生成、综合大型语言模型以及文本到语音转换等多个领域中展现出了杰出的效果。

LatentLM的核心特性

多种类型的数据管理能够同步管理离散信息（例如文本与编程代码）及连续信息（比如影像、声音片段或影片）。
一致的创建及解析端口：设计一个接口来集中处理多种形态的数据创建与解析工作，能够支持文字、图片、声音及影片等各种元素的不同组合形式。
自动回溯创造利用next-token扩散技术，该模型以自回归的方式产生连续数据的潜在矢量。
高效率图片创作在图片创作的任务里，其表现可与依赖扩散方法或是离散标签的模型比肩。
整合多种数据形式的高级语言模型系统融合进多功能的大型语言模型里，增强该模型处理多种类型任务的能力。
语音从文字转换生成在从文本转换为语音的技术中，通过减少解码过程中的步骤来达到超越当前最优模型的表现。

LatentLM的核心技术机制

变异自动编码器（VAE）利用VAE对连续数据进行编码生成潜在向量，并由解码器将其还原成接近原样的数据。
下一词汇扩展（Next-Vocabulary Expansion）该方法涉及通过自回归过程来生成潜在向量，具体是利用扩散头部依据每一 Transformer 的内部状态来创建这些向量。
基于因果关系的变换器模型通过运用因果Transformer来分析离散与连续的数据类型，该方法能够使模型以自回归的方式对序列的后续项进行预测。
Σ-变分自编码器为了应对方差衰减的问题，LatentLM开发了σ-VAE方法，在潜在空间内维持恒定的方差以增强其在序列预测任务上的稳定性。
结合多种模式的训练方法在培训过程中管理各种类型的信息，涵盖单纯的文字资料、图文配对信息以及混合的图文资料。
高效的理解与推导流程于推断过程中，通过利用Transformer核心结构的一次性前向传播及轻型扩散模块的多重降噪环节，达到高效的数据解码效果。

LatentLM项目的仓库位置

Git代码库在GitHub上可以找到由微软开发的项目链接：https://github.com/microsoft/unilm/blob/main/LatentLM。这个仓库包含了相关的代码和文档信息。
arXiv科技文章该论文的详情可以在以下链接中找到：https://arxiv.org/pdf/2412.08635，探索了相关领域的最新研究进展。