近日,科技媒体MarkTechPost报道指出,Meta AI团队推出了一项名为Token-Shuffle的创新技术,旨在解决自回归模型在生成高分辨率图像时面临的技术瓶颈。
所谓自回归模型,是一种基于时间序列分析的统计方法。它通过分析数据点与其历史值之间的关系来进行预测。这种方法不仅在语言生成领域取得了显著成果,近年来也被积极探索应用于图像合成技术中。
然而,在处理高分辨率图像时,自回归模型的表现却不尽如人意。与文本生成相比,图像合成需要处理成千上万的像素信息(相当于数千个token),这导致计算成本急剧上升。因此,基于AR的多模态模型在实际应用中往往只能处理低中分辨率的图像。
虽然扩散模型在生成高分辨率图像方面表现优异,但其复杂的采样过程和较慢的推理速度限制了其广泛应用。
Token-Shuffle技术的核心优势
针对上述问题,Meta AI团队提出了Token-Shuffle这一创新解决方案。该方法主要通过识别多模态大语言模型中视觉词汇的维度冗余,并在Transformer处理前对空间相邻的视觉token进行通道维度合并,从而降低计算成本。
具体而言,Token-Shuffle采用了一种独特的token融合机制。在输入准备阶段,通过多层感知机(MLP)将空间上相邻的tokens压缩为单个token,大幅减少token数量。例如,在窗口大小s的情况下,token数量可减少s²倍,从而显著降低Transformer的计算量(FLOPs)。这种方法无需对现有的Transformer架构进行任何修改,也无需额外的预训练编码器支持,具有极强的兼容性。
实验结果与评估
在实际测试中,Token-Shuffle展现出了卓越的性能。在多个基准测试中,该方法不仅显著提高了生成图像的质量,还在文本对齐方面取得了突破性进展。
例如,在某权威评测中,Token-Shuffle的VQAScore达到0.62,为自回归模型设立了新的性能标杆。尽管在逻辑一致性上略逊于扩散模型,但其图像质量和文本对齐效果均优于现有的主要竞争对手LlamaGen和Lumina-mGPT。
附上参考地址
-
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models