10月14日,科技媒体9to5Mac发布博文,宣布苹果公司推出了一种名为FS-DFM的扩散模型。该模型仅需8轮快速迭代即可生成高质量文本,其效果可与传统模型经过上千次迭代相媲美,且写入速度最高可提升128倍。
这项研究由苹果公司携手俄亥俄州立大学的研究团队共同完成。他们提出了一种名为“少步离散流匹配”(Few-Step Discrete Flow-Matching,简称FS-DFM)的新型语言模型。
该模型主要针对长文本生成领域中的效率问题,通过仅需8轮快速优化就能生产出高质量的长篇文本,其质量可与传统扩散模型经过上千次迭代后的效果相媲美。
在深入了解FS-DFM之前,我们需要明确两种主流的语言模型架构:
-
以ChatGPT为代表的自回归模型:这类模型采用串行生成方式,每个词的生成都依赖于前面的所有内容。
-
而扩散模型则采取并行策略:一次性生成多个词,并通过多轮迭代逐步优化直至完成完整输出。
作为扩散模型的一种变体,FS-DFM进一步简化了迭代过程,旨在用最少的步骤直接生成最终结果。据博文介绍,苹果研究团队为实现这一突破,设计了一套创新性的三步策略:
-
首先,模型经过专门训练,具备灵活适应不同迭代次数的能力。
-
其次,团队引入了一个“教师”模型进行引导,使每轮迭代都能实现显著且精准的更新,同时避免矫枉过正的问题。
-
最后,他们对迭代机制进行了优化设计,确保模型能够以更少、更稳健的步骤生成最终文本。
在性能测试中,FS-DFM与Dream(70亿参数)和LLaDA(80亿参数)等大型模型进行了对比。结果显示,即使FS-DFM的变体仅拥有1.7亿至17亿参数,在困惑度和熵这两个关键指标上也表现优异:不仅困惑度更低(表明文本更准确流畅),而且熵值更加稳定(既能避免单调重复,又能防止胡言乱语)。

© 版权声明
文章版权归作者所有,未经允许请勿转载。