苹果发布FS-DFM AI新模型:长文创作提速128倍

AI资讯1个月前发布 ainav
39 0

10月14日,科技媒体9to5Mac发布博文,宣布苹果公司推出了一种名为FS-DFM的扩散模型。该模型仅需8轮快速迭代即可生成高质量文本,其效果可与传统模型经过上千次迭代相媲美,且写入速度最高可提升128倍。

这项研究由苹果公司携手俄亥俄州立大学的研究团队共同完成。他们提出了一种名为“少步离散流匹配”(Few-Step Discrete Flow-Matching,简称FS-DFM)的新型语言模型。

苹果发布FS-DFM AI新模型:长文创作提速128倍

苹果发布FS-DFM AI新模型:长文创作提速128倍

该模型主要针对长文本生成领域中的效率问题,通过仅需8轮快速优化就能生产出高质量的长篇文本,其质量可与传统扩散模型经过上千次迭代后的效果相媲美。

苹果发布FS-DFM AI新模型:长文创作提速128倍

在深入了解FS-DFM之前,我们需要明确两种主流的语言模型架构:

  • 以ChatGPT为代表的自回归模型:这类模型采用串行生成方式,每个词的生成都依赖于前面的所有内容。

  • 而扩散模型则采取并行策略:一次性生成多个词,并通过多轮迭代逐步优化直至完成完整输出。

作为扩散模型的一种变体,FS-DFM进一步简化了迭代过程,旨在用最少的步骤直接生成最终结果。据博文介绍,苹果研究团队为实现这一突破,设计了一套创新性的三步策略:

  • 首先,模型经过专门训练,具备灵活适应不同迭代次数的能力。

  • 其次,团队引入了一个“教师”模型进行引导,使每轮迭代都能实现显著且精准的更新,同时避免矫枉过正的问题。

  • 最后,他们对迭代机制进行了优化设计,确保模型能够以更少、更稳健的步骤生成最终文本。

在性能测试中,FS-DFM与Dream(70亿参数)和LLaDA(80亿参数)等大型模型进行了对比。结果显示,即使FS-DFM的变体仅拥有1.7亿至17亿参数,在困惑度和熵这两个关键指标上也表现优异:不仅困惑度更低(表明文本更准确流畅),而且熵值更加稳定(既能避免单调重复,又能防止胡言乱语)。

苹果发布FS-DFM AI新模型:长文创作提速128倍

© 版权声明

相关文章