Qwen2.5-1M – 阿里通义千问开源的语言模型,支持100万Tokens上下文


Qwen2.5-1M是什么

Qwen2.5-1M是阿里通义千问团队推出的开源模型,支持100万Tokens的上下文长度。模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M两个模型。在长上下文任务中表现出色,优于之前的128K版本,特别是在处理超过64K长度的任务时。Qwen2.5-14B-Instruct-1M模型击败了Qwen2.5-Turbo,在多个数据集上稳定超越GPT-4o-mini。Qwen2.5-1M系列模型在短文本任务上的表现与其128K版本相当,确保了基本能力没有因为增加了长序列处理能力而受到影响。

Qwen2.5-1M – 阿里通义千问开源的语言模型,支持100万Tokens上下文

Qwen2.5-1M的主要功能

  • 长上下文任务处理:Qwen2.5-1M系列模型能处理长达100万Tokens的上下文,优于之前的128K版本。在上下文长度为100万Tokens的Passkey Retrieval任务中,Qwen2.5-1M系列模型能够准确地从1M长度的文档中检索出隐藏信息。
  • 性能优势:Qwen2.5-14B-Instruct-1M模型击败了Qwen2.5-Turbo,在多个数据集上稳定超越GPT-4o-mini。
  • 短序列任务处理:Qwen2.5-1M系列模型在短文本任务上的表现与其128K版本相当,确保了基本能力没有因为增加了长序列处理能力而受到影响。

Qwen2.5-1M的技术原理

  • 长上下文训练:Qwen2.5-1M采用逐步扩展长度的方法,将上下文长度从4K扩展到256K。训练过程分为多个阶段:
    • 预训练阶段:从4K开始,逐步增加到256K,同时使用Adjusted Base Frequency方案,将RoPE基础频率从10,000提高到10,000,000。
    • 监督微调阶段:分两个阶段进行,第一阶段仅在短指令(最多32K长度)上微调,第二阶段混合短指令和长指令(最多256K)进行训练。
    • 强化学习阶段:在短文本(最多8K长度)上训练,即使在短文本上训练,也能很好地将人类偏好对齐性能泛化到长上下文任务中。
  • 稀疏注意力机制:为了加速预填充阶段,Qwen2.5-1M引入了基于MInference的稀疏注意力优化,提出了一系列改进:
    • 分块预填充:将输入序列以32768长度分块,逐块进行预填充,显著降低显存需求。
    • 集成长度外推方案:在稀疏注意力机制中集成基于DCA的长度外推方案,提升推理效率和长序列任务的准确性。
    • 稀疏性优化:提出一种在100万长度的序列上优化稀疏化配置的方法,减少稀疏注意力带来的精度损失。
    • 其他优化:优化算子效率和动态分块流水线并行,提升整个框架的潜力。
  • 长度外推:为了将模型的上下文长度从256K扩展到1M,Qwen2.5-1M采用长度外推技术。通过Dual Chunk Attention(DCA)方法,将过大的相对位置重新映射为较小的值,解决了长上下文任务中的性能下降问题。

Qwen2.5-1M的项目地址

  • 项目官网:https://qwenlm.github.io/zh/blog/qwen2.5-1m/
  • HuggingFace模型库:https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
  • 技术论文:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf

Qwen2.5-1M的应用场景

  • 长篇小说深入理解:能一次性处理10本长篇小说,对长篇小说进行深入分析和理解。
  • 多篇论文阅读:可以同时处理多篇学术论文,帮助研究人员快速获取关键信息。
  • 文学创作:辅助作家进行长篇小说创作,提供写作灵感和创意内容。
  • 广告文案撰写:帮助广告人员快速生成吸引人的广告文案。
  • 教学辅助:在教育领域作为教学辅助工具,帮助学生理解复杂概念。
  • 数据分析:在研究领域,帮助分析大量数据和文献。
版权声明:ainav 发表于 2025-01-27 16:01:19。
转载请注明:Qwen2.5-1M – 阿里通义千问开源的语言模型,支持100万Tokens上下文 | AI导航站