阿里通义千问Qwen2.5-1M —— 支持百万 Tokens 大小上下文的开源语言模型

167 0 0

Qwen2.5-1M代表的是一个特定版本的模型。

阿里通义千问团队发布了开源的Qwen2.5-1M模型，该模型能够支持长达100万Tokens的上下文长度。这一系列包括两个具体型号：Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M。在处理长篇幅任务时表现尤为突出，超过了先前的128K版本，在超过64K字符的任务中尤其显著。特别是在多个数据集上，Qwen2.5-14B-Instruct-1M的表现优于Qwen2.5-Turbo，并且稳定地超越了GPT-4o-mini。值得注意的是，尽管增强了处理长序列的能力，该系列模型在短文本任务上的表现仍与之前的128K版本相当，保证基本功能未受影响。

Qwen 2.5-1M的核心特性

处理较长的上下文任务Qwen2.5-1M系列模型具备处理长达100万个Tokens上下文的能力，相较于先前版本的128K有显著提升。当面对包含一百万Tokens长文本的Passkey Retrieval任务时，该系列模型能够精准地从百万级长度文档中提取出隐藏信息。
优越的性能表现在多项数据集的测试中，Qwen2.5-14B-Instruct-1M模型的表现优于Qwen2.5-Turbo，并且持续领先于GPT-4o-mini。
处理简短的序列作业Qwen2.5-1M系列模型在处理短文本时的表现与它的128K版本相似，这表明尽管新增了对长序列的支持，其基础性能并未受到任何影响。

Qwen 2.5-1M的核心技术机制

长时间序列训练Qwen2.5-1M利用渐进式延长策略，实现了文本处理范围由4K至256K的扩充。整个培训流程被细分为若干个步骤进行。
- 预先训练环节起始点设为4K，并逐渐扩大至256K，在此过程中采用调整基频策略，把RoPE的初始频率值由1万上调至一千万。
- 在监控下的细微调整过程这一过程分为两步实施，首先只针对简短的命令（不超过32K字符）进行精细调整；随后，在第二个步骤中，则结合了简短与较长的命令（上限为256K字符）来进一步优化训练效果。
- 在这一环节中我们将专注于增强型学习过程。即便是在不超过8K字符的简短文本上进行训练，该模型也能够有效地将其学习到的人类偏好一致性推广应用于处理更长篇幅的内容任务中。
稀疏关注机制为加快预填充过程，Qwen2.5-1M采用了基于MInference的稀疏注意力机制，并实施了几项优化措施：
- 区块预先填充值把输入序列分割成长度为32768的片段，并对每个片段逐一实施预填充处理，这能大幅减少所需的显存空间。
- 采用综合长度扩展方法在引入基于DCA的跨长度扩展策略到稀疏注意力模型后，不仅增强了长序列处理的任务精度，还优化了推理过程的速度。
- 优化稀疏度：开发了一种方法来优化长为100万的序列上的稀疏设置，以降低由稀疏注意机制引起的准确性下降。
- 进一步改进通过改进运算符性能及实现动态分区流水线并行处理，以增强整体架构的能力。
尺寸延伸为了把模型的上下文容量从256K提升至1M，Qwen2.5-1M运用了长度外推技术。借助Dual Chunk Attention（DCA）策略，它能够将过大的相对位置值转换为较小数值，从而解决了处理长上下文时性能下滑的问题。

Qwen2.5-1M的工程链接

官方网站建设项目访问该链接提供的页面展示了关于Qwen2.5模型的详细介绍。这篇文章深入探讨了模型的技术特点、性能优化以及应用场景，为读者提供了全面的理解和洞察。通过详实的数据分析和技术解析，文章强调了这一版本在自然语言处理任务上的显著进步与优势。
https://qwenlm.github.io/zh/blog/qwen2.5-1m/

上述链接指向了一个页面，该页面详细介绍并探讨了Qwen2.5模型的各项特性和改进之处。通过具体的数据支持和技术分析，文章展示了新版本在自然语言处理任务中的强大性能和优化效果，并讨论了其潜在的应用场景。读者可以从中获得对这一最新技术发展的深入理解和启示。
HuggingFace的模型集合访问此链接以查看Qwen 2.5的演示：https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
科技文章请参阅以下文档链接以获取不同的表述形式，内容主旨相同但用语有别：
：https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/技术报告_Qwen2_5_1M.pdf