清华研发的大型语言模型推理优化平台 KTransformers

398 0 0

KTransformers指的是什么？

KTransformers是由清华大学KVCache.AI团队与趋境科技共同开发的一个开源软件，旨在提高大语言模型在推理时的表现，并减少对高端硬件的需求。该工具采用GPU/CPU异构计算的方式以及MoE架构的稀疏特性，在单张拥有24GB显存的显卡上实现了DeepSeek-R1、V3等671B参数规模模型的运行，其预处理速度可达每秒286个tokens，推理生成的速度最高为每秒14个tokens。KTransformers通过实施基于计算负载的offload策略、优化高性能算子和CUDA Graph等方式大幅提升了系统的推理效率。

KTransformers的核心特性

提供对大型模型的本地推断支持可以在单一配备24GB显存的图形卡上执行包含6710亿个参数的大规模模型如DeepSeek-R1，这一做法超越了传统的硬件界限。
加快推理效率在预处理阶段，其速率可高达每秒286个tokens；而在进行推理和内容生成时，它的速度为每秒14个tokens。
支持多种模型与运算符兼容DeepSeek系列及其它MoE结构化模型，并配备可变模板注入机制，允许用户调整量化方法与更换核心组件，以满足多样化的性能优化要求。
减少对硬件的要求显著减少大型模型所需的内存容量，使一般用户及小型团体能够在标准消费者级别的设备上操作具有数十亿参数的模型，并达成”家用型”设置。
提供对延长序列作业的支援结合了Intel AMX指令集之后，该CPU的预加载速度能够达到每秒286个tokens，比传统的解决方案快出约28倍。这使得处理长时间序列的任务的时间从原先的几分钟大幅减少到了几秒钟。

KTransformers的核心技术机制

专家混合（MoE）结构把稀疏的MoE矩阵转移到CPU或DRAM进行计算，而让密集的部分继续在GPU中运行，这样可以显著减少对显存的需求。
卸载策略依据任务的计算需求将其指派给GPU或CPU处理：对于具有高计算要求的任务（例如MLA操作），我们倾向于先将它们安排在GPU上执行；而那些计算需求较低的任务则会被分发至CPU进行处理。
高效运算符改进由于提供的内容为空，没有具体的信息可以进行伪原创改写。如果有具体的文本或信息需要处理，请提供详细的内容。
- 在处理器方面：采用llamafile为核心组件，并融合了多线程处理、高效的任务管理和负载平衡等多种优化手段，显著增强了基于CPU的推理性能。
- 在GPU方面：采用专为提升量化矩阵运算效率设计的Marlin算子，相较于常规软件包（例如Torch），其处理速度提高了3.87倍。
CUDA 图形优化通过运用CUDA Graph来削减Python接口的开支，并减小CPU与GPU间交互时的中断次数，实现了更优的跨平台计算协作效果。每个解码过程只需一次全面的CUDA Graph执行，大幅提高了推断效率。
优化量化及储存效率运用了4位量化技术后，该模型的存储要求大幅降低，只需占用24GB的显存便可驱动含有671亿个参数的版本。此外，通过改进KV缓存的尺寸管理也有效缩减了其内存使用量。
框架嵌入模版本框架采用YAML模板实现功能注入，允许用户便捷地转换不同的量化策略或更换核心组件以进行优化调整，满足多样化的应用需求。