由陈天奇团队开发的结构化内容生成引擎XGrammar

AI工具2年前 (2025)发布 ainav

316 0 0

XGrammar指的是什么？

XGrammar是一款由陈天奇团队开发的开源软件库，旨在为大型语言模型（LLMs）提供高效、灵活且具备移植性的能力来产生结构化的数据输出。它基于上下文无关语法(CFG)构建复杂的数据模式，并支持递归组合以应对复杂的结构需求，非常适合用于生成如JSON和SQL等格式化数据的场景。为了优化CFG解释过程，XGrammar采用了字节级下推自动机技术减少延迟时间，实现了显著的速度提升而几乎不增加额外开销。此外，它还包含了多种系统层面的优化措施，比如自适应token掩码缓存及上下文扩展机制等来加快生成速度并降低预处理的时间成本。其C++后端的设计不仅易于集成到现有架构中，并且在LLM推理过程中能够实现近乎零额外开销的结构化数据生产功能。

XGrammar的核心特性

有效组织创建提供对上下文自由语法(CFG)的支持，并能够创建及产出符合特定布局规范（例如JSON、SQL）的数据结构。
适应性利用CFG的递归特性，可以灵活地描绘复杂结构，并满足多样化结构性数据的需求。
无缝整合无额外成本XGrammar 与 LLM 推理引擎协同开发，能够在进行 LLM 推理时无额外成本地完成结构化内容生成。
迅速落实通过系统的优化升级，大幅提升了结构化内容生成的速度，在与现有最优技术对比时，每个令牌的处理延迟能降低至原来的百分之一。
多平台实施拥有小巧并易于移植的C++后台，能够简单地融入多种环境与平台。
动态令牌遮罩缓冲区于预处理环节创建，以加速运行期间的掩码形成。

XGrammar的核心技术机制

字符级别向下兼容的自动机(PDA)利用字节级PDA来阐释CFG的概念，该方法允许每一个字符边界含有一个或多个字节，并能有效管理非标准的词元边界问题，同时兼容带有子UTF8特征的词元。
预先处理与执行期间的优化于预处理环节中，构建出能自动调整的token遮罩缓冲区，通过提前完成不依赖具体语境的token计算来加速后续使用过程中的遮罩生产速度。
识别无关和相关的上下文词汇的区别识别出哪些是不受上下文影响的标记以及受上下文影响的标记，提前评估PDA内各点处不依赖于上下文的标记的有效状态，并把这些信息保存到一个可调整的标记缓存区里。
语法规则的编译过程通过利用语法编译流程，在生成掩码时提前计算出大部分的token，从而提升掩码创建的速度。
对算法与系统的改进提升涵盖上下文拓展、连续执行堆栈以及改进的下推自动机结构，以加速掩码创建过程并缩短前期准备时间。
遮罩创建与大型语言模型推断相互交织通过在CPU上平行处理掩码生成，并在GPU上同步执行大语言模型的推理工作，从而减少了解码限制所带来的成本。

XGrammar的工程链接

官方网站URLException：mlc.ai的xgrammar版本
Git存储库：在GitHub平台上有一个由mlc-ai团队维护的项目叫做xgrammar，地址是https://github.com/mlc-ai/xgrammar。
关于技术的arXiv学术文章在学术论文数据库中可以找到编号为2411.15100的研究报告。