LongCite指的是什么?
清华大学开发了LongCite项目,其目标是提高大型语言模型(LLMs)在处理长篇幅问题回答时的信息可靠性和验证能力。该项目通过创建详细的句子级别引用来帮助用户核实模型的回答是否准确无误。关键组件涵盖了用于评估的LongBench-Cite基准、自动化的CoF数据构建流程、包含大量样本的LongCite-45k数据集,以及基于此数据集训练得到的两个主要模型——LongCite-8B和LongCite-9B。这些模型能够深入理解长文档的内容,并提供精确的问题答案同时附带直接引用来源,以此来增加信息透明度与可信性。
LongCite的核心特性
- 创建精确引用通过使用LongCite,语言模型在应对长篇文本的提问时能够产生细化至句子层面的引文,使得用户可以直接定位到原始文档的具体内容。
- 增强回应的真实程度LongCite能够促进模型的回答更贴近原始文本,降低产生偏离或虚构信息的现象。
- 提升验证可靠性用户利用模型生成的详细引用来源来核实答案的准确性和真实性,从而增强对模型输出内容的信任。
- 自动化的数据分析处理LongCite 利用 CoF(从粗到细)方法自动创建包含详细引用的高品质长篇问答数据集,旨在为模型训练供给充足的标记资料。
- 评估标准LongCite采用了LongBench-Cite评估标准来测试模型在处理长篇幅问题回答时的引文生成能力,涵盖准确度和引文的质量方面。
LongCite的核心技术机制
- 处理大量文本的能力LongCite能够使拥有超大上下文窗口的大型语言模型(例如GLM-4-9B-1M、Gemini 1.5等)具备解析与理解超过数万字符长文档的能力。
- 精细引用构建通过精细至句子层面的引用生成,LongCite训练模型确保了每一个回复都可以直接对应到原始文本中的特定语句,从而大大增强了回复结果的真实性与可信度。
- 自动化的数据构造过程(CoF)采用自我引导(Self-Instruct)技术来自动生成针对长篇文档的问题及相应解答。系统首先从大量文字资料里寻找同答案密切关联的段落,并构建段落级别的参考依据。接着,在这些段落级别参考资料的基础上,进一步精准定位支持各项论述的具体句子,从而形成句子层面的引用说明。
- 指导性微调整(Guided Fine-Adjustment, GFA)通过采用CoF流程创建的包含精细引用的优质数据集来调整大型语言模型,能够增强其在处理较长文本问题回答方面的性能。
LongCite的工程链接
- Git代码库:访问该项目的GitHub页面可使用此链接 https://github.com/THUDM/LongCite
- HuggingFace的模型集合库访问该链接以探索由清华团队开发的模型集合:https://huggingface.co/THUDM
- arXiv科技文章在学术预印本网站上可以找到这篇论文的PDF版本,其网址是:https://arxiv.org/pdf/2409.02897。
LongCite的使用情境
- 科学研究探究科研人员与学术专家利用LongCite搜索海量文献信息,并获得包含引文的详尽答复,助力他们的研究任务。
- 法律顾问服务律师及法律专家运用LongCite工具解析法律文件,精确提取相关法律法规或判例引用,以增强其在法理探讨与案宗调研中的专业性。
- 财务解析金融分析师及投资人士借助LongCite解析繁复的财务报表与市场调研,精准捕捉并引证重要信息及发展趋势。
- 健康咨询服务医学专家利用LongCite搜索医学资料,以获得最新的科研成果为依据的诊疗参考文献。
- 媒体报道新闻记者与媒体组织利用LongCite工具来核实其报道中所包含的信息真实性,保障发布的内容精确可靠,并且能够给出可信的资料出处。
© 版权声明
文章版权归作者所有,未经允许请勿转载。