清华与智谱AI合作发布的长效文本创作模型LongWriter

AI工具3个月前发布 ainav
124 0

LongWriter指的是什么

长文生成器 LongWriter 是由清华大学与智谱AI共同研发的一款能够产出超过10,000字连贯文章的文本创作工具,该项目现已对外开放源代码。通过对当前主流语言模型生成内容长度瓶颈的研究,构建了名为“LongWriter-6k”的数据集,并有效增强了人工智能系统的输出表现力。此外,该系统还运用直接偏好优化(DPO)技术来增强其产出质量及遵循指定字数限制的能力。

LongWriter的核心作用

  • 生成大量文字内容LongWriter具备生成逾万字流畅文章的能力,打破了先前AI系统在文档篇幅上的局限性。
  • 构造数据集合借助“LongWriter-6k”这一涵盖自2,000至32,000字符文章示例的数据集,极大地丰富了用于模型训练的长篇文本资源。
  • AgentWrite函数通过采取分解处理的方式利用现有的大型语言模型来自动化创建用于微调的超长输出数据集,这种方法显著增强了模型在生成较长文本方面的性能。
  • 偏好直接优化(DPO)利用DPO技术对模型进行更深层次的优化,以增强其产出质量并更好地满足长度限制的要求。

LongWriter的工作机制

  • 具备长时间序列数据处理功能LongWriter依赖于一种大幅提升了内存容量的长上下文大规模语言模型(LLM),该模型能够管理超出10万token的历史数据。
  • 输出长度的限定解析通过对现有模型在各种查询中的最长生成文本进行剖析,LongWriter发现这些模型生成内容长度受限的关键因素在于监督式微调(SFT)训练数据的特点。
  • 指导性微调整(Guided Fine-Tuning)在SFT训练期间,LongWriter采用了“LongWriter-6k”数据集,从而让模型掌握了生成较长文本的能力。

LongWriter项目的仓库位置

  • Git代码库:访问该项目的链接是 https://github.com/THUDM/LongWriter
  • HuggingFace的模型集合访问此链接以查看THUDM开发的长文本生成模型LongWriter-glm4-9b的相关信息:https://huggingface.co/THUDM/LongWriter-glm4-9b
  • 关于arXiv上的科技学术文章访问该链接可获取最新研究成果的详细信息: https://arxiv.org/pdf/2408.07055 ,此文献提供了深入的研究视角。

怎样操作LongWriter

  • 设置环境务必配备充足的计算能力以支持LongWriter模型的运作,这涉及使用高效的GPU及具备足够内存容量的系统。
  • 取得模型:前往Github下载LongWriter的开放源代码及模型。
  • 设置所需的组件依据项目文件来设置必需的软件包与开发工具,涵盖深度学习平台及数据管理相关的库。
  • 资料筹备为确保LongWriter能有效处理,需准备好相应的长篇文本资料,并对其进行必要的前期加工和调整,以满足该模型的数据输入规范。
  • 模型的载入:可以使用预先训练好的LongWriter模型,或依据自身拥有的数据集来进行更深层次的调整优化。
  • 创作指令依据所需创建的文字信息,制定明确的指引或命令,这些指引会引导系统产出指定的内容。
  • 创建文字通过调用模型的接口或API,并提供相应的提示信息来激活文本生成流程。

LongWriter的使用情境

  • 科学研究探讨LongWriter能够帮助学者及研究者起草长篇的学术文章、调研报告或是文献回顾。
  • 创造内容创作文学作品或编写剧本的内容制作人能够借助LongWriter工具来构思并产出初步稿件。
  • 图书发行领域出版社能够利用LongWriter工具来支持编辑与校对任务,甚至可以实现书籍内容的自动创作。
  • 教学行业教师能够利用LongWriter来创建教学资源、课程信息或是学习手册。
  • 媒体报道新闻单位能够借助LongWriter迅速制作出新闻稿、详尽的解析文章或是特辑报道。
© 版权声明

相关文章