谷歌发布的评估大模型性能的标准测试 — FACTS Grounding

AI工具3个月前发布 ainav
91 0

什么是FACTS接地?

FACTS Grounding是由谷歌DeepMind开发的一种基准测试工具,用于评价大型语言模型(LLMs)生成准确且无虚构信息文本的能力。该测试包含了跨越多个领域的1719个实例,并要求这些模型能够依据最长达到32000个token的文档内容来完成包括摘要、问答和改写在内的各种任务。在评估过程中,使用了Gemini、GPT-4以及Claude这三款不同的语言模型进行测试,整个过程分为资格评定与事实准确性检验两个阶段,以提高对这些模型的信任度及其应用潜力。

FACTS Grounding

FACTS接地技术的核心作用

  • 评价语言模型的真实度评价大规模语言模型在特定背景环境下创建精准无误文字的表现能力。
  • 防止“虚构”(编造资料)评估模型能否防止产生与所提供文件不符的错误信息,也就是所谓的“幻觉”。
  • 对扩展型回复的质量评价期望该模型能应对长度达32k令牌的文件,并据此产生较长篇幅的回答。
  • 涵盖多个领域该数据集包含了金融、科技、零售、医疗及法律等众多行业的信息,用于测试模型在各行业中的适用性能。

技术基础:FACTS接地的运作机制

  • 在保留原始信息和意图的基础上,对给定的文本进行风格转换或表述变更以达到同义的效果。这一过程不改变核心含义,只是让内容呈现更加多样化或者符合特定的需求标准。评价该模型对长度达32k标记文档的处理效能时,需确保它具备理解并综合长篇内容以生成回应的能力。
  • 关联性的上下文关系该模型会根据用户的指令及关联的背景资料创建相关内容,并保证其回答严格源自所提供的文件信息。
  • 自动评估平台利用自动审核系统(例如Gemini 1.5 Pro、GPT-4o及Claude 3.5 Sonnet)来检查生成的内容是否符合用户的期望,并确认这些内容完全是依据给定文件而来的。
  • 双步骤评价程序请提供需要改写的具体内容,以便我进行相应的调整和表达。
    • 资质评审评估模型的回复是否符合用户的诉求。
    • 对信息精确度的评价评价回应是否严格依据给出的文件来进行,检查是否有“幻想”现象(虚构信息)。
  • 综合评价体系结合多种评审模型的输出可以降低单个模型带来的偏差,从而增强评价的精确度和可信性。

该项目的定位标识为FACTS接地点

  • 官方网站项目版块访问此链接以探索关于事实定位的深入信息:https://deepmind.google/explore/post/truth-anchorings
  • 科技文章:访问位于谷歌云存储上的DeepMind媒体资源中的 FACTS 接地信息:https://storage.googleapis.com/deepmind-media/FACTS/FACTS_grounding

应用场景概述 FACTS Grounding技术的使用情境

  • 资讯查询及问题回答系统在问题回答系统里,依据提供的文档或背景信息给出精准的回答。
  • 概要描述及创建该模型能够创建文档概要,通过解析较长的文章来精确捕捉其核心要点。
  • 文件的改编和重新表述当需依据原始材料进行重述或改编时,务必保证改编内容的事实准确无误。
  • 自动化的客户支持服务在客户支持行业中,通过依据具体资料或方针文件给出精确答复来提升工作效率和服务水平。
  • 教学和学术探索在教育行业里,助力学生及科研人员迅速而精准地获得资讯,支持他们的学习与科研任务。
© 版权声明

相关文章