HippoRAG 2 – 俄亥俄州立大学推出的检索增强生成框架

163 0 0

HippoRAG 2是什么

HippoRAG 2是俄亥俄州立大学推出的检索增强生成（RAG）框架，解决现有RAG系统在模拟人类长期记忆动态性和关联性方面的局限性。HippoRAG 2基于个性化PageRank算法，将深度段落整合和更有效的在线LLM（大型语言模型）使用，推动RAG系统更接近人类长期记忆的效果。HippoRAG 2在离线阶段用LLM从段落中提取三元组并构建开放知识图谱（KG），同时基于嵌入模型检测同义词添加到KG中。在线检索时，结合查询与KG中的三元组和段落进行链接，基于LLM过滤无关信息，应用个性化PageRank算法进行上下文感知检索，最终为问答任务提供最相关的段落。

HippoRAG 2的主要功能

高效的知识检索与整合：基于深度段落整合和知识图谱（KG）的构建，快速检索与查询相关的知识，整合到生成过程中。
多跳关联推理：借助个性化PageRank算法，系统进行多跳推理，连接分散的知识片段，处理复杂的问答任务。
上下文感知检索：基于查询与知识图谱的深度交互，根据上下文动态调整检索结果，提高检索的准确性和相关性。
持续学习能力：作为一种非参数化的持续学习框架，HippoRAG 2能在不修改模型参数的情况下，实时吸收和利用新知识，增强系统的适应性。

HippoRAG 2的技术原理

离线索引（Offline Indexing）：用LLM从文本段落中提取结构化的三元组（主体、关系、宾语），将三元组整合到开放知识图谱（KG）中。基于嵌入模型检测同义词，在KG中添加同义词边，增强知识图谱的连接性。将原始段落与知识图谱结合，形成包含概念和上下文信息的复合知识图谱。
在线检索（Online Retrieval）：
- 查询链接：用嵌入模型将查询与KG中的三元组和段落进行匹配，确定图搜索的种子节点。
- 三元组过滤：基于LLM对检索到的三元组进行过滤，去除无关信息，保留与查询高度相关的知识。
- 个性化PageRank算法：基于KG的结构，应用个性化PageRank算法进行上下文感知检索，动态调整检索结果的相关性。
- 段落排名与问答：根据PageRank得分对段落进行排名，将排名靠前的段落作为上下文输入到最终的问答模型中。
个性化PageRank算法：HippoRAG 2的核心技术之一是个性化PageRank算法，模拟人类记忆中的多跳推理过程，在知识图谱中进行深度搜索，连接分散的知识节点，更好地处理复杂的关联性任务。
深度段落整合：将段落与知识图谱中的节点进行深度融合，保留段落的上下文信息，增强知识图谱的语义丰富性，让检索结果更具相关性和准确性。