首页 > 其他分享 >LLM论文研读: GraphRAG的替代者LightRAG

LLM论文研读: GraphRAG的替代者LightRAG

时间:2024-10-30 14:21:51浏览次数:1  
标签:检索 GraphRAG LightRAG 实体 生成 LLM 文本

1. 背景

最近有一个很火的开源项目LightRAG,Github6.4K+星※,北邮和港大联合出品,是一款微软GraphRAG的优秀替代者,因此本qiang~得了空闲,读读论文、跑跑源码,遂有了这篇文章。

2. LightRAG框架

2.1 已有RAG系统的局限性

1) 许多系统仅依赖于平面数据表示(如纯文本),限制了根据文本中实体间复杂的关系来理解和检索信息的能力。

2) 许多系统缺乏各种实体及其关系之间保持一致所需的上下文意识,导致可能无法完全解决用户的问题。

2.2  LightRAG的优势

1) 引入图结构:将图结构引入文本索引及相关信息检索的环节中,图结构可以有效表示实体及其关系,有利于上下文的连贯性与丰富性。

2) 综合信息检索: 从所有文档中提取相互依赖的实体的完整上下文,以确保信息检索的综合性。相对于传统的RAG,可能只关注于Chunk后的局部文本,缺乏全局综合信息。

3) 增强检索效率: 提高基于图结构的知识检索效率,以显著减少响应时间。

4) 新数据的快速适配: 能够快速适应新的数据更新,确保系统在动态环境中保持相关性。

5) 减少检索开销: 相对于GraphRAG以社区遍历的方法,LightRAG专注于实体和关系的检索,进而减少开销。

2.3 LightRAG的框架

 

 

LightRAG将基于图结构的文本索引(graph-based text indexing)无缝地集成到一个双层检索框架(dual-level retrieval framework)中,因此能够提取实体间复杂的内部关系,提高响应的丰富性和连贯性。

双层检索策略包括低级检索和高级检索,其中低级检索重点关注特定实体及其关系的准确信息,高级检索则包含了广泛的主题信息。

此外,通过将图结构与向量表征相结合,LightRAG促进了相关实体和关系的有效检索,同时基于结构化的知识图谱中相关的信息,增强了结果的全面性。

LightRAG无需重复构建整个索引,降低了计算成本且加速了适配,而且其增量更新算法保障了新数据的及时整合。

2.3.1 基于图的文本索引

1) 实体及关系抽取:LightRAG先将大文本切分为小文本,然后利用LLM识别并抽取小文本中各种实体及其关系,此举可便于创建综合的知识图谱,prompt示例如下:

 

 

2) 使用LLM性能分析功能生成键值对:使用LLM提供的性能分析函数,为每个实体及每条关系生成一个文本键值对(K, V),其中K是一个单词或短语,便于高效检索,V是一个文本段落,用于文本片段的总结

3) 去重以优化图操作:通过去重函数识别并合并来自不同段落的相同实体和关系。有效地减少了与图操作相关的开销,通过最小化图的大小,从而实现更高效的数据处理。

2.3.2 双层检索机制

1) 在细节层和抽象层分别生成查询键:具体查询以细节为导向,许精确检索特点节点或边相关信息;抽象查询更加概念化,涵盖更广泛的主题、摘要,其并非与特定实体关联。

2) 双层检索机制:低级检索聚焦于检索特定实体及其属性或关系信息,旨在检索图谱中指定节点或边的精确信息;高级检索处理更广泛的主题,聚合多个相关实体和关系的信息,为高级的概念及摘要提供洞察力。

3) 集成图以及向量以便高效检索:通过图结构和向量表示,使得检索算法有效地利用局部和全局关键词,简化搜索过程并提高结果的关联性。具体分为如下步骤:

a. 查询关键词提取:针对给定的问题,LightRAG的检索算法首先分别提取局部查询关键词和全部查询关键词

关键词提取的prompt如下:

 

 

b. 关键词匹配:检索算法使用向量数据库来匹配局部查询关键词与候选实体,以及全局查询关键词与候选关系(与全局关键词关联)

c. 增强高阶关联性: LightRAG进一步收集已检索到的实体或关系的局部子图,如实体或关系的一跳邻近节点

2.3.3 检索增强回答生成

1) 使用已检索信息: 利用已检索的信息,包括实体名、实体描述、关系描述以及原文片段,LightRAG使用通用的LLM来生成回答。

2) 上下文集成及回答生成: 将查询串与上下文进行整合,调用LLM生成答案。

2.3.4 整体过程示例

 

 

3. 实验

3.1 数据源

从UltraDomain基准中选取了4个数据集,分别包括农业、计算机科学、法律、混合集,每个数据集包含60W-500W个token。

 

 

3.2 问题生成

为了评估LightRAG的性能,首先通过LLM生成5个RAG用户,且为每个用户生成5个任务。每个用户均具有描述信息,详细说明了他们的专业知识和特征,以引发他们提出相关问题。每个用户任务也具有描述信息,强调其中一个用户在于RAG交互时的潜在意图。针对每个用户任务的组合,LLM生成5个需要理解整个数据集的问题。因此,每个数据集共产生125个问题。

问题生成的prompt如下:

 

 

3.3 基线模型

选取的4个基线模型包括Naive RAG, RQ-RAG, HyDE, GraphRAG。

3.4评价维度及细节

实验中,向量检索采用nano 向量库,LLM选择GPT-4o-mini,每个数据集的分块大小为1200,此外收集参数(gleaning parameter,目的在于仅通过1轮LLM无法完全提取对应的实体或关系,因此该参数旨在增加多次调用LLM)设置为1。

评价标准采用基于LLM的多维度比较方法,使用GPT-4o-mini针对LightRAG与每个基线的响应进行排名。主要包含如下4个维度:全面性(回答多大程度解决了问题的所有方面和细节)、多样性(与问题相关的不同观点,答案的多样性和丰富性如何)、接受度(答案是否有效使读者理解主题并做出明确判断)、整体评价(评估前三个标准的累积评价)。

评价prompt如下:

 

 

3.5 实验结果

3.5.1 与基线RAG方法比较

 

 

3.5.2 双层检索及基于图结构的索引增强消融结果

 

 

3.5.3 具体示例研究

 

 

3.5.4 与GraphRAG的成本比较

 

 

4. 整体工作流

图片建议放大,看的更清楚~

 

 

 

LightGraph的源码可读性非常强,建议看官们可以基于上面这张流程图,逐步调试LightGraph,以了解其检索和生成两个模块的具体细节。

如果源码层面有问题的话,可以私信或评论进一步交流~

5.总结

一句话足矣~

本文针对开源的LightRAG论文研读以及原理分析,包括核心模块、框架的整体工作流程等内容。

如果想免费获取使用GPT-4o-mini的api接口,以及对原理或源码不清楚的看官,可私信或评论沟通。

6.参考

1) LightGraph论文地址: https://arxiv.org/pdf/2410.05779v1

2) LightGraph源码地址:https://github.com/HKUDS/LightRAG

 

 

标签:检索,GraphRAG,LightRAG,实体,生成,LLM,文本
From: https://www.cnblogs.com/mengrennwpu/p/18515750

相关文章

  • 终于有了!!!基于Langgraph使用本地LLM搭建agent!!!
    需求Langchain是使用闭源LLM实现agent搭建的,Langgraph官网给的例子是基于Claude,其他一些agent例子也是基于OPENAI的,但是对于很多私有化场景,使用本地LLM搭建agent是非常重要的。但是网上并没有相关的教程,捣鼓了两天,捣鼓出来Ollama+Langgraph实现的基于本地LLM的agent搭建模......
  • 2025秋招LLM大模型多模态面试题(十三)- rag(检索增强生成)技术
    1.基本概念检索增强LLM(RetrievalAugmentedLLM),简单来说,就是给LLM提供外部数据库,对于用户问题(Query),通过一些信息检索(InformationRetrieval,IR)的技术,先从外部数据库中检索出和用户问题相关的信息,然后让LLM结合这些相关信息来生成结果。下图是一个检......
  • GraphRAG原理及部署实战(GraphRAG系列第一篇)
        RAG在大模型时代,被寄予了厚望,但在近一年多各大小公司的实施过程中,其效果远没有抖音中宣传的那么振奋人心,其原因是多方面的。这篇文章就RAG中的一个弱项--局部性来展开讨论。一、RAG原理       图1描述了RAG的原理,用户输入了一个指令Instruct,RAG将其与Docu......
  • AI大模型(LLMs)五大热点研究方向分享!
    近年来,人工智能大模型(LLMs)的研究不断深入,衍生出了多个热门方向,聚焦提升模型的性能、适应性与应用场景,推动了技术的突破与革新。今天为大家梳理一下AI顶会上的五大热门研究方向,希望为那些专注大模型方向的研究者带来一些灵感和参考。Part.01检索增强生成(RAG)大模型虽然在生......
  • 清华:细粒度强化学习优化LLM工具使用
    ......
  • 人大:优化工具文档提升LLM工具使用
    ......
  • 全面解释人工智能LLM模型的真实工作原理(完结)
    前一篇:《全面解释人工智能LLM模型的真实工作原理(三)》序言:本节作为整篇的收官之作,自然少不了与当今最先进的AI模型相呼应。这里我们将简单介绍全球首家推动人工智能生成人类语言的公司——OpenAI的GPT模型的基本原理。如果你也希望为人类的发展做出贡献,并投身于AI行业,这无疑是一......
  • 大模型LLM:为什么简单的乘法ChatGPT会算错?
    首先“心算”三位整数乘法不管对人类还是对模型来说都不简单的。如果使用CoT的方式就类似于“笔算”,如果使用编程的方式就类似于人拿着计算器算。我将问题更精确一点地表述为“模型如何在心算多位整数乘法上接近或超过人的水平?”这个问题困扰了我很久,简单乘法是推理能力的......
  • 全面解释人工智能LLM模型的真实工作原理(三)
    前一篇:《全面解释人工智能LLM模型的真实工作原理(二)》序言:前面两节中,我们介绍了大语言模型的设计图和实现了一个能够生成自然语言的神经网络。这正是现代先进人工智能语言模型的雏形。不过,目前市面上的语言模型远比我们设计的这个复杂得多。那么,它们到底复杂在什么地方?本节将为你......
  • 解密prompt系列41. GraphRAG真的是Silver Bullet?
    这一章我们介绍GraphRAG范式,算着时间也是该到图谱了,NLP每一轮新模型出来后,往往都是先研究微调,然后各种预训练方案,接着琢磨数据,各种主动学习半监督,弱监督,无监督,再之后就到图谱和对抗学习~前一阵GraphRAG的风吹得呼呼的,经常被问你们也GraphRAG了么?但GraphRAG虽好但并非RAG的Silv......