首页 > 其他分享 >一文梳理RAG(检索增强生成)的现状与挑战

一文梳理RAG(检索增强生成)的现状与挑战

时间:2024-09-09 21:52:00浏览次数:8  
标签:检索 RAG 知识 模型 知识库 内容 梳理

一 RAG简介

大模型相较于过去的语言模型具备更加强大的能力,但在实际应用中,例如在准确性、知识更新速度和答案透明度方面,仍存在不少问题,比如典型的幻觉现象。因此,检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息,然后再让模型根据这些信息进行总结归纳,这样便能确保模型不会胡说八道,并且回答的内容是有所依据的。
尽管这几年大模型发展迅速,但至少还存在以下问题:
● 准确性: LLM是自回归模型,基于前一个词来推测下一个词,这种概率不可避免会产生错误的信息。
● 知识更新速度: LLM训练数据总是有限的,这可能导致模型的知识更新滞后,因此产生过时回答。
● 答案透明度: LLM 生成的内容往往缺乏明确的信息来源,影响内容的可信度。
● 领域专业知识能力欠缺: LLM在预训练阶段是由各种领域的数据训练得到,这些数据一般分布都比较均匀,没有哪个领域的数据占据了绝对优势,因此在处理特定领域的专业知识时,效果往往不会太好。

二 RAG与微调效果对比

性能对比 RAG 微调
知识更新速度 直接更新知识库内容即可,无需重新训练,更新成本低 需要重新训练来保持知识和数据的更新,更新成本高
专业性 取决于知识库中的数据,无明显专业性倾向 针对某一领域数据微调后,可以具备一定的专业性
可解释性 可以追溯到具体的数据来源,有较好的可解释性 可解释性相对较低,回答质量取决于预训练的数据质量
计算资源 需要额外的资源来支持检索机制和数据库的维护,如向量化模型和向量知识库。 对计算资源的要求较高,取决于微调的数据量
推理延迟 增加了输入向量化和检索步骤的耗时 普通 LLM 推理耗时
降低幻觉 通过检索到的真实信息生成回答,降低了产生幻觉的概率 模型学习特定领域的数据有助于减少幻觉,但面对未见过的输入时仍可能出现幻觉

三、RAG 的工作流程

不同学者对RAG的定义略有不同,但公认一般至少包含如下两个阶段。

检索阶段

根据用户的输入,使用向量模型将查询内容转换为向量,计算查询向量与知识库中文档块向量之间的相似性,并根据相似度水平选出最相关的前 K 个文档块作为当前问题的补充信息。

生成阶段

将给定的问题与检索到的补充信息合并,构造出一个新的Prompt,让大模型根据提供的信息来回答问题的任务。

四、RAG的局限性

检索过程

RAG的检索质量受到多个指标的影响。首要是低精确率(precision),即检索到的文档块中有些与查询并不直接相关,可能导致生成的回答包含不准确的信息。其次是召回率(recall)低的问题,即未能检索到所有相关的文档块,限制了生成模型获取足够的背景信息来构造完整的答案。此外,数据的过时性也是一个重要挑战,如何知识库更新频率非常高,那么知识库中可能会存在大量过时的信息,这些过时数据可能会误导模型,产生不准确的响应。

生成过程

RAG在生成过程同样面临多个问题。当检索到的信息不足时(即前面提到的召回不足),模型有可能虚构信息,根据已有的上下文生成不正确内容。另一个常见问题是不相关回答,即模型生成的答案未能准确回应用户的查询,这是因为模型无法理解检索到的知识内容与用户查询是否有关系导致。

构造prompt过程

假设已经检索到相关的知识内容,并且不存在低精确率和低召回情况,如何根据这些知识内容构造合适的prompt来引导模型回答又是另一个难点。有研究表明,根据知识内容的相关性进行间隔排序可能效果最好,即:chunk1,chunk3,chunk5,chunk4,chunk2。按照用户查询与知识内容的相关性排序为:chunk1>chunk2>chunk3>chunk4>chunk5。这种情况下只有5个知识内容,模型可能还能全部理解,当知识内容更多的时候,就无法保证召回的知识内容都能学习到。此外,当多个检索到的知识内容包含相似信息时,容易出现冗余和重复的问题,导致生成内容的重复和冗长,可能还会降低模型的回答效果。

知识库检索和维护

RAG在应用中涉及到多次检索和生成过程,通常对服务器计算资源和网络响应有较高要求,如果RAG涉及到多个智能体协同,可能还会进一步增加服务器的压力。此外,为了确保检索的准确性,知识库需要定期更新和清理。如果知识库不够完善或更新不及时,RAG生成的结果可能会基于过时或无关的信息。因此,在设计实际可用的RAG时,需要考虑如何简化知识库更新的操作。

五 RAG性能提升思路

提高检索质量

在建库阶段,可以通过调整块大小和补充额外的元信息来增加知识内容的信息丰富度,并且可以通过微调向量模型来提升模型对知识库的表示能力。在检索时,可以通过增加Rerank模型来对召回的知识内容进行筛选和排序,增强用户查询和知识内容的关联性。

提升生成质量

让模型对知识内容进行判断和筛选,过滤掉无关的知识内容,并且对相关性较高的知识内容进行排序,从而提升回答质量。

其他

减少实时的计算耗时可以采用模型蒸馏,训练更轻量级的模型来加快推理速度,减少计算资源消耗。同时可以采用离线检索或缓存机制,对于高频问题的答案进行预计算和缓存。对于知识库的日常维护,则可以引入自动化的数据更新流程,定期清理过时信息、更新领域知识库,使RAG能够处理最新的领域信息和数据。

标签:检索,RAG,知识,模型,知识库,内容,梳理
From: https://www.cnblogs.com/deeplearningmachine/p/18405420

相关文章

  • 论文框架梳理(二)——密集场景下旋转小目标检测
    前言研究型论文写作指导教材参考链接论文结构梳理(e.g.)论文:《SCRDet++:DetectingSmall,ClutteredandRotatedObjectsviaInstance-LevelFeatureDenoisingandRotationLossSmoothing》期刊:IEEETransactionsonPatternAnalysisandMachineIntelligence出......
  • 安徽大学主办、院士杰青,连续3年EI检索,稳且快易中稿-第四届机械自动化与电子信息工程国
    第四届机械自动化与电子信息工程国际学术会议(MAEIE2024)20244th InternationalConferenceonMechanicalAutomationandElectronicInformationEngineering2024年10月18-20日  中国·安徽·合肥  www.maeie.org※ 收录检索:IEEEXplore、EI(核心)、Scopus​......
  • Docker 知识梳理及其安装使用EE
    目录Docker介绍为什么Docker很受欢迎?Docker的关键组件Docker架构以及Docker的工作原理?DockerDaemonDockerClientDockerHostDockerRegistryDockerObjectsDockerImagesDockerContainersDockerStorageDocker网络Docker安装方式准备环境在线YU......
  • 信息检索
    两大类:全文检索,目录检索检索的特殊可用指令1.关键词+空格+filetype:(英文格式)+文件格式。例如:小学班级管理filetype:doc,通过此格式检索出来的信息都为word格式。后缀格式也可以改为txt、ppt和pdf。2.关键词+空格+site:+网站例如:如果想在网上购物,买一个鼠标可以这样搜索......
  • Docker 知识梳理及其安装使用
    Docker介绍Docker是一个强大的工具,用于高效开发、打包和部署应用程序。Docker是一种容器管理服务。Docker于2013年发布。它是开源的,可用于Windows、macOS和Linux等不同平台。Docker正在快速交付、测试和部署代码。这样可以减少编写代码和在生产环境中运行代码之间的延......
  • 生成式 AI 和 RAG 代理及应用程序:已准备好迎接黄金时段还是仍处于原型阶段
    高盛发布了一份题为《GENAI:花费太多,收益太少?》的报告,对生成式AI的前景表示担忧。该报告总结了领先行业在一年多的时间内花费大量资金将GenAI投入生产但收效甚微的观察结果。很明显,GenAI与传统AI一样,在从原型和演示扩展到可能直接影响实际业务成果的生产系统时面临着重......
  • 基于Pinia和Compute的持久化localStorage登录态管理Vuejs 源码教学
    piniaPinia是一个专为Vue3设计的状态管理库,它借鉴了Vuex的一些概念,但更加轻量灵活,使得状态管理变得更加简单直观。Pinia通过提供一种基于Vue3响应式API的状态管理机制,让我们可以更加优雅地管理应用程序的状态。computedVue的computed属性是一种特殊的数据属性,它们根据组......
  • 梳理2024年,螺丝钉们爱用的3款剪辑软件
    这年头,视频到处都是,就跟天上的星星一样数不清。不管你是公司里的新面孔,还是职场上的老狐狸,学会怎么剪视频,就好比找到了赢的秘诀。不管是给上司汇报工作,展示你的产品,还是自己搞点小视频记录生活,只要是剪辑得漂亮,肯定能一下子吸引大家的目光,让人记得你。咱们今天就来侃侃现在超火......
  • NGraphX v1.9.0发布 新增从Pandas DataFrame中读取文档构建向量索引,并优化向量检索器
    新增功能PandasDataFrame读取器:新增功能,支持从PandasDataFrame中加载LlamaIndex所需的文档。任何能加载进PandasDataFrame的文档数据均可连接此节点。功能优化DuckDB&Neo4J检索器:优化消息传递机制,现在可以从上游连接模版消息节点,便于进行进一步处理(如扩写、改......
  • RabbitMQ常用知识点梳理
    RabbitMQrabbitmq工作模式简单模式简单模式是最基本的工作模式,其中生产者直接发送消息到队列,消费者从队列中消费消息。实际上使用的是默认的direct类型的交换机。工作队列模式生产者发送消息到队列,多个消费者订阅同一个队列,并且消息会被均匀地分发给各个消费者(使用轮询......