首页 > 其他分享 >RAG与长上下文LLM(Long-Context LLM):一场AI领域的对决

RAG与长上下文LLM(Long-Context LLM):一场AI领域的对决

时间:2024-12-02 11:03:04浏览次数:6  
标签:检索 RAG AI 计算成本 LLM 上下文

当前AI领域快速发展,各种新概念层出不穷,其中Retrieval-Augmented Generation(简称RAG)和长上下文Large Language Models(LLMs,以下简称长上下文LLM)成为了当下热议的话题。开发者和研究人员在特定AI场景中,往往难以抉择是选择基于检索增强生成的系统架构(RAG(Retrieval Augmented Generation)及衍生框架:CRAG、Self-RAG与HyDe的深入探讨),还是为了节省工作量而直接使用长上下文的大型语言模型(LLM)?今天我们一起来聊一聊这两种技术。

图片

一、RAG:检索增强生成的奥秘

1. RAG的定义与起源

检索增强生成(Retrieval-Augmented Generation,简称RAG)是一种通过引入可信赖的数据源(如经确认的权威来源或组织内部知识库)来增强大型语言模型(LLM)能力的技术。这一术语源自MetaAI(前身为Facebook AI Research)2020年发表的一篇论文《Retrieval Augmented Generation for Knowledge Intensive tasks》(面向知识密集型任务的检索增强生成)。RAG在生成过程中嵌入了一个数据检索步骤,这一步骤服务于多重目的。

2. RAG的运作机制

RAG的核心在于其检索和生成相结合的能力(RAG(检索增强生成)新探索:IdentityRAG 提高 RAG 准确性)。当接收到查询时,RAG首先会从预定义的知识库中检索相关信息。这些信息经过筛选和排序后,被输入到大型语言模型中,模型再根据这些信息生成响应。这一过程确保了响应的准确性和相关性,因为所有信息均来自可信的数据源。

图片

3. RAG的优势

  • 准确性:由于RAG从可信数据源中检索信息,因此其生成的响应具有很高的准确性。

  • 消除幻觉:大型语言模型有时会产生与输入无关的“幻觉”信息。RAG通过引入外部知识库,有效避免了这一问题。

  • 适用性广:RAG适用于各种需要知识密集型处理的任务,如问答系统、对话生成等。

4. RAG的挑战

尽管RAG具有诸多优势,但其实现也面临一些挑战。例如,如何高效地从大量数据中检索相关信息,以及如何确保检索到的信息与查询高度相关且准确,都是需要解决的问题(检索增强思考 RAT(RAG+COT):提升 AI 推理能力的强大组合)。

二、长上下文LLM:AI领域的新宠

1. 长上下文LLM的定义

长上下文LLM是近年来AI领域的新成员,它们以能够处理大量数据而著称。这些模型具有巨大的“上下文窗口”,意味着它们能够同时处理大量数据,无需外部存储。例如,llama3.2最新的开源模型支持到128k上下文(Llama 3.2:开启多模态AI的新篇章)。

图片

2. 长上下文LLM的优势

  • 处理能力强:长上下文LLM能够处理大量数据,这对于需要处理复杂任务的应用来说至关重要。

  • 易用性:这些模型的实现相对简单,无需额外的数据库设置。这使得它们在许多AI应用中成为理想选择。

  • 性能优越:由于能够同时处理大量数据,长上下文LLM在性能上通常优于其他模型。

3. 长上下文LLM的局限性

尽管长上下文LLM具有强大的处理能力,但它们也面临一些局限性。例如,由于需要处理大量数据,这些模型的计算成本通常较高。此外,对于某些特定任务来说,可能并不需要如此强大的处理能力,这时使用长上下文LLM可能会造成资源浪费。

三、RAG与长上下文LLM的对比分析

图片

1. 性能分析

长上下文 LLM 在处理长文本方面具有天然的优势,其巨大的上下文窗口可以容纳大量的文本信息。例如,在对一部长篇小说进行分析时,它可以一次性处理整个小说的内容,从而更好地理解小说中的人物关系、情节发展等。

RAG 在处理长文本时,需要通过检索相关的知识片段来辅助生成。如果长文本中的知识与知识库中的内容匹配度高,那么它也可以较好地处理长文本。但如果知识库中缺乏相关知识,或者检索系统无法准确找到相关片段,其处理效果可能会受到影响

2. 成本分析

1)计算成本

长上下文 LLM 需要大量的计算资源来运行,其计算成本较高。这包括硬件设备的购买和租赁成本,以及能源消耗成本等。例如,为了运行一个高性能的长上下文 LLM,可能需要购买多台高端 GPU 服务器,并且需要支付高额的电费。

RAG 的计算成本相对较低,因为它不需要像长上下文 LLM 那样处理大量的数据。它主要的计算成本在于数据检索和与 LLM 的集成。例如,通过优化检索系统和合理配置服务器资源,可以降低 RAG 的计算成本。

2)开发成本

RAG 的开发成本相对较高,因为它需要构建和管理知识库,以及设置数据检索系统和与 LLM 的集成。这需要开发人员具备数据库管理、检索算法优化等多方面的技能。例如,在开发一个基于 RAG 的医疗问答系统时,需要建立医学知识库,并且优化检索算法,以确保能够快速准确地找到相关的医学知识。

长上下文 LLM 的开发成本相对较低,因为它不需要复杂的检索系统和知识库设置。开发者只需要将其集成到应用程序中即可。例如,在开发一个简单的聊天应用时,使用长上下文 LLM 只需要进行简单的接口调用和参数设置。

3. 适用性分析

RAG 在知识密集型领域具有广泛的应用前景。例如,在医学、法律、金融等领域,需要准确的知识和信息。RAG 可以通过构建专业的知识库,从权威的数据源获取知识,从而为这些领域提供高质量的服务。例如,在医学领域,可以建立医学知识库,用于回答医生和患者的问题,提高医疗服务的质量。

长上下文 LLM 在知识密集型领域也有一定的应用,但需要谨慎使用。由于其可能出现幻觉问题,在一些需要准确知识的场景下,可能需要结合其他技术或进行进一步的验证。例如,在法律领域,可以使用长上下文 LLM 作为辅助工具,帮助律师快速了解相关法律案例的大致情况,但最终的法律解释和决策还是需要依靠专业的法律知识和经验。

四、SELF-ROUTE:一种平衡性能与成本的解决方案

图片

鉴于RAG和长上下文LLM之间的权衡,科学家们提出了一种名为“SELF-ROUTE”的混合技术。SELF-ROUTE是一个两步过程:

  1. RAG-and-Route步骤:系统使用 RAG 来检索与查询相关的信息,并提示大型语言模型(LLM)来判断查询是否可以回答,并在可能的情况下生成答案。如果模型认为可以回答,那么就使用 RAG 的结果作为最终答案。如果模型认为无法回答,那么系统将进入第二步。

  2. 长上下文预测步骤:将整个上下文提供给模型,模型基于此扩展输入生成最终响应。

在评估中,Self-Route 在三个最新的大型语言模型(Gemini-1.5-Pro、GPT-4、GPT-3.5-Turbo)上进行了测试,结果显示 Self-Route 在保持与 LC 相当性能的同时,显著减少了计算成本。例如,对于 Gemini-1.5-Pro,成本降低了 65%,对于 GPT-4 成本降低了 39%。

此外,研究发现 RAG 和 LC 在超过 60% 的查询中给出了相同的预测结果,这表明 RAG 可以在不牺牲性能的情况下减少计算资源的使用。Self-Route 的提出,为长文本处理提供了一种新的高效能方法,有助于推动自然语言处理领域的发展。

图片

总之RAG和长上下文LLM各有千秋,选择哪种技术取决于具体的应用场景和需求。当需要降低计算成本且性能不是首要考虑时,RAG是一个合理的选择(检索增强思考 RAT(RAG+COT):提升 AI 推理能力的强大组合)。而当任务要求高性能、准确性和对长上下文有深入理解时,长上下文LLM则更具优势。而SELF-ROUTE方法则提供了一种平衡性能与成本的解决方案,为AI应用的发展提供了新的思路。

标签:检索,RAG,AI,计算成本,LLM,上下文
From: https://blog.csdn.net/llm_way/article/details/144149555

相关文章

  • Failed to execute goal org.apache.maven.pluginsmaven-compiler-plugin3.8.1compile
    1.报错信息Failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile(default-compile)onprojectrepair-wheelset-service:FatalerrorcompilingFailedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile(de......
  • Language models scale reliably with over-training and on downstream tasks
    本文是LLM系列文章,针对《Languagemodelsscalereliablywithover-trainingandondownstreamtasks》的翻译。语言模型可以通过过度训练和下游任务可靠地扩展摘要1引言2为过度训练和下游任务制定缩放法3构建缩放试验台4结果:可靠的推断5相关工作6局限性......
  • 界面控件DevExpress WPF v24.2新功能预览 - 人工智能(AI)集成
    DevExpressWPF拥有120+个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpressWPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。无论是Office办公软件的衍伸产品,还是以数据为中心......
  • 经济下行,利润却翻倍!AI救了这些企业的命
    大家好,我是陈哥,今天想和大家聊聊企业落地AI~自2022年底ChatGPT问世以来,AI热度高居不下,这场科技革命正以不可阻挡之势改变着世界。SpaceX和特斯拉的董事会成员史蒂夫·贾维森曾说:“机器学习令我们能够构建超越人类理解的软件解决方案,还能向我们展示人工智能如何为每个行业提供支......
  • fatal: 无法访问 ‘https://github.com/moveit/moveit2_tutorials.git/‘:Failed to co
    github在网页可以访问命令行访问就报错,排除网络问题正克隆到'moveit2_tutorials'...fatal:无法访问'https://github.com/moveit/moveit2_tutorials/':Failedtoconnecttogithub.comport443after44ms:Couldn'tconnecttoserver报错如上,没有登陆github,网......
  • 大数据开发治理--大数据AI公共数据集分析
    本文以分析公共数据集的数据示例,为您展示如何使用DataWorks进行简单数据分析工作。本教程以申请免费资源为例为您展示详细操作步骤,您也可以使用付费资源,操作类似。教程简介阿里云DataWorks基于多种大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开......
  • CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis
    文章标题CoD,TowardsanInterpretableMedicalAgentusingChainofDiagnosis发表日期2024.9.15文章地址https://arxiv.org/abs/2407.133011.文章解决的问题诊断过程透明性缺失:LLMs在医疗诊断时类似于黑箱操作,虽能给出诊断......
  • 企业博客与SEO优化:智能ai平台的实战应用
    在数字化营销领域,搜索引擎优化(SEO)对于提升网站流量、增强品牌曝光度具有至关重要的作用。企业博客作为品牌传播的重要渠道之一,通过科学的SEO优化策略,可以显著提升博客在搜索引擎中的排名,从而吸引更多潜在客户。本文将深入探讨企业博客与SEO优化的关系,并详细介绍如何利用HelpLook平......
  • 优化企业博客内容:策略与ai工具的应用
    在数字化营销日益重要的今天,企业博客不仅是品牌传播的重要渠道,也是吸引潜在客户、建立品牌权威性的关键工具。然而,要让企业博客真正发挥作用,关键在于内容的优化。本文将探讨优化企业博客内容的策略,并详细介绍如何利用HelpLook平台来实施这些策略,以提升博客的吸引力和影响力。一......
  • HarmonyOS:异步并发 (Promise和async/await)
    一、并发概述并发是指在同一时间内,存在多个任务同时执行的情况。对于多核设备,这些任务可能同时在不同CPU上并行执行。对于单核设备,多个并发任务不会在同一时刻并行执行,但是CPU会在某个任务休眠或进行I/O操作等状态下切换任务,调度执行其他任务,提升CPU的资源利用率。为了......