首页 > 其他分享 >【AI大模型】从 RAG 1.0到RAG 2.0,这次做对了什么?

【AI大模型】从 RAG 1.0到RAG 2.0,这次做对了什么?

时间:2024-10-16 17:52:01浏览次数:9  
标签:检索 RAG 1.0 AI 模型 LLM 上下文

RAG是目前最流行的补充生成式人工智能模型的方式,最近 RAG 的开创者提出了新的上下文语言模型 (CLM) ,他们称之为“ RAG 2.0 ”。

今天让我们一块来从RAG目前的原理和缺点出发,看看他们所提出的RAG2.0是否能够为行业带来新的希望。

LLM的时间有效性

您应该知道,所有独立的大型语言模型 (LLM)(例如 ChatGPT 等)都有知识截止点。

这意味着预训练是一次性的练习(与持续学习方法不同)。换句话说,LLM 掌握的数据是在某个时间点之前的。

例如,在写文章时,ChatGPT 更新至 2023 年 4 月。因此,他们不准备回答该日期之后发生的事实和事件。

而这就是 RAG 发挥作用的地方。

语义相似性

顾名思义,这个想法是从已知的数据库中检索数据,这些数据是LLM以前从未见过的数据,并将其实时输入到模型中,以便它已经更新,在语义上相关的上下文来提供准确的答案。

但这个检索过程是如何进行的呢?

整个架构源于一个原则:检索与请求或 prompt 上下文相关的语义有意义的数据的能力。

这个过程涉及到三个元素的使用:

  1. embedding 模型
  2. 检索器,通常是矢量数据库
  3. 还有生成器,LLM

首先也是最重要的,为了使此检索过程正常进行,您需要对数据进行 embedding ,即数字向量化。

更重要的是,这些嵌入具有相似性原则:相似的概念将具有相似的向量。

完成embedding后,我们将它们插入向量数据库(检索器)。

应用相似性原则

然后,每当用户发送如下请求*“给我与‘黄猫’类似的结果”时,*矢量数据库就会执行“语义查询”。

通俗地说,它提取与用户查询最接近的向量(距离)。

由于这些向量代表基本概念,因此相似的向量将代表相似的概念,在本例中是其他猫。

一旦我们提取了内容,我们就构建 LLM prompt,封装包括:

  • 用户的请求
  • 提取的内容
  • 一般来说,还有一组系统指令

简而言之,这就是 RAG,一个为用户实时查询提供相关内容以增强 LLM 响应的系统。

RAG 系统之所以起作用,首先要归功于LLM的最大超能力:上下文学习,它允许模型使用以前未见过的数据来执行准确的预测,而无需权重训练。

但这个过程听起来好得令人难以置信,当然,事情并不像看起来那么令人惊奇。

RAG的问题:缝合怪

前 RAG 系统做一个形象的比喻,就是下面的裤子:

尽管这些裤子可能适合某些观众,但大多数人永远不会穿它们,因为没有统一性,尽管打补丁的初衷是希望让人接受。

这种类比背后的原因是,标准 RAG 系统组装了三个不同的组件,这些组件分别经过预先训练,并且根据定义,它们从来不应该组合在一起。

而在RAG 2.0系统中从一开始就被定义为“一件事”。

RAG2.0

我们将上下文语言模型 (CLM) 与跨多个轴的冻结 RAG 系统进行了比较:

  • 开放域问答: 我们使用规范的自然问题(NQ)和TriviaQA数据集来测试每个模型正确检索相关知识并准确生成答案的能力。我们还在单步检索设置中评估 HotpotQA (HPQA) 数据集上的模型。所有数据集都使用完全匹配 (EM) 指标。
  • 忠实性: HaluEvalQA 和 TruthfulQA 用于衡量每个模型保持基于检索到的证据和幻觉的能力。
  • 新鲜度: 我们使用网络搜索索引来衡量每个 RAG 系统泛化到快速变化的世界知识的能力,并在最近的 FreshQA 基准测试中显示准确性。

RAG 2.0的核心创新在于它的端到端优化设计,将语言模型和检索器视为一个整体进行训练和微调。这种设计不仅提高了模型在特定任务上的准确性,也提升了其适应新问题的能力,使其在多项标准测试中达到了前所未有的性能水平。

与传统的 RAG 系统相比,RAG 2.0能够更有效地处理知识密集型任务,因为它不受训练期间接触资料的限制。通过动态检索外部资料,如Wikipedia、Google或内部公司文件,RAG 2.0能够获取并利用最新、最相关的信息来增强其回答的准确度和可靠性。

在实践中,整个系统在连接时进行端到端训练,就像假设LLM应该始终有一个与之绑定的矢量数据库以保持更新。

这意味着,在反向传播过程中,训练这些模型的算法,梯度不仅通过整个 LLM 传播,而且还通过检索器传播,以便整个系统作为一个整体从训练中学习数据。

结果也证明了这一点:

尽管使用的独立模型肯定比 GPT-4 差,但这种新方法的性能优于 GPT-4 和其他检索系统之间所有其他的 RAG 1.0 组合。

原因很简单:在 RAG 1.0 中,我们单独训练事物,然后将它们缝合在一起,并希望得到最好的结果。但在 RAG 2.0 中,情况大不相同,因为所有组件从一开始就在一起。

但尽管 RAG 2.0 的优势显而易见,但仍然存在一个大问题。

RAG的未来面临挑战

尽管 RAG 2.0 看起来似乎带来了巨大的好处**,因为它的设计专门针对不愿意与 LLM 提供商共享机密数据的公司,但现实中它的落地面临巨大挑战。**

超长上下文

我相信您非常清楚这样一个事实,即我们今天的前沿模型,例如 Gemini 1.5 或 Claude 3 等模型,拥有巨大的上下文窗口,在其生产发布的模型中多达 100 万个token(75 万个单词),而在实验室中更是达到了1000万token(750 万个单词)

通俗地说,这意味着这些模型可以在每个提示中输入非常长的文本序列。

作为参考,《指环王》书籍总共有 576,459 个单词,而《哈利·波特》的整本书传奇大约有 1,084,170 个单词。因此,一个 750 万字的上下文窗口可以在每个提示中将两个故事组合在一起,五倍。

在这种情况下,我们真的需要一个知识库检索器,而不是仅仅在每个prompt中提供信息

放弃此选项的原因之一可能是准确性。序列越长,模型检索正确的上下文就越困难,对吗?

另一方面,RAG 过程允许仅选择语义相关的数据,而不是在每个 prompt 中提供整个上下文,从而使其整体上成为一个更高效的过程。

然而,的研究正在超长上下文中,LLM的工作也显示出几乎 100% 的准确性。

这些模型无论长度如何都能表现出惊人性能的背后的技术支持是,这些模型的基本操作符——注意力机制——具有绝对的全局上下文,因为注意力机制迫使序列中的每一个单独的令牌(也就是一个单词或子词)去关注序列中每一个其他的之前的单词。

这确保了无论依赖关系有多远,无论信号有多小(关键信息可能存储在一个距离数百万单词的单个单词中),模型应该能够——而且确实能够——检测到它。

因此,在我看来,RAG 最终能否生存并不取决于准确性,而是取决于技术之外的另一个关键因素:

成本。

需要商业落地来验证

如今,由于 Transformer 无法压缩上下文,较长的序列不仅意味着成本的二次增加(序列增加 2 倍意味着计算成本增加 4 倍,或者增加 3 倍意味着计算成本增加 9 倍),而且还意味着由于KV Cache大小的增加而爆炸。简而言之,运行很长的序列是非常昂贵的。

KV缓存是模型的“缓存内存”,避免不得不重新计算大量冗余的注意力数据,否则这个过程在经济上是不可行的。这里是关于KV缓存是什么以及它如何工作的深入回顾。

简而言之,运行非常长的序列是非常昂贵的,以至于对于具有极长序列长度的模态,如DNA,甚至不考虑使用Transformer。

事实上,在像EVO这样的DNA模型中,研究人员使用了海纳(Hyena)操作符而不是注意力来避免前面提到的二次方关系。海纳操作符使用长卷积而不是注意力来以次二次方的成本捕捉长距离依赖。

本质上,虽然你在时间域中计算卷积,但你是作为频率域中的逐点乘积来计算它,这更快、更便宜。其他替代方案寻求一种混合方法,而不是完全放弃注意力,而是找到注意力和其他操作符之间的最佳平衡点,以在保持性能的同时降低成本。

总结

最近的示例包括Jamba,它巧妙地将Transformer与其他更高效的架构(如Mamba)混合在一起。

Mamba、Hyena、Attention……你可能认为我只是为了证明一个观点而随意列举一些花哨的词汇。

所有这些名字背后都归结为同一个原则:它们是揭示语言模式的不同方式,帮助我们的AI模型理解文本。

注意力机制驱动了当今99%的模型,其余的只是在尝试找到尽可能最小的性能降低的更便宜的方式,使大型语言模型(LLM)更加经济。

总而言之,我们很快就能看到极长序列的处理成本仅为目前价格的一小部分,这应该会增加对RAG架构需求的怀疑。

如果RAG可以成为平衡成本的一个好方案,那么未来应该会有更好的发展。

如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等,

标签:检索,RAG,1.0,AI,模型,LLM,上下文
From: https://blog.csdn.net/AAI666666/article/details/142960853

相关文章

  • 27K star!有没有显卡都能搞,Langchain-Chatchat 快速基于LLM构建本地智能知识库
    觉得搞一个AI的智能问答知识库很难吗?那是你没有找对方向和工具,今天我们分享一个开源项目,帮助你快速构建基于Langchain和LLM的本地知识库问答,在GitHub已经获得27Kstar,它就是:Langchain-Chatchat......
  • C#线程---await
    简介:前面异步编程的不足:它允许我们以模块化的方式设计程序,来组合不同的异步操作。遗憾的是:一:当阅读此类程序时仍然非常难理解程序的实际执行顺序。在大型程序中将会有许多相互依赖的任务和后续操作,用于运行其他后续操作的后续操作,处理异常的后续操作,并且它们都出现在程序代......
  • 拥抱AI-海关机场护照查验-护照查验接口-护照识别真伪核验
    在全球化日益加深的今天,国际旅行已成为人们生活中不可或缺的一部分。无论是商务出行还是休闲旅游,护照作为国际通行的身份证明文件,其真实性和有效性至关重要。为了确保国家安全和旅客的顺利通关,海关机场在护照查验过程中采用了先进的护照识别真伪核验技术。什么是护照查验......
  • 打卡信奥刷题(056)用C++工具信奥P10566[普及组/提高] 「Daily OI Round 4」Analysis
    「DailyOIRound4」Analysis题目描述小C的信息技术老师给小C布置了一项作业,作业内容如下:有一个字符串,包含大小写字母和数字。你可以把任意一个字符变成另外一个字符,设变化之前字符的ASCII码为a......
  • Vulhub Bob: 1.0.1靶机详解
    项目地址https://download.vulnhub.com/bob/Bob_v1.0.1.ova实验过程开启靶机虚拟机使用nmap进行主机发现,获取靶机IP地址nmap192.168.47.1-254根据对比可知Bob:1.0.1的一个ip地址为192.168.47.173扫描Bob:1.0.1的操作系统,端口及对应服务nmap-A-p-192.168.......
  • AI预测福彩3D采取888=3策略+和值012路或胆码测试10月16日新模型预测第112弹
              经过100多期的测试,当然有很多彩友也一直在观察我每天发的预测结果,得到了一个非常有价值的信息,那就是9码定位的命中率非常高,100多期一共只错了12次,这给喜欢打私房菜的朋友提供了极高价值的预测结果~当然了,大部分菜友还是走的正常渠道,因此,得想办法进行缩水,......
  • AI预测体彩排3采取888=3策略+和值012路或胆码测试10月16日升级新模型预测第106弹
             经过100多期的测试,当然有很多彩友也一直在观察我每天发的预测结果,得到了一个非常有价值的信息,那就是9码定位的命中率非常高,已到达90%的命中率,这给喜欢打私菜的朋友提供了极高价值的预测结果~当然了,大部分菜友还是走的正常渠道,因此,得想办法进行缩水,尽可能少的......
  • AI虚拟主播生成
    AI虚拟主播,作为科技与娱乐融合的产物,正逐渐改变着我们的直播观看体验,它们不仅拥有逼真的外貌,还能通过智能算法模拟出人类的情感表达与互动交流,让观众仿佛置身于真实的直播场景中。而“AI虚拟主播生成!”这一口号,更是标志着这一技术的成熟与普及,为直播行业带来了前所未有的变革......
  • AI模型的发展
    在ResNet之后,深度学习领域涌现出了许多新的模型,其中一些受到了广泛关注和应用。以下是一些比较重要的模型:DenseNet:与ResNet类似,DenseNet也是一种深度学习的模型,它的主要特点是加强了层与层之间的连接。在DenseNet中,每个层都会与前一层和后一层相连,而不是像ResNet中只有相......
  • 山东大学管理学院携手和鲸“101 数智领航计划”,为“经济管理+AI”学科建设注入新动力
    近年来,高校在“四新”理念的指导下,不断加速探索教学资源建设的新路径,以推动高等教育的“质量革命”。山东大学管理学院积极响应这一趋势,全面优化课程建设路径,推动教育模式从“学知识”向“强能力”转变。学院依托其国家级实验教学示范中心——山东大学管理学科实验中心,积极探索基于......