首页 > 其他分享 >RAG (Retrieval-Augmented Generation) 与 iRAG (image based Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation) 与 iRAG (image based Retrieval-Augmented Generation)

时间:2024-11-17 14:43:55浏览次数:3  
标签:检索 RAG Generation LLM Retrieval Augmented

RAG {Retrieval-Augmented Generation} 与 iRAG {image based Retrieval-Augmented Generation}

1. RAG (Retrieval-Augmented Generation,检索增强生成)

https://aws.amazon.com/what-is/retrieval-augmented-generation/

Retrieval-Augmented Generation (RAG) is the process of optimizing the output of a large language model, so it references an authoritative knowledge base outside of its training data sources before generating a response.
检索增强生成 (Retrieval-Augmented Generation, RAG) 是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。

大型语言模型 (Large Language Model, LLM) 用海量数据进行训练,使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在 LLM 本就强大的功能基础上,RAG 将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法,让它在各种情境下都能保持相关性、准确性和实用性,有助于消除大模型的幻觉问题。

1.1. LLM 存在的问题

LLM 技术的本质在 LLM 响应中引入了不可预测性,LLM 训练数据是静态的,并引入了其所掌握知识的截止日期。

LLM 面临的已知挑战包括:

  • 在没有答案的情况下提供虚假信息。
  • 当用户需要特定的当前响应时,提供过时或通用的信息。
  • 从非权威来源创建响应。
  • 由于术语混淆,不同的培训来源使用相同的术语来谈论不同的事情,因此会产生不准确的响应。

您可以将大型语言模型看作是一个过于热情的新员工,他拒绝随时了解时事,但总是会绝对自信地回答每一个问题。不幸的是,这种态度会对用户的信任产生负面影响。

RAG 是解决其中一些挑战的一种方法。它会重定向 LLM,从权威的、预先确定的知识来源中检索相关信息。组织可以更好地控制生成的文本输出,并且用户可以深入了解 LLM 如何生成响应。

1.2. RAG 带来的好处

针对组织或领域特定信息重新训练基础模型 (Foundation Model, FM) 的计算和财务成本很高。RAG 是一种将新数据引入 LLM 的更加经济高效的方法,它使生成式人工智能技术更广泛地获得和使用。

即使 LLM 的原始训练数据来源适合您的需求,但保持相关性也具有挑战性。RAG 允许开发人员为生成模型提供最新的研究、统计数据或新闻。他们可以使用 RAG 将 LLM 直接连接到实时社交媒体提要、新闻网站或其他经常更新的信息来源。然后,LLM 可以向用户提供最新信息。

RAG 允许 LLM 通过来源归属来呈现准确的信息。输出可以包括对来源的引文或引用。如果需要进一步说明或更详细的信息,用户也可以自己查找源文档。这可以增加对您的生成式人工智能解决方案的信任和信心。

借助 RAG,开发人员可以更高效地测试和改进他们的聊天应用程序。他们可以控制和更改 LLM 的信息来源,以适应不断变化的需求或跨职能使用。开发人员还可以将敏感信息的检索限制在不同的授权级别内,并确保 LLM 生成适当的响应。此外,如果 LLM 针对特定问题引用了错误的信息来源,他们还可以进行故障排除并进行修复。组织可以更自信地为更广泛的应用程序实施生成式人工智能技术。

1.3. RAG 的工作原理

如果没有 RAG,LLM 会接受用户输入,并根据它所接受训练的信息或它已经知道的信息创建响应。RAG 引入了一个信息检索组件,该组件利用用户输入首先从新数据源提取信息。用户查询和相关信息都提供给 LLM,LLM 使用新知识及其训练数据来创建更好的响应。

在这里插入图片描述

  • 创建外部数据

LLM 原始训练数据集之外的新数据称为外部数据。它可以来自多个数据来源,例如 API、数据库或文档存储库。数据可能以各种格式存在,例如文件、数据库记录或长篇文本。另一种称为嵌入语言模型的 AI 技术将数据转换为数字表示形式并将其存储在向量数据库中,这个过程会创建一个生成式人工智能模型可以理解的知识库。

  • 检索相关信息

下一步是执行相关性搜索。用户查询将转换为向量表示形式,并与向量数据库匹配。相关性是使用数学向量计算和表示法计算和建立的。

  • 增强 LLM 提示

接下来,RAG 模型通过在上下文中添加检索到的相关数据来增强用户输入或提示。此步骤使用提示工程技术与 LLM 进行有效沟通。增强提示允许大型语言模型为用户查询生成准确的答案。

  • 更新外部数据

要维护当前信息以供检索,请异步更新文档并更新文档的嵌入表示形式。您可以通过自动化实时流程或定期批处理来执行此操作。这是数据分析中常见的挑战,可以使用不同的数据科学方法进行变更管理。

1.4. 检索增强生成和语义搜索

语义搜索可以提高 RAG 结果,适用于想要在其 LLM 应用程序中添加大量外部知识源的组织。现代企业在各种系统中存储大量信息,例如手册、常见问题、研究报告、客户服务指南和人力资源文档存储库等。上下文检索在规模上具有挑战性,因此会降低生成输出质量。

语义搜索技术可以扫描包含不同信息的大型数据库,并更准确地检索数据。将问题映射到相关文档并返回特定文本而不是搜索结果。然后,开发人员可以使用该答案为 LLM 提供更多上下文。

RAG 中的传统或关键字搜索解决方案对知识密集型任务产生的结果有限。开发人员在手动准备数据时还必须处理单词嵌入、文档分块和其他复杂问题。相比之下,语义搜索技术可以完成知识库准备的所有工作,因此开发人员不必这样做。它们还生成语义相关的段落和按相关性排序的标记词,以最大限度地提高 RAG 有效载荷的质量。

2. iRAG (image based Retrieval-Augmented Generation,基于图像的检索增强生成)

iRAG 指百度提出的检索增强的文生图技术 (image based Retrieval-Augmented Generation, image based RAG)。相较于常见的文生图技术,iRAG 利用自动检索的或者用户主动提供的参考图像,可以生成高度保持参考图信息的图像,有效解决生图过程中存在的幻觉问题。iRAG 将百度搜索的海量图片资源跟强大的基础模型能力进行了结合,整体效果远超过文生图原生系统。

References

[1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/

标签:检索,RAG,Generation,LLM,Retrieval,Augmented
From: https://blog.csdn.net/chengyq116/article/details/143821689

相关文章

  • 【论文阅读】您的 AI 生成的代码真的安全吗?Evaluating Large Language Models on Secu
    IsYourAI-GeneratedCodeReallySafe?EvaluatingLargeLanguageModelsonSecureCodeGenerationwithCodeSecEval标题:您的AI生成的代码真的安全吗?基于CodeSecEval对LLMs代码生成的安全性进行评估摘要:*【Background】大语言模型(LLMs)在代码生成和代码修复方面取......
  • dbeaver连接MySQL出现了 Public Key Retrieval is not allowed 错误
    问题现象出现这个错误的原因错误提示“PublicKeyRetrievalisnotallowed”通常出现在尝试使用SSL(SecureSocketsLayer)连接到MySQL数据库时。这可能是由于以下原因之一导致的:MySQL服务器配置:MySQL服务器可能没有正确配置以允许公钥检索。检查MySQL服务器的my.cnf或my.......
  • MarianCG: a code generation transformermodel inspired by machine translation
    全文总结本文介绍了MarianCG,一种基于Transformer架构的代码生成模型,灵感来源于机器翻译技术。研究背景背景介绍: 这篇文章的研究背景是代码生成,即从自然语言描述生成可执行的代码。代码生成工具的准确性和优化工具的提高可以帮助提高编程工具的生产力。API的应用使得软件开......
  • 【论文阅读】<ICSE2024>CoderEval: A Benchmark of Pragmatic Code Generation......
    CoderEval:ABenchmarkofPragmaticCodeGenerationwithGenerativePre-trainedModels标题:CoderEval:基于生成式预训练模型的实用代码生成基准摘要:基于预训练和微调范式的代码生成模型在学术界和工业界中得到了广泛应用,催生了许多知名的工业模型,如Codex、CodeGen和Pan......
  • Diffusion Probabilistic Models for 3D Point Cloud Generation——点云论文阅读(8)
    此内容是论文总结,重点看思路!!文章概述该文献介绍了一种用于3D点云生成的概率模型。点云是表示3D物体和场景的常用方式,但由于其不规则的采样模式,与图像相比,点云生成更具挑战性。现有方法如GANs、流模型和自回归模型在点云生成方面取得了进展,但它们在训练稳定性、生成顺序假设和......
  • RAG(Retrieval-Augmented Generation)技术
    RAG(Retrieval-AugmentedGeneration)技术是一种结合检索与生成能力的知识增强方案,专门用于应对复杂多变的信息查询和生成挑战。其核心在于结合先进的向量数据库与大模型的智能问答能力,使得AI系统能够更准确地理解和回应用户的需求。而混合检索作为RAG技术中的关键组成部分,结......
  • 论文翻译 | Bounding the Capabilities of Large Language Models in Open Text Gener
    摘要        开放式生成模型的局限性尚不清楚,但却越来越重要。是什么让他们成功,又是什么让他们失败?在本文中,我们采用了一种以提示为中心的方法来分析和限定开放式生成模型的能力。我们提出了两种具有挑战性的提示约束类型的通用分析方法:结构和风格。这些约束类型被归......
  • 论文翻译 | Scalable Prompt Generation for Semi-supervised Learning with Language
    摘要         基于提示的学习方法在半监督学习(SSL)设置中已被文献证明在多个自然语言理解(NLU)数据集和任务上有效。然而,手动设计多个提示和表述词需要领域知识和人力投入,这使得在不同数据集上扩展变得困难且昂贵。在本文中,我们提出了两种方法来自动设计多个提示,并在......
  • DreamMesh4D: Video-to-4D Generation with Sparse-Controlled Gaussian-Mesh HybridR
    目录一、概述二、前置知识1、分数蒸馏采样 2、LBS 3、DQS4、EucDist和GeoDist算法三、相关工作1、三维生成2、4D表示3、4D生成四、DreamMesh4D1、静态阶段 2、动态阶段-可变形图建立 3、动态阶段--自适应可变蒙皮算法 一、概述    该论文提出了......
  • DBeaver 连接 mysql 报错:Public Key Retrieval is not allowed
    前言DBeaver连接mysql报错:PublicKeyRetrievalisnotallowed遇到"PublicKeyRetrievalisnotallowed"错误时,通常意味着你正在使用的身份验证方法需要加密连接,但是没有正确地配置客户端或服务器来支持这种加密。解决第一种可以在连接字符串中添加 allowPublicKey......