首页 > 其他分享 >【大语言模型】ACL2024论文-09 无监督信息精细化训练用于增强大型语言模型的检索增强生成

【大语言模型】ACL2024论文-09 无监督信息精细化训练用于增强大型语言模型的检索增强生成

时间:2024-11-12 22:18:38浏览次数:3  
标签:检索 RAG 语言 LLMs 模型 09 INFO 文本

【大语言模型】ACL2024论文-09 无监督信息精细化训练用于增强大型语言模型的检索增强生成


目录

文章目录


1. 论文信息

在这里插入图片描述
https://arxiv.org/pdf/2402.18150

无监督信息精细化训练用于增强大型语言模型的检索增强生成

2. 摘要

本文提出了一种新的视角,将大型语言模型(LLMs)在检索增强生成(RAG)中的作用视为“信息精炼器”。这意味着无论检索到的文本的正确性、完整性或有用性如何,LLMs都能持续地整合检索文本和模型参数中的知识,生成比检索文本更简洁、准确和完整的文本。为此,我们提出了一种名为INFO-RAG的信息精细化训练方法,以无监督的方式优化LLMs在RAG中的表现。INFO-RAG成本低且适用于多种任务。通过在包括问答、槽填充、语言建模、对话和代码生成等多种任务的11个数据集上进行广泛实验,我们展示了INFO-RAG如何提升LLaMA2模型性能,平均提升9.39%。INFO-RAG在上下文学习和RAG的鲁棒性方面也显示出优势。

3. 研究背景

检索增强生成(RAG)是一种流行的框架,它通过检索额外信息来增强神经网络的文本生成能力。尽管检索模型的性能有所提高,但互联网上充斥着假新闻、谣言和碎片化、嘈杂的信息,这给检索模型可靠地识别和屏蔽这些内容带来了挑战。因此,并非所有检索到的文本都是有益的,需要LLMs学会如何明智地利用它们。然而,预训练任务并没有明确地使LLMs学会如何利用不同质量的检索文本进行生成。
在这里插入图片描述

4. 问题与挑战

LLMs在有效使用检索信息方面面临挑战,有时甚至忽略或被检索信息误导。主要原因是LLMs的训练没有明确让它们学会如何利用不同质量的输入检索文本。此外,LLMs在处理长而复杂的检索文本时难以准确提取正确答案,缺乏将模型内知识与检索文本整合以生成改进文本的能力,并且容易受到检索文本中错误和噪声信息的影响。

5. 如何解决

为了解决上述问题,本文提出了INFO-RAG,这是一种无监督训练方法,通过将检索文本分类为三种场景,并为每种场景提出无监督训练任务。INFO-RAG通过以下三种任务进行训练:

  1. 选择和复制(Select and Copy):从复杂文本中准确提取相关知识,并生成更简洁的文本。
  2. 校正和完成(Correct and Complete):结合模型参数中的知识验证检索文本,纠正错误知识,补全缺失知识。
  3. 上下文激发(Contextual Stimulation):基于相关上下文,从模型参数中找到知识以生成正确答案。

6. 创新点

  • 信息精炼器视角:将LLMs在RAG中的角色重新定义为“信息精炼器”,强调了LLMs整合检索文本和模型参数知识的能力。
  • 无监督训练方法:提出了INFO-RAG,这是一种完全无监督的训练方法,易于获取大规模训练数据,并保持了训练后LLMs的泛化能力。
  • 多任务训练:通过混合三种训练任务进行多任务训练,提高了模型的泛化能力。

7. 算法模型

INFO-RAG的训练方法基于无监督学习,具体包括数据收集、数据构建和训练任务。数据收集是在英文维基百科上进行的,对于每个文档,截取k个连续句子作为句子集合S。数据构建和训练任务针对三种场景进行设计,包括选择和复制、校正和完成、上下文激发。这些任务通过模拟检索文本和目标文本之间的关系,训练LLMs进行信息精炼。
在这里插入图片描述

8. 实验效果

实验在11个数据集上的7个任务中进行,包括问答、槽填充、语言建模、对话和代码生成。实验结果显示,INFO-RAG在零样本设置下提高了LLaMA2的性能,平均提升9.39%。此外,INFO-RAG在上下文学习和RAG的鲁棒性方面也显示出优势。

重要数据与结论

  • 性能提升:INFO-RAG在多个任务中提升了LLaMA2的性能,特别是在问答和槽填充任务中,提升了对检索文本知识的利用能力。
  • 跨任务泛化性:INFO-RAG不仅在自然语言任务中表现良好,还能提升编程语言任务的性能,显示了跨任务的泛化能力。
  • 鲁棒性:INFO-RAG在面对错误、不完整和嘈杂的检索文本时,表现出更好的鲁棒性。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

9. 推荐阅读指数:★★★★☆


后记

如果您对我的博客内容感兴趣,欢迎三连击 (***点赞、收藏和关注 ***)和留下您的评论,我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

标签:检索,RAG,语言,LLMs,模型,09,INFO,文本
From: https://blog.csdn.net/fyf2007/article/details/143725615

相关文章

  • 搭建本地大模型和知识库最简单的方法
    01、本地大模型越来越简单经过了一年多时间的迭代,大模型种类繁多,使用也越来越简单了。前排提示,文末有大模型AGI-CSDN独家资料包哦!在本地跑大模型,个人认为目前最好的软件肯定是Ollama无疑了,不管你是在PC上跑大模型,在Mac上跑大模型,还有在树莓派上跑大模型,我们都可以用Oll......
  • 利用大模型构造数据集,并微调大模型
    一、前言目前大模型的微调方法有很多,而且大多可以在消费级显卡上进行,每个人都可以在自己的电脑上微调自己的大模型。前排提示,文末有大模型AGI-CSDN独家资料包哦!但是在微调时我们时常面对一个问题,就是数据集问题。网络上有许多开源数据集,但是很多时候我们并不想用这些数据......
  • 2024大模型典型示范应用案例集——附219页PDF
    2024年是大模型深入赋能千行百业,融入实体经济,助力科技创新的一年。截至今年5月,我国国产大模型的数量已经超过300个,预示着大模型在各行业场景的创新应用和深度拓展,对培育新质生产力、高水平赋能新型工业化、推动高质量发展发挥了重要作用。今年,国务院政府工作报告首次提出......
  • 上机实验:数据准备与模型评估
    1、实验目的熟悉Python的基本操作,掌握对数据集的读写实现、对模型性能的评估实现的能力;加深对训练集、测试集、N折交叉验证、模型评估标准的理解。2、实验内容(1)利用pandas库从本地读取iris数据集;(2)从scikit-learn库中直接加载iris数据集;(3)实现五折交叉验证进行模型......
  • 大模型为什么是深度学习的未来?
    当今社会是科技的社会,是算力快速发展的时代。随着数据中心、东数西算、高性能计算、数据分析、数据挖掘的快速发展,大模型得到了快速地发展。大模型是“大算力+强算法”相结合的产物,是人工智能的发展趋势和未来。目前,大规模的生态已初具规模。其可以实现从“手工作坊”到“工......
  • 大模型可以在哪些场景应用落地?
    大模型是什么?大模型是指模型具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域,大模型通常是指具有数百万到数十亿参数的神经网络模型。前排提示,文末有大模型AGI-CSDN独家资料包哦!大模型是指模型具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域,大......
  • 本地部署大模型的几种方式
    现在大模型可谓是满天飞,只要你稍微关注时下的AI资讯,几乎每天都有新的AI大模型出现.这之中当然有诸如GhatGPT,Gemini这样的私有化大模型,更吸引人关注的可能是开源的可私有化部署的一些大模型.比如Meta前两天开放的Lamma3,Google的Gemma开源模型,国内也有Qwen以及......
  • 一口气了解大模型相关通识,基础笔记!
    一、大模型生态有哪些语言类大模型:GPT-3、GPT-3.5、GPT-4系列模型。并且,OpenAl在训练GPT-3的同时训练了参数不同、复杂度各不相同的A、B、C、D四项大模型(基座模型),用于不同场景的应用;前排提示,文末有大模型AGI-CSDN独家资料包哦!其中,A、B、C、D模型的全称分别是ada、b......
  • 计算机网络基础:从IP地址到分层模型
    计算机网络1.计算机网络概述概述​计算机网络是指两台或更多的计算机组成的网络,在同一个网络中,任意两台计算机都可以直接通信。互联网是网络的网络(Internet),即把很多计算机网络连接起来,形成一个全球统一的互联网,互联网中的所有计算机都需要遵循同一种网络协议。网络协议......
  • 数据库操纵语言(DML)
    数据库操纵语言(DML)向数据库中插入、删除、更新数据。插入数据通过使用语句来向数据库中插入一条数据(一条记录):insertintoINSERTINTO表名VALUES(值1,值2,值3)如果插入的数据与列一一对应,那么可以省略列名,但是如果希望向指定列上插入数据,就需要给INSERTINTO表名(列名1,......