人工智能咨询培训老师叶梓 转载标明出处
RAG通过结合搜索引擎检索的相关信息,显著提升了模型在知识密集型任务中的表现。然而,现有的RAG模型在生成长文本答案时存在两个主要问题:一是生成的答案缺乏事实性(factuality),即生成的内容与检索到的参考信息不完全一致;二是生成的答案逻辑结构不够清晰,难以全面覆盖问题的多个方面。为了解决上述问题,蚂蚁集团和清华大学研究者们提出了一种名为Factuality-optimized RAG(FoRAG)的方法。
想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
方法
该方法两个核心部分组成:提纲增强生成器(Outline-Enhanced Generator)和双重细粒度强化学习从人类反馈(Doubly Fine-grained RLHF)框架
-
提纲增强生成器(Outline-Enhanced Generator):该生成器通过两阶段生成过程来提高答案的逻辑性。首先,模型会根据问题和检索到的信息生成一个答案提纲,确定回答的组织结构和关键点。然后,模型根据提纲生成完整的答案。这种提纲增强的方法能够使生成的答案更加有条理、全面,从而提高答案的连贯性和有用性。
-
双重细粒度强化学习从人类反馈(Doubly Fine-grained RLHF)框架:为了优化生成答案的事实性,本文设计了一种双重细粒度的RLHF框架。该框架在事实性评估和奖励建模两个核心步骤中引入了细粒度的设计。具体来说,事实性评估可以分为整体评估、句子级评估和子主张级评估,而奖励建模则可以分为序列级和词级。通过这种细粒度的设计,模型能够更准确地评估和优化生成答案的事实性,从而生成更可信的答案。
提纲增强生成技术旨在生成结构良好且高质量的回答。该技术采用两阶段生成过程:首先生成组织模式和提纲以改善逻辑结构,然后基于提纲生成完整的回答。如图1(中间)所示,这种两阶段方法能够使生成的回答更加有条理和全面。
在现有的开源方法中,回答通常是直接生成的,即检索到的内容与原始查询连接后输入到生成模型中(图1左下角)。这些回答往往较短且缺乏组织,逻辑结构不清晰。为了提高性能,可以通过使回答更加有组织来实现。例如,“让我们一步一步思考”的技术通过鼓励链式推理能力显著提高了性能。
提纲增强生成器包括提纲阶段和扩展阶段。在提纲阶段,生成器使用提纲模板草拟回答的提纲,输入为用户查询x 和上下文z。提纲模板指导大模型选择最适合当前问题的组织模式,例如“因果关系”或“比较和对比”。然后,大模型使用该模式输出提纲。在扩展阶段,大模型基于前一阶段生成的提纲扩展每个视角以构建最终答案。
提纲增强生成器的训练遵循标准的监督微调(SFT)程序,这在以往的工作中被广泛采用。
目前,只有两个开源的网络增强长文本问答数据集可用于训练网络增强RAG模型:英文数据集WebGLM-QA和中文数据集WebCPM。使用这两个数据集中的查询和相关段落构建了一个提纲增强的双语长文本问答数据集。通过应用提纲增强生成技术,生成的回答显著长于现有工作中的回答,这得益于更强的逻辑结构(表1)。
在大模型对齐中,基于人类反馈的强化学习(RLHF)是一种广泛使用的技术,用于减少不期望的生成。然而,直接将传统RLHF方法应用于网络增强LFQA中的事实性优化将遇到两个困难:一是手动注释的事实性标签收集成本高,二是标准RLHF使用整体奖励,导致训练信号稀疏。
为了解决上述困难,提出了一种双重细粒度RLHF框架。该框架在事实性评估和奖励建模两个核心步骤中引入了细粒度的设计。具体来说,事实性评估可以分为整体评估、句子级评估和子主张级评估,而奖励建模则可以分为序列级和词级(表2)。通过这种细粒度的设计,模型能够更准确地评估和优化生成答案的事实性,从而生成更可信的答案。
实验
实验在两个常用的网络增强长文本问答数据集上进行。
WebGPT数据集:虽然WebGPT最初使用的训练数据集没有公开,但其演示网站上发布的272个样本可以用于性能比较(Liu et al., 2023b)。该数据集中的每个样本包括来自ELI5数据集(Fan et al., 2019)的一个问题、多个Bing检索的网页以及提取的参考信息。需要注意的是,这是一个纯英文数据集。
WebCPM数据集:这是一个中文数据集,构建方式与WebGPT数据集类似(Qin et al., 2023)。由于没有官方的训练-测试分割,随机将4,676个样本用于训练,426个用于验证,398个用于测试。
表3展示了现有网络增强RAG方法与FoRAG的性能比较。FoRAG-L 7B在所有指标上均优于其他方法,尤其是在中英文数据集上,FoRAG-C 6B在五个指标上超越了所有基线方法。值得注意的是,FoRAG-L 7B在参数数量仅为WebGPT-175B的1/24的情况下,表现出了显著的优越性。
表4比较了FoRAG的不同变体,包括是否使用提纲增强(Out. Enh.)和事实性优化(Fac. Opt.)。结果显示,提纲增强生成器显著提高了回答的连贯性和有用性,而事实性优化技术则显著提高了查询和句子级别的事实一致性得分。
表5展示了在FoRAG-L 7B上使用各种事实性优化技术的性能比较。结果表明,无论评估或奖励建模的粒度如何,所提出的方法都比基线方法具有更好的事实一致性。在所有评估粒度中,子主张级评估表现最佳。此外,词级奖励建模的表现不如传统的段落级奖励建模,这可能是由于数据集的长度导致词级建模过拟合。
消融研究中,为了说明提纲增强生成技术的影响,训练了两个基线模型,这些模型直接基于数据集生成回答,没有提纲阶段。结果表明,提纲增强生成方法显著提高了生成回答的连贯性和有用性,特别是在中文任务中表现尤为明显。
为了评估GPT4在中文中的相关性,招募了10名母语为中文的注释者。他们手动审查生成结果的连贯性、有用性以及查询级和句子级的事实性。表7显示了两轮人类标签与GPT4判断之间的一致性比率。结果确认了GPT4与中文问答评估中人类评分之间的强相关性。
为了评估数据集中两种语言的不平衡对训练效果的影响,进一步进行了消融研究。结果表明,随着数据量的增加,模型在相应语言上的连贯性和有用性指标表现有所提高,而事实性指标不受此比例影响。
论文地址:https://arxiv.org/html/2406.13779v1
代码地址:https://huggingface.co/forag