首页 > 其他分享 >提升长文本问答质量:让AI生成真实可信的长篇答案

提升长文本问答质量:让AI生成真实可信的长篇答案

时间:2025-01-10 14:31:39浏览次数:3  
标签:提纲 细粒度 AI 模型 生成 真实可信 事实性 问答 评估

人工智能咨询培训老师叶梓 转载标明出处

RAG通过结合搜索引擎检索的相关信息,显著提升了模型在知识密集型任务中的表现。然而,现有的RAG模型在生成长文本答案时存在两个主要问题:一是生成的答案缺乏事实性(factuality),即生成的内容与检索到的参考信息不完全一致;二是生成的答案逻辑结构不够清晰,难以全面覆盖问题的多个方面。为了解决上述问题,蚂蚁集团和清华大学研究者们提出了一种名为Factuality-optimized RAG(FoRAG)的方法。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

方法

该方法两个核心部分组成:提纲增强生成器(Outline-Enhanced Generator)和双重细粒度强化学习从人类反馈(Doubly Fine-grained RLHF)框架

  1. 提纲增强生成器(Outline-Enhanced Generator):该生成器通过两阶段生成过程来提高答案的逻辑性。首先,模型会根据问题和检索到的信息生成一个答案提纲,确定回答的组织结构和关键点。然后,模型根据提纲生成完整的答案。这种提纲增强的方法能够使生成的答案更加有条理、全面,从而提高答案的连贯性和有用性。

  2. 双重细粒度强化学习从人类反馈(Doubly Fine-grained RLHF)框架:为了优化生成答案的事实性,本文设计了一种双重细粒度的RLHF框架。该框架在事实性评估和奖励建模两个核心步骤中引入了细粒度的设计。具体来说,事实性评估可以分为整体评估、句子级评估和子主张级评估,而奖励建模则可以分为序列级和词级。通过这种细粒度的设计,模型能够更准确地评估和优化生成答案的事实性,从而生成更可信的答案。

提纲增强生成技术旨在生成结构良好且高质量的回答。该技术采用两阶段生成过程:首先生成组织模式和提纲以改善逻辑结构,然后基于提纲生成完整的回答。如图1(中间)所示,这种两阶段方法能够使生成的回答更加有条理和全面。

在现有的开源方法中,回答通常是直接生成的,即检索到的内容与原始查询连接后输入到生成模型中(图1左下角)。这些回答往往较短且缺乏组织,逻辑结构不清晰。为了提高性能,可以通过使回答更加有组织来实现。例如,“让我们一步一步思考”的技术通过鼓励链式推理能力显著提高了性能。

提纲增强生成器包括提纲阶段和扩展阶段。在提纲阶段,生成器使用提纲模板草拟回答的提纲,输入为用户查询x 和上下文z。提纲模板指导大模型选择最适合当前问题的组织模式,例如“因果关系”或“比较和对比”。然后,大模型使用该模式输出提纲。在扩展阶段,大模型基于前一阶段生成的提纲扩展每个视角以构建最终答案。

提纲增强生成器的训练遵循标准的监督微调(SFT)程序,这在以往的工作中被广泛采用。

目前,只有两个开源的网络增强长文本问答数据集可用于训练网络增强RAG模型:英文数据集WebGLM-QA和中文数据集WebCPM。使用这两个数据集中的查询和相关段落构建了一个提纲增强的双语长文本问答数据集。通过应用提纲增强生成技术,生成的回答显著长于现有工作中的回答,这得益于更强的逻辑结构(表1)。

在大模型对齐中,基于人类反馈的强化学习(RLHF)是一种广泛使用的技术,用于减少不期望的生成。然而,直接将传统RLHF方法应用于网络增强LFQA中的事实性优化将遇到两个困难:一是手动注释的事实性标签收集成本高,二是标准RLHF使用整体奖励,导致训练信号稀疏。

为了解决上述困难,提出了一种双重细粒度RLHF框架。该框架在事实性评估和奖励建模两个核心步骤中引入了细粒度的设计。具体来说,事实性评估可以分为整体评估、句子级评估和子主张级评估,而奖励建模则可以分为序列级和词级(表2)。通过这种细粒度的设计,模型能够更准确地评估和优化生成答案的事实性,从而生成更可信的答案。

实验

实验在两个常用的网络增强长文本问答数据集上进行。

WebGPT数据集:虽然WebGPT最初使用的训练数据集没有公开,但其演示网站上发布的272个样本可以用于性能比较(Liu et al., 2023b)。该数据集中的每个样本包括来自ELI5数据集(Fan et al., 2019)的一个问题、多个Bing检索的网页以及提取的参考信息。需要注意的是,这是一个纯英文数据集。

WebCPM数据集:这是一个中文数据集,构建方式与WebGPT数据集类似(Qin et al., 2023)。由于没有官方的训练-测试分割,随机将4,676个样本用于训练,426个用于验证,398个用于测试。

表3展示了现有网络增强RAG方法与FoRAG的性能比较。FoRAG-L 7B在所有指标上均优于其他方法,尤其是在中英文数据集上,FoRAG-C 6B在五个指标上超越了所有基线方法。值得注意的是,FoRAG-L 7B在参数数量仅为WebGPT-175B的1/24的情况下,表现出了显著的优越性。

表4比较了FoRAG的不同变体,包括是否使用提纲增强(Out. Enh.)和事实性优化(Fac. Opt.)。结果显示,提纲增强生成器显著提高了回答的连贯性和有用性,而事实性优化技术则显著提高了查询和句子级别的事实一致性得分。

表5展示了在FoRAG-L 7B上使用各种事实性优化技术的性能比较。结果表明,无论评估或奖励建模的粒度如何,所提出的方法都比基线方法具有更好的事实一致性。在所有评估粒度中,子主张级评估表现最佳。此外,词级奖励建模的表现不如传统的段落级奖励建模,这可能是由于数据集的长度导致词级建模过拟合。

消融研究中,为了说明提纲增强生成技术的影响,训练了两个基线模型,这些模型直接基于数据集生成回答,没有提纲阶段。结果表明,提纲增强生成方法显著提高了生成回答的连贯性和有用性,特别是在中文任务中表现尤为明显。

为了评估GPT4在中文中的相关性,招募了10名母语为中文的注释者。他们手动审查生成结果的连贯性、有用性以及查询级和句子级的事实性。表7显示了两轮人类标签与GPT4判断之间的一致性比率。结果确认了GPT4与中文问答评估中人类评分之间的强相关性。

为了评估数据集中两种语言的不平衡对训练效果的影响,进一步进行了消融研究。结果表明,随着数据量的增加,模型在相应语言上的连贯性和有用性指标表现有所提高,而事实性指标不受此比例影响。

论文地址:https://arxiv.org/html/2406.13779v1
代码地址:https://huggingface.co/forag

标签:提纲,细粒度,AI,模型,生成,真实可信,事实性,问答,评估
From: https://blog.csdn.net/weixin_44292902/article/details/145011969

相关文章

  • 根目录挂载,raid使用,bcache缓存策略
    一.了解挂载命令,常用的命令lsblk#查看磁盘blkid#查看磁盘的UUIDdd#拷贝磁盘命令使两块盘的UUID一致ddif=拷贝方of=被拷贝ddif=/dev/sda1of=/dev/sdb1#将sda1的数据拷贝到sdb1mount/dev/sda/home配置系统前给主机添加磁盘并配置reid二.三.reid完成......
  • RAG项目实战——基于Llamaindex微调BGE Embedding模型(附完整源码和转化好的数据集下载
    在自然语言处理(NLP)领域,检索增强生成(Retrieval-AugmentedGeneration,RAG)模型已经成为一种强大的工具,能够结合检索和生成任务,提供更准确的回答。然而,RAG模型的性能很大程度上依赖于嵌入模型的质量。为了进一步提升RAG模型的检索准确性,我们可以通过对嵌入模型进行微调(Fine-t......
  • 【马来西亚理工大学主办 | EI Compendex、Scopus检索】2025年人工智能与计算智能国际
    2025年人工智能与计算智能国际学术会议(AICI2025)2025InternationalConferenceonArtificialIntelligenceandComputationalIntelligence大会官网:www.icaici.org【论文投稿】大会时间:2025年02月14-16日大会地点:马来西亚-吉隆坡主办单位:马来西亚理工大学出版信息:A......
  • AI时代来了,我们不再需要IDE了
    大家好,我是编程乐趣。最近在思考一个问题,那就是AI这么强大。未来有没有可能,我们就不需要不需要开发工具了,只需一个浏览器就可以开发软件了。一、AI带来的变化1、代码生成与补全AI工具如GitHubCopilot等能够根据代码上下文和注释自动生成代码片段、函数甚至整个文件。......
  • 盘点6个.Net热门AI项目
    盘点6个基于.Net开发的、热门AI项目。一、SemanticKernelSemanticKernel是一个轻量级的SDK,最基本的功能就是帮我们完成与OpenAI、AzureOpenAI和HuggingFace大模型的API的对接,并且支持C#、Python、Java版本。SemanticKernel提供自定义插件、编排计划、信息存储至数据......
  • 【AI论文】rStar-Math: 小语言模型实现数学推理达到甚至超越o1水平
    再开一个系列来记录学习AI论文的心得。之前断断续续读过10来篇,最近也听到李想还有几位AI大咖还是公司大佬分享他们是不读AI论文的,但会听自家公司AI团队每周的论文解读会来了解最新进展。这个是有道理的,但咱一线码农没有这个福利,论文还是靠自己。^-^这篇论文的Hugging链接在rSt......
  • AI正在悄悄接管互联网:超过半数内容已是 AI 生成!
    序言:这个世界任何时候都会因为利益冲突而变得精彩,人工智能写作是不是一种侵权行为,美国人内部闹得很欢,人工智能对人类的模仿到底算不算侵权?如果法律裁定这种行为就是侵权,那也将是划时代的,因为:模仿不付费将会犯罪,那这个世界会不会就因此停滞发展呢?因为人类的进步就是依靠先模仿然后......
  • 使用OpenAI API构建聊天机器人
    在当今高速发展的技术领域中,AI聊天机器人已经成为企业和开发者增强客户交互的重要工具。OpenAI提供了强大的API,可以帮助我们快速构建智能对话系统。在这篇文章中,我将深入介绍如何使用OpenAI的API来实现一个简单但功能强大的聊天机器人。技术背景介绍聊天机器人是一种利用......
  • 大模型入门怎么学?如何学习AI大模型?
    ​如何学习AI大模型?大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。“AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!想正式转到一些新兴的AI行业,不仅需要系统的学习A......
  • ORA-00001:unique constraint violated(违反了唯一约束)- 4种解决方案
    大家好,我是摇光~ORA-00001是Oracle数据库中的一个常见错误代码,它表示“uniqueconstraint(唯一约束)violated”(违反了唯一约束)。以下是对该错误出现的原因、每个原因对应的案例及解决办法的详细解析:目录@[TOC](目录)1、数据重复:2、并发操作:3、数据迁移或恢复过程中......