首页 > 其他分享 >自我激励学习提升语言模型的推理能力

自我激励学习提升语言模型的推理能力

时间:2024-06-22 21:27:28浏览次数:26  
标签:过程 模型 自我 生成 学习 激励 答案 推理

随着人工智能技术的快速发展,语言模型(LMs)在各种下游任务中展现出了卓越的能力。特别是在少样本(few-shot)和零样本(zero-shot)学习环境中,通过吸收特定任务的指令和示例,这些模型已经引起了广泛关注。然而,要提升模型的推理能力,大规模高质量的训练数据是不可或缺的。由于注释成本高昂,包含推理步骤的高质量数据集相对稀缺。为了解决这一问题,本文提出了一种自我激励学习框架,旨在通过自动化地生成现有数据集上的推理步骤,激发模型自身的潜力。

自我激励学习方法的动机。图中显示了“Rationale”和“Answer”是由语言模型生成的,主要思想是:(1) 正确的给定答案更有可能产生正确的推理过程;(2) 导致正确答案的推理过程优于导致错误答案的推理过程

方法

自我激励学习框架是一种创新的方法,它通过激发模型自身的潜力,在现有数据集上自动生成推理过程。这种方法的核心在于利用模型产生的内在偏好——即能够产生正确答案的推理过程应当优于那些导致错误答案的推理过程。自我激励学习框架通过三个主要步骤实现:推理过程生成、推理收集和模型训练。

这张图概述了自我激励学习方法的三个主要步骤:推理过程生成、推理收集和模型训练。图中详细描述了如何使用少量样本CoT生成推理过程,如何通过比较给定答案和最终答案来过滤推理过程,以及如何使用这些数据进行模型训练

在推理过程生成阶段,框架采用了Few-shot-CoT技术来生成推理过程。具体来说,对于每个给定的任务,模型会根据问题和提供的答案(无论是正确还是错误)生成一系列的推理步骤。这些推理步骤随后被用来生成最终的答案。通过这种方式,模型能够学习如何基于不同的答案生成相应的推理过程。

生成推理过程和最终答案的提示模板。表格中有两个部分,一个是使用问题和给定答案生成推理过程,另一个是使用问题和生成的推理过程生成最终答案
表格提供了一个示例,展示了如何使用正确答案和错误答案生成更好的和更差的推理过程。表格中给出了一个问题和两个不同的答案,以及基于这些答案生成的推理过程

接下来,在推理收集阶段,生成的推理过程会根据其质量进行筛选。这一过程涉及到评估给定答案和最终答案与正确答案之间的一致性。如果两者都正确,则相应的推理过程被归类为高质量;如果都错误,则被归类为低质量。此外,还会根据推理内容、标签引用和数值准确性等标准进行进一步的筛选,以确保推理过程的相关性和准确性。

在模型训练阶段,筛选出的高质量推理过程被用来训练监督式微调模型(SFT Model)。该模型通过最小化语言建模损失来优化其参数。同时,使用不同质量的推理过程来训练奖励模型(RM),该模型能够评估生成的推理过程的质量。通过结合SFT Model和RM,模型利用PPO算法进行强化学习,进一步提升其生成高质量推理过程的能力。

自我激励学习框架的优势在于它减少了对外部大型模型或手动注释的依赖,通过模型自身的学习和优化,提高了推理能力。这种方法不仅提高了模型在复杂推理任务上的性能,而且具有很好的通用性和可扩展性。通过这种方式,即使是较小的模型也能够通过自我生成的高质量推理过程来提升其解决问题的能力。

实验

研究者们选择了8个数据集来评估自我激励学习框架,这些数据集覆盖了三类复杂的推理任务:数学问题求解、常识推理和策略推理。这些数据集包括了单步方程求解(SingleEq)、加减法问题(AddSub)、多步算术问题(MultiArith)、SVAMP、GSM8K、日期理解(Date Understanding)、常识问答(CommonSenseQA)和策略问答(StrategyQA)。这些任务和数据集的多样性确保了实验结果的广泛适用性和说服力。

在研究中使用的8个数据集,包括它们的任务类型、样本数量、测试样本数量、数据分割比例、许可证和参考文献

为了展示自我激励学习框架的优势,研究者们将其与几种基线方法进行了比较。这些基线方法包括直接使用开源和闭源的大型语言模型生成推理步骤,以及使用这些模型进行微调的方法。还包括了仅使用少量样本提示(Few-shot-CoT)的方法,以及在不同数据集上微调后使用CoT方法生成推理步骤的方法。

实验的实现使用Llama2 7B模型,并采用了Lora技术进行模型的微调。模型训练的过程,包括如何使用高质量的推理步骤数据来训练监督式微调模型(SFT Model),以及如何使用不同质量的推理步骤数据来训练奖励模型(RM)。

实验结果显示,自我激励学习框架在所有8个任务中都取得了显著的性能提升。在某些任务中,该框架的性能甚至超过了目前最先进的模型,如text-davinci-002。这些结果以百分比准确率的形式呈现,清楚地展示了自我激励学习框架相对于基线方法的改进。

不同模型和方法在8个任务中的准确率比较。表格中列出了不同的基线模型、在Llama2 7B上的方法,以及本文提出的方法

研究者们探讨了奖励模型得分与推理质量之间的关系,发现得分较高的推理步骤更可能是正确的。研究者还分析了给定答案与推理过程的一致性,以及强化学习如何帮助模型从错误中学习并提高其推理能力。通过这些分析,研究者们进一步证明了自我激励学习框架的有效性,并揭示了其在不同方面提升模型性能的潜力。

在SingleEq数据集上的分析,包括奖励模型得分阈值与正确推理比率和数量的关系,PPO/RM模型的准确率和平均得分随时间的变化,以及在PPO过程中每个时期的RM模型得分分布

自我激励学习框架提供了一种任务通用的方法,用于在减少对大型模型和手动注释依赖的同时,提升语言模型的推理性能。通过一系列实验证明了该方法能够在不同类别的复杂推理任务中显著提高模型性能。

论文链接:https://arxiv.org/abs/2404.07017

标签:过程,模型,自我,生成,学习,激励,答案,推理
From: https://blog.csdn.net/weixin_44292902/article/details/139748364

相关文章

  • MCT Self-Refine:创新集成蒙特卡洛树搜索 (MCTS)提高复杂数学推理任务的性能,超GPT4,使用 L
    ......
  • 懂得HR的潜台词(一)——做一下自我介绍吧
    1、解答思路1.1【潜台词】        千万不要照着简历念!,我不在乎你什么时候毕业,工作过几家公司,我只在乎你的技能和优势,是否和我们的岗位匹配。 1.2【回答思路】        个人简单介绍+与应聘岗位相符合的经历、技能和优势。2、参考回答尊敬的面试官,您......
  • HUSKY:一个优化大语言模型多步推理的新代理框架
    推理被高度认可为生成人工智能的下一个前沿领域。通过推理,我们可以将任务分解为更小的子集并单独解决这些子集。例如以前的论文:思维链、思维树、思维骨架和反射,都是最近解决LLM推理能力的一些技术。此外推理还涉及一些外围功能,例如访问外部数据或工具。在最近的几年里,我们已经看到......
  • RapidLayout:中英文版面分析推理库
    引言继上一篇文章之后,我这里想着将360发布的版面分析模型整合到现有的rapid_layout仓库中,便于大家快速使用。不曾想到,我这整理工作越做越多了,好在整体都是往更好方向走。起初,rapid_layout项目是在RapidStructure仓库下的。RapidStructure仓库包含三大块:文档方向分类、版面分析......
  • 高级网络工程师需要不断的学习和实践,保持对技术发展的敏锐性和洞察力,同时能够在复杂环
    初级网络工程师,你需要掌握以下核心知识和技能:网络基础知识:OSI模型和TCP/IP协议族IP地址和子网划分网关、子网掩码和DNS的作用路由和交换的基本原理网络设备:路由器和交换机的功能和工作原理VLAN和Trunk的概念网络设备的配置和管理网络协议:ICMP、ARP、DHCP、F......
  • 使用 TensorRT C++ API 调用GPU加速部署 YOLOv10 实现 500FPS 推理速度——快到飞起!!
    ​NVIDIA®TensorRT™是一款用于高性能深度学习推理的SDK,包含深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。YOLOv10是清华大学研究人员近期提出的一种实时目标检测方法,通过消除NMS、优化模型架构和引入创新模块等策略,在保持高精度的同时显著降低了......
  • 海思SD3403,SS928/926,hi3519dv500,hi3516dv500移植yolov7,yolov8(23)SS928/SD3403推理y
    今天抽空测试了一下3403跑yolov8的速度,源码还没改完,后处理还是先用CPU来跑了,这样速度会拖慢一点,先看看效果。实际用的是4T算力的,里面是有两个NPU,一个叫SVP_NNN,一个叫NNN,用的方式还不一样,分别用SVP_ACL接口和ACL接口。我是没有时间去研究ACL,用的SVP_ACL的方式。下面是对比。......
  • 揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示
    揭秘In-ContextLearning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]自GPT-3首次提出了In-ContextLearning(ICL)的概念而来,ICL目前已经变成了一种经典的LLMs使用方法。ICL,即In-ContextLearning,是一种让大型语言模型(LLMs)通过少量标注样本在......
  • AI模型-模型部署和推理
    模型部署模型部署是将训练好的模型部署到运行环境中进行推理的过程,模型部署的过程中需要解决训练模型到推理模型的转换,硬件资源对模型的限制,模型推理的时延、功耗、内存占用等指标对整个系统的影响以及模型的安全等一系列的问题模型部署到运行环境以后,保护模型......
  • CogVLM/CogAgent环境搭建&推理测试-CSDN博客
    引子最近在关注多模态大模型,之前4月份的时候关注过CogVLM(https://blog.csdn.net/zzq1989_/article/details/138337071?spm=1001.2014.3001.5501)。模型整体表现还不错,不过不支持中文。智谱AI刚刚开源了GLM-4大模型,套餐里面包含了GLM-4V-9B大模型,模型基于GLM-4-9B的多模态模型GL......