首页 > 其他分享 >重要的事情说两遍!Prompt「复读机」,显著提高LLM推理能力

重要的事情说两遍!Prompt「复读机」,显著提高LLM推理能力

时间:2024-10-09 15:20:39浏览次数:10  
标签:Prompt RE2 模型 复读机 AI LLM 推理 重读

【导读】 尽管大模型能力非凡,但干细活的时候还是比不上人类。为了提高LLM的理解和推理能力,Prompt「复读机」诞生了。

众所周知,人类的本质是复读机。

我们遵循复读机的自我修养:敲黑板,划重点,重要的事情说三遍。

but,事实上同样的方法对付AI也有奇效!

有研究证明,在提问的时候故意重复一遍——也就是复制粘贴,即可显著提高LLM的推理能力。

图片

论文地址:https://arxiv.org/pdf/2309.06275

看下面的例子:

在这里插入图片描述

作者认为,通常情况下,问题中的重点token(比如这里的tennis balls)无法看到位于它后面的token(上图)。

相比之下,使用重读(re-reading,RE2)的方法,允许「tennis balls」在第二遍中看到自己对应的整个问题(How many tennis balls does he have now?),从而达到双向理解的效果(下图)。

在这里插入图片描述

实验表明,在14个数据集上的112个实验中,RE2技术都能带来一致的性能提升,无论是经过指令调整的模型(如ChatGPT),还是未经调整的模型(如Llama)。

实践中,RE2作为独立的技巧,可以与CoT(Let’s think step by step)以及自我一致性方法(self-consistency,SC)一起使用。

下表展示了混合应用多种方法对模型效果的影响。尽管自我一致性聚合了多个答案,但重读机制仍然有助于大多数场景的改进。

在这里插入图片描述

接下来,在GSM8K数据集上(使用ChatGPT)进一步研究输入问题复杂性对CoT和RE2提示的推理性能的影响。

这里通过计算真实解释中存在的推理步骤来衡量问题的复杂性,结果如下图所示。

在这里插入图片描述

随着问题复杂性的增加,所有提示的表现通常都会下降,但重读的引入提高了LLM应对各种复杂问题的表现。

此外,作者还计算了各代和输入问题之间的覆盖度,证明RE2增加了输出解释中的n-gram (n=1,2,3,4) 召回率。

重要的事情说2遍

现有的推理研究主要集中在设计多样化引导提示,而对输入阶段的理解却很少受到关注。

事实上,理解是解决问题的第一步,至关重要。

当今大多数LLM都采用单向注意力的decoder-only架构 ,在对问题进行编码时,单向注意力限制了token的可见性,这可能会损害对问题的全局理解。

在这里插入图片描述

怎么解决这个问题?作者受到人类习惯的启发,尝试让LLM把输入再读一遍。

与引导模型在输出中推理的CoT不同,RE2通过两次处理问题将焦点转移到输入,促进了单向解码器的双向编码,从而增强LLM理解过程。

在这里插入图片描述

上图为GSM8K数据集上测试的注意力分布图,较暗的单元格表示较高的注意力。

上虚线三角形内的区域表明,第二遍输入中的每个token都明显关注第一遍中的后续token,证明LLM的重读有望实现对问题的双向理解。

从另一个角度考虑,重读使LLM能够为输入编码分配更多的计算资源,类似于水平增加神经网络的深度。因此,拥有RE2的LLM对问题有更深入的理解。

普通推理

利用带有CoT提示的LLM来解决推理任务,可以用公式表述为:

在这里插入图片描述

其中,Cx表示提示输入,来自带有CoT提示指令的模板,z表示自然语言中的采样基本原理。

因此, LLM可以将复杂的任务分解为更易于管理的推理步骤,将每个步骤视为整个解决方案链的组成部分。

RE2 推理

受到人类重读策略的启发,将上面的方程改写为:

在这里插入图片描述

所以RE2在实际应用中就是下面这种格式:

在这里插入图片描述

其中{Input Query}是输入查询的占位符,左侧部分可以包含其他引发思考的提示。

实验

由于RE2的简单性和对输入阶段的重视,它可以与各种LLM和算法无缝集成,包括few-shot、自我一致性、各种引发思考的提示策略等。

为了验证RE2的有效性和通用性,研究人员在14个数据集上进行了112个实验,涵盖算术、常识和符号推理任务。

算术推理

实验考虑以下七个算术推理基准:

数学应用题的GSM8K基准、具有不同结构的数学应用问题的SVAMP数据集、不同数学应用题的ASDiv数据集、代数应用题的AQuA数据集、三到五年级学生的加法和减法数学应用题、多步骤数学问题数据集,以及单次运算的初等数学应用题数据集。

在这里插入图片描述

上表为算术推理基准测试结果。*处表示不使用任何技巧,但效果优于CoT提示的情况。

常识和符号推理

对于常识推理,实验采用StrategyQA、ARC和CSQA数据集。

StrategyQA数据集包含需要多步骤推理的问题;

ARC数据集(ARC-t)分为两个集合:挑战集(ARC-c)和简单集(ARC-e),前者包含基于检索和单词共现算法都错误回答的问题;

CSQA数据集由需要各种常识知识的问题组成。

实验评估两个符号推理任务:日期理解和Coinflip。日期理解是 BigBench数据集的子集,Coinflip是一个问题数据集,根据问题中给出的步骤,判断硬币翻转后是否仍然正面朝上。

图片

结果表明,除了普通ChatGPT上的某些场景之外,具有简单重读策略的RE2,持续增强了LLM的推理性能。

RE2展示了跨各种LLM的多功能性(Text-Davinci-003、ChatGPT、LLaMA-2-13B和LLaMA-2-70B),涵盖指令微调 (IFT) 和非IFT模型。

作者还对RE2在零样本和少样本的任务设置、思维引发的提示方法以及自洽设置方面进行了探索,突出了其通用性。

Prompting

实验严格评估RE2模型在两种基线提示方法上的性能:Vanilla(不添加特技)和CoT(通过逐步的思维过程来指导模型)。

图片

针对不同的任务,作者在提示中设计了答案格式指令,以规范最终答案的结构,便于精确提取答案。

在这里插入图片描述

实验的解码策略使用贪婪解码,温度设置为0,从而产生确定性输出。

最后探索一下问题重读次数对推理性能的影响:

在这里插入图片描述

上图展示了两个不同的LLM的表现如何随问题重读次数的变化而变化。我们可以发现重读2次使性能提高,之后随着问题重读次数增加,性能开始下降。

猜测原因有两个:i)过度重复问题可能会起到示范作用,鼓励LLM重复问题而不是生成答案,ii)重复问题会显著增加推理和预训练之间的不一致。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

标签:Prompt,RE2,模型,复读机,AI,LLM,推理,重读
From: https://blog.csdn.net/xxue345678/article/details/142780479

相关文章

  • 大模型面试八股+答案,LLM-offer手到擒来!
    你是否也曾为面试大模型八股文而苦恼?别担心!今天我就来给你分享一些绝妙的面试技巧,让你轻松应对!......
  • Salesforce AI Specialist篇之 Prompt Builder
    本篇参考:https://salesforce.vidyard.com/watch/UUAxcUfHYGAxH3D9wV1RxJhttps://help.salesforce.com/s/articleView?id=sf.prompt_builder_about.htm&type=5https://www.lightningdesignsystem.com/guidelines/conversation-design/overview/一.什么是PromptTemplate我们......
  • 一书讲透LLM大语言模型,《掌握大型语言模型》,看完我都懵了!
    《掌握大型语言模型》(MasteringLargeLanguageModels)由SanketSubhashKhandare撰写,是一本关于大型语言模型(LLMs)的高级技术、应用、前沿方法和顶尖模型的指南。这本大模型书已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这......
  • 英璞来(imprai)LLMs企业级智能助理:让大语言模型应用触手可及
    在这个信息爆炸的时代,人工智能和大数据技术正在改变我们的生活。而随着大语言模型的广泛应用,如何快速、高效地将这些模型集成到各种应用场景中,成为了一个亟待面对的问题。今天,我们要向您介绍一款名为英璞来(imprai)的开箱即用的企业级智能助理平台,它能够让您轻松获得各种基于大语言......
  • ChatBot: 通过高性能LLM批量产生Character
    基于LLM创建Character,能够实现ChatBot社区的AGI吗?如果高性能的LLM能够产生中高质量的提示词并且被低性能但廉价的LLM使用,那么就有了很大的使用价值.怎么定义一个Character我认为至少需要以下几个内容:Name:Thenamecanincludefirstandlastnames.(3-40characters......
  • ChatBot: 通过高性能LLM批量产生Character
    基于LLM创建Character,能够实现ChatBot社区的AGI吗?如果高性能的LLM能够产生中高质量的提示词并且被低性能但廉价的LLM使用,那么就有了很大的使用价值.怎么定义一个Character我认为至少需要以下几个内容:Name:Thenamecanincludefirstandlastnames.(3-40characters......
  • WPF ListBox IsSynchronizedWithCurrentItem True ScrollIntoView via behavior CallM
    <ListBoxGrid.Column="0"ItemContainerStyle="{StaticResourcelbxItemContainerStyle}"ItemsSource="{BindingBooksCollection,Mode=TwoWay,UpdateSourceTrigger=PropertyChanged}"IsSynchronizedWith......
  • litellm
    litellmhttps://github.com/BerriAI/litellm/tree/mainPythonSDK,ProxyServer(LLMGateway)tocall100+LLMAPIsinOpenAIformat-[Bedrock,Azure,OpenAI,VertexAI,Cohere,Anthropic,Sagemaker,HuggingFace,Replicate,Groq]LiteLLMmanages:Transla......
  • LLM模型融合(一)
    写文章点击打开江左郎的主页模型融合(ModelMerging):合理性、常见技术及其特性模型融合(ModelMerging):合理性、常见技术及其特性段誉段誉​武汉大学网络空间安全硕士​关注他109人赞同了该文章​目录引言开源LLM世界百花齐放,除了通用Base模型、SFT模型之外,另有一类......
  • debate by LLM
       Pro:Ladiesandgentlemen,esteemedadjudicator,andworthyopponents,IstandbeforeyoutopresentacompellingargumentinfavorofthepropositionthatGPTmodelsareaviablepathtoachievingArtificialGeneralIntelligence,orAGI.Myargume......