首页 > 其他分享 >USP技术提升大语言模型的零样本学习能力

USP技术提升大语言模型的零样本学习能力

时间:2024-05-30 19:32:02浏览次数:30  
标签:示例 模型 样本 生成 任务 USP

 大语言模型(LLMs)在零样本和少样本学习能力上取得了显著进展,这通常通过上下文学习(in-context learning, ICL)和提示(prompting)来实现。然而,零样本性能通常较弱,因为缺乏指导和难以应用现有的自动提示设计方法。论文提出了一种名为Universal Self-Adaptive Prompting(USP)的自动提示设计方法,旨在提升大语言模型(LLMs)在零样本学习(zero-shot learning)任务中的表现。USP通过使用少量未标记数据和仅推理的LLM生成伪示例(pseudo-demonstrations),从而在零样本设置中实现强大的性能提升。

自动提示设计方法是一种用于提高大语言模型(LLMs)在特定任务上性能的技术。这种方法特别适用于零样本(zero-shot)和少样本(few-shot)学习场景,其中模型需要在没有或只有很少的标注数据的情况下学习执行任务。自动提示设计通过生成或选择有效的提示(prompts),帮助模型更好地理解任务并生成适当的输出。

下面是USP方法的关键特点和步骤:

  1. 任务类型分类:USP首先将可能的自然语言处理(NLP)任务归类为三种类型之一:分类(CLS)、短文生成(SFG)和长文生成(LFG)。

  •  CLS (Classification):分类任务,涉及从有限的选项中选择正确答案。
  • SFG (Short-form Generation):短文生成任务,通常涉及问答或补全任务,其中正确答案可能有多个。
  • LFG (Long-form Generation):长文生成任务,如摘要生成,涉及生成较长的文本。
  1. 伪示例生成:在零样本设置中,USP使用未标记数据和推理-only的LLM生成伪示例。这些伪示例是从模型的输出中选择的,旨在模拟真实示例,帮助模型更好地学习任务。

  2. 自适应选择器:USP根据不同的任务类型使用相应的选择器来挑选最合适的查询和模型生成的响应作为伪示例。选择器通过评分函数来量化模型对每个候选伪示例的置信度。

  3. 两阶段过程

    • 第一阶段:LLM在零样本方式下被提示生成一组候选响应。
    • 第二阶段:将选定的伪示例作为上下文信息,与测试查询拼接,然后再次提示LLM以获得最终预测。
  4. 评分函数设计:USP为每种任务类型设计了不同的评分函数,以选择高质量的伪示例。例如:

    • 分类任务:使用负熵作为评分函数,以量化模型对分类标签的置信度。
    • 短文生成任务:使用归一化熵和多样性指标来评估模型生成的响应的置信度。
    • 长文生成任务:使用响应之间的平均成对ROUGE分数来衡量置信度。
  5. 成本分析:USP在计算上是高效的,因为它只需要少量的额外LLM查询。

除了USP,还有其它一些自动提示设计方法,如AutoCoT和Z-ICL,它们也使用模型生成的输出作为伪示例,但在选择过程和适用性方面存在差异。这些方法通常需要更多的LLM查询,并且可能需要对特定任务类型进行特定的设计。

在论文中,作者们设计了一系列实验来验证Universal Self-Adaptive Prompting (USP) 方法的有效性。这些实验在以下模型上进行:

  • PaLM-540B:一个具有540亿参数的大型语言模型。
  • PaLM-62B:一个具有62亿参数的大型语言模型。
  • PaLM 2-M:PaLM 2模型的一个变种,该模型在多语言和推理任务上具有更强的能力。

实验涉及的任务类型包括:

  • CLS (Classification)、SFG (Short-form Generation)、LFG (Long-form Generation)

在这些任务上,USP与以下几种基线方法进行了比较:

  • 标准零样本提示:传统零样本学习方法,没有使用任何示例。
  • AutoCoT:一种自动化的提示设计方法,使用聚类来选择伪示例。
  • 随机示例:随机选择示例的方法,作为USP方法的一种简化版本进行比较。
  • 标准少样本提示:使用少量标注数据进行学习的少样本学习方法。

实验结果表明,USP在多个任务上都取得了显著的性能提升。具体来说:

  • USP在生成任务(SFG和LFG)上的性能提升尤为显著,这可能是因为生成任务通常具有更大的行动空间,因此更依赖于示例提供的指导。
  • 更大或更先进的模型(如PaLM 2-M)中,USP的性能提升也更为明显,这表明模型的规模和训练技术的进步使得它们能够更好地利用高质量的示例进行学习。

此外,作者们还测试了USP的少样本变体(USPfs),这是在只有少量标注数据可用的情况下使用USP的一个变种。在PaLM 2-M模型上,USPfs在BBH (BIG-bench Hard) 任务上也展现了良好的性能。BBH任务是一组设计来挑战模型推理和逻辑能力的复杂任务。USPfs通过生成额外的伪示例来增强标注数据,从而在这些任务上取得了性能提升。

这些实验结果证明了USP方法在零样本和少样本学习场景下的有效性,特别是在处理复杂的NLP任务时,USP能够显著提高模型的性能。

论文链接:http://arxiv.org/pdf/2305.14926

标签:示例,模型,样本,生成,任务,USP
From: https://blog.csdn.net/yetzi1975/article/details/139234232

相关文章

  • 【软件测试】软件测试概念 | 测试用例 | BUG | 开发模型 | 测试模型 | 生命周期
    文章目录一、什么是软件测试1.什么是软件测试2.软件测试和调试的区别测试人员需要的素养二、软件测试概念1.需求1.需求的定义2.测试人员眼中的需求2.测试用例1.测试用例概念3.BUG软件错误4、开发模型和测试模型1.软件的生命周期2.开发模型1.瀑布模型2.螺旋模型3.......
  • 大模型算法办备案全网最详细说明(+附件)
    ​已成功备案产品(近130家,不包括审核中的)一、大模型算法备案的强制性二、生成式人工智能(大语言模型)安全评估要点三、大模型备案必备材料+重点说明四、大模型备案填报流程五、大模型备案时间成本对比六、备案建议附录、过程性材料关于备案咨询不论最终是找我们做备案,......
  • python前端streamlit模型部署
    简单介绍使用前端streamlit框架快速部署本地模型:1、模型训练:importpandasaspd#流程整合fromsklearn.pipelineimportmake_pipeline,Pipeline#数据处理fromsklearn.imputeimportSimpleImputerfromsklearn.preprocessingimportMinMaxScaler,StandardSca......
  • Llama模型家族训练奖励模型Reward Model技术及代码实战(二)从用户反馈构建比较数据集
    LlaMA3系列博客基于LlaMA3+LangGraph在windows本地部署大模型(一)基于LlaMA3+LangGraph在windows本地部署大模型(二)基于LlaMA3+LangGraph在windows本地部署大模型(三)基于LlaMA3+LangGraph在windows本地部署大模型(四)基于LlaMA3+LangGraph在w......
  • 程序员的自嘲:从超人梦到AI助手,我们如何应对AI大模型时代的挑战?
    在AI大模型时代,作为一名程序员,我不得不承认,确实有点危机感。自从OpenAI推出ChatGPT-4O之后,看了发布会,我更加有危机感了,因为AI越来越像人了。记得小时候,我梦想着成为超人,拯救世界。但现在,我感觉超人变成了AI,而我要拯救的,是我的饭碗!百度CEO李彦宏大佬曾说“未来人人都是程序......
  • Mistral 发布 Codestral,它的第一个代码生成人工智能模型,精通 80 多种编程语言
    Mistral是一家由微软支持、估值60亿美元的法国人工智能初创公司,它发布了第一个用于编码的生成式人工智能模型,名为Codestral。与其他代码生成模型一样,Codestral旨在帮助开发人员编写代码并与代码交互。Mistral在博客文章中解释说,它接受了80多种编程语言的培训,包括Py......
  • 大模型智力升级:AI的未来之路
    大模型的发展引领了人工智能的新时代,其强大的数据处理和学习能力在医疗、金融、教育等众多领域取得了令人瞩目的成就。然而,随之而来的挑战也不容忽视。尽管大模型在特定任务上展现出了卓越的性能,但它们在理解复杂语境、处理未见情况的能力以及快速适应新环境方面仍显得力不从......
  • 多模态模型的演进和四种主流架构类型
    机器学习中的多模态领域近年来取得了显著进展。能够处理图像、音频或视频以及文本(语言)的模型显著增多,特别是在Transformer模型的帮助下。我们对现在的多模态按照架构模式分为四类:A、B、C、D。A和B类型在模型内部层中深度融合多模态输入,可以实现细粒度控制模态信息流动,但需要大......
  • 深度学习之AlexNet、VGG-19、VGG-16、LeNet-5、ResNet模型的训练
    一.AlexNet1.1.导入资源包importcv2importmatplotlib.pyplotaspltimportnumpyasnpimportosimportrandom注:cv2:这是OpenCV模块,用于处理图像和视频,包括摄像头捕捉、图像处理、特征检测等。matplotlib.pyplotasplt:这是Matplotlib模块的一部分,用于创建和......
  • AI大模型的推理显存占用分析
    了解Transformer架构的AI大模型显存占用是非常重要的,特别是在训练和推理过程中。以下是详细解释和分析这些组成部分及其影响的专业描述:1显存占用1.1模型本身参数模型的参数包括所有的权重和偏置项,这些参数需要存储在显存中,以便在训练和推理过程中进行计算。占用字节:每......