我们研究了语言模型中的上下文学习(ICL)如何受到语义先验和输入标签映射的影响。我们在不同的模型族(GPT-3、InstructGPT、Codex、PaLM和Flan-PaLM)中研究了两种设置—带有翻转标签的ICL和带有语义无关标签的ICL。首先,在翻转标签的ICL上的实验表明,覆盖语义先验是模型规模的涌现能力。虽然小型语言模型忽略了上下文中呈现的翻转标签,因此主要依赖于预训练的语义先验,但当给出与先验相矛盾的上下文示例时,大型模型可以覆盖语义先验,尽管大型模型可能拥有更强的语义先验。
我们接下来研究语义无关的标签ICL (su -ICL),其中标签在语义上与它们的输入无关(例如,foo/bar而不是负/正),从而迫使语言模型学习上下文示例中显示的输入-标签映射,以执行任务。进行su - icl的能力也主要随着规模的扩大而出现,足够大的语言模型甚至可以在su - icl设置中执行线性分类。最后,我们评估了指令调优模型,发现指令调优加强了语义先验的使用和学习输入标签映射的能力,但更多的是前者。
Background
为了成功地执行ICL,模型可以(a)主要使用语义先验知识来预测标签,同时遵循上下文样本的格式(例如,将“积极情绪”和“消极情绪”视为标签,并使用先验知识进行情感分析)和/或(b)从所提供的样本中学习输入-标签映射(例如,找到一个模式,积极的评论应该映射到一个标签,而消极的评论应该映射到另一个标签)。之前关于这些因素中哪些驱动性能的研究是混合的。
与常规ICL相比,翻转标签ICL和语义无关标签ICL (su -ICL)的概述。翻转标签ICL使用翻转目标,迫使模型覆盖语义先验,以便遵循上下文中的示例。su - icl使用的目标在语义上与任务无关,这意味着模型必须学习输入标签映射才能执行任务,因为它们不能再依赖于自然语言目标的语义。
翻转标签ICL使用翻转目标,迫使模型覆盖语义先验,以便遵循上下文中的示例。su - icl使用的目标在语义上与任务无关,这意味着模型必须学习输入标签映射才能执行任务,因为它们不能再依赖于自然语言目标的语义。
在本文中,我们研究了这两个因素——语义先验和输入标签映射,在几个实验设置中是如何相互作用的(见图1每个设置的示例):
-
在常规的ICL中,语义先验和输入标签映射都可以使模型成功地执行上下文内学习。
-
在翻转标签ICL中,样本中的所有标签都是翻转的,这意味着语义先验知识和输入标签映射不一致。评估集的标签保持不变,因此对于二进制分类任务,在此设置中执行优于50%的准确率意味着模型无法覆盖语义先验,而执行低于50%的准确率意味着模型能够学习输入标签映射并覆盖语义先验。
-
在语义无关的标签ICL (su -ICL)中,标签在语义上与任务无关(例如,对于情感分析,我们使用“foo/bar”而不是“negative/positive”)。由于标签的语义先验被移除,模型只能通过使用输入标签映射来执行ICL。
为了分析语义先验和输入标签映射之间的相互作用,我们在这些设置中运行实验,这些设置跨越了不同规模的多个模型族、训练数据和指令调优(GPT-3、InstructGPT、Codex、PaLM、Flan-PaLM),特别注意结果如何随模型规模而变化。首先,我们研究了翻转标签ICL,我们发现小模型在看到翻转标签时不会改变它们的预测,但大模型可以翻转它们的预测以遵循翻转的范例(第3节)。这意味着,使用输入标签映射覆盖语义先验的能力随着模型规模的增长而出现,这不应该被认为是理所当然的,因为更大的模型可能有更强的先验,更难以覆盖。
其次,我们将su -ICL设置与常规ICL进行了比较(第4节)。我们发现,当去除语义先验时,小型语言模型的性能会大幅下降,而大型语言模型即使没有标签中的语义先验也能很好地执行任务。对于某些数据集,要在SUL-ICL设置中优于随机需要大量的缩放(例如,只有PaLM-540B实现了高于随机的性能)。我们还发现,对于高维线性分类任务(第6节)也是如此。这意味着在没有给定语义先验的情况下学习输入标签映射也是大型语言模型用于这些任务的一种涌现能力。
最后,我们研究了指令调优的效果(Min et al, 2022a;Wei et al, 2022a;Chung等人,2022)关于ICL能力(第5节)。我们发现指令调优模型在su -ICL设置上比仅进行预训练的模型获得了更好的性能,这意味着指令调优提高了模型学习输入标签映射的能力。另一方面,我们也看到指令调优模型更不愿意遵循翻转标签,这意味着指令调优降低了模型覆盖语义先验的能力,而不是提高了模型学习输入标签映射的能力。总的来说,我们的工作旨在阐明语义先验知识和输入标签映射之间的相互作用,同时考虑缩放和指令调优的影响。
指令调优语言模型在学习输入标签映射方面比仅进行预训练的语言模型更好。准确性计算使用每个数据集100个评估示例,并在六个数据集上平均。附录中的图19显示了该图的每个数据集版本。
当上下文中出现翻转标签时,指令调优模型在学习覆盖语义先验方面比仅进行预训练的模型差。我们在每个类中使用k = 16个上下文示例,准确性是使用每个数据集100个评估示例计算的,并在六个数据集上平均。附录中的图20显示了该图的每个数据集版本。
大型语言模型可以执行线性分类
成功地执行16维线性分类,出现了法典模型的模型尺度。准确度是在100个评估示例中计算的,每个类k = 16个上下文示例。
标签:DO,先验,LANGUAGE,ICL,标签,模型,语义,映射,CONTEXT From: https://www.cnblogs.com/Tsukinousag1/p/17231741.html