论文翻译 | Bounding the Capabilities of Large Language Models in Open Text Generation with Prompt Constr

标签：Prompt Language Models 模型约束提示 GPT 文本我们

摘要

开放式生成模型的局限性尚不清楚，但却越来越重要。是什么让他们成功，又是什么让他们失败？在本文中，我们采用了一种以提示为中心的方法来分析和限定开放式生成模型的能力。我们提出了两种具有挑战性的提示约束类型的通用分析方法：结构和风格。这些约束类型被归类为一组定义良好的约束，可以通过单个提示进行分析。然后，我们系统地创建一组简单、自然和有用的提示，以健壮地分析每个单独的约束。使用GPT-3 text-davinci-002模型作为案例研究，我们从提示集合中生成输出，并分析模型的生成失败。我们还展示了我们提出的方法在其他大型模型（如BLOOM和OPT）上的泛化性。我们的结果和我们的情境缓解策略揭示了未来研究的开放挑战。我们已经在http://t https://github.com/ SALT-NLP/Bound-Cap-LLM.上公开发布了我们的代码。

1 引言

        大型语言模型（LLM）（Brown等人，2020年；Devlin等人，2018年；Raffel等人，2019年）最近的成就在自然语言处理（NLP）领域引发了变革。尤其是，引导LLM生成开放式文本已显示出令人鼓舞的性能。开放式文本生成的现有和潜在应用范围广泛，涵盖了诸如问答（Zhu等人，2021年）、故事生成（Fan等人，2018年）、代码生成（Chen等人，2021a）、人类辅助创造力（Akoury等人，2020年）、开放式对话（Zhang等人，2020年）以及ChatGPT 1的各种用途等多个领域。然而，随着LLM的不断发展，人们对NLP系统不可预测性的担忧日益增加，因此需要更好地理解它们的能力和局限性。对开放式文本生成进行广泛分析，是理解它们的能力、局限性和改进空间的必要手段。
        当前对开放式文本生成的分析主要集中于一般文本属性，如语法、连贯性和毒性。这些分析用于理解模型生成的一般方面，但它们没有针对提示来分析模型性能。在这个领域下一步的工作是，通过将开放式文本生成的广阔空间分解为简单、自然和有用的提示分类法，来分析特定于提示的性能。对模型能够和不能够处理的提示进行细致的理解，为模型能力设定了清晰的界限，并推动了模型可解释性和未来改进方向。
        对提示进行分类的一种方法是按照它们的约束条件来分。提示“创作一个关于研究的简短而有趣的笑话”包含了多种约束条件。输出必须是一个笑话（文档类型约束），简短（结构约束），有趣（风格约束），并且关于研究（主题约束）。开放式生成提示的空间可以根据它们的约束条件进行划分，因为所有提示都是不同类型约束的组合。
        在本文中，我们系统地评估了包含风格和结构约束的提示上的模型性能。风格约束限制了输出的风格，比如用华丽风格写作；结构约束限制了输出的结构，比如限制输出中的单词数量。
        我们选择分析风格和结构约束，因为它们普遍存在于各种提示中，并且在文献中被认为特别具有挑战性（Ouyang等人，2022年；Reif等人，2021年）。从正式的电子邮件到有趣的笑话，许多生成式应用都具有风格。此外，所有生成都有隐含或明确的结构约束，如电子邮件或简历的长度和适当格式，对于LLM来说理解这些是非常重要的。
        我们为每个类别创建了简单、自然和有用的基本提示，并在多个维度上变化它们，以确保对每个类别进行细致而可靠的分析。我们使用公共GPT-3模型作为案例研究，以展示我们提出的分类法的有效性，并全面定量和定性分析结果。然后，我们测试上下文内的缓解策略，并为开放式生成的评估提供未来研究的方向。
        总结来说，我们的贡献如下：

我们提供了一个包含风格或结构约束的提示分类法，以促进对开放式文本生成更细致的分析。
我们通过创建288个不同的提示并评估3000多个生成输出，使用我们的分类法进行了系统性的实验，以分析当前LLM在开放式文本生成上的能力和局限性。
我们分析了上下文内的缓解策略以改善模型性能，并讨论了开放式文本生成的未来研究方向。

2 相关工作

        大型语言模型分析 许多现有基准测试已被用于测量LLM在自然语言理解和生成方面的能力（Wang等人，2019年；Sakaguchi等人，2019年；Mostafazadeh等人，2016年；Rajpurkar等人，2018年；Joshi等人，2017年；Mihaylov等人，2018年），其中预期的输出大多是确定性的和/或简短的。还有许多研究分析开放式文本生成的通用文本属性，如语法、连贯性和毒性。Dhamala等人（2021年）使用自动化指标来测试基于维基百科的大量提示中的性别偏见、毒性和情感。Dou等人（2021年）创建了一个框架，用于分析GPT-3输出中的语言错误、事实错误或读者问题（如使用技术术语）。
        此外，许多研究使用手工制作的提示来对抗性地评估开放式文本生成模型。Chowdhery等人（2022年）使用了提示“所有X都是”并计算续写的平均毒性，以评估PaLM对群体X的偏见。Gehman等人（2020年）设计了鼓励模型产生有毒行为的提示。Lin等人（2021年）创建了一个手工策划的提示数据集，以引出GPT-3的幻觉。相比之下，我们的目标是调查LLM在提示中的约束条件下的开放式文本生成能力，因为我们寻求对模型性能更细致和有限制的理解。毒性和语法正确性等要素对所有输出都很重要，但它们并不能提供关于LLM如何正确响应提示的洞察。
        可控文本生成 控制模型输出以适应一组约束属于可控文本生成的领域。Chan等人（2020年）使用内容适配器来控制模型输出。Krause等人（2020年）使用对比解码来创建具有风格或主题约束的生成。Keskar等人（2019年）使用与相关风格标记连接的输入对LLM进行微调。然而，创建这些以约束为中心的输出需要一个匹配的受约束文本数据集和架构上的转变。我们仅在上下文中评估可控生成，并使用全面的分类法，而不是将评估限制在现有数据集上。
        与我们的论文最为相似的是，Reif等人（2021年）使用GPT-3提示来风格化修改文本，并要求人类评分者评估生成质量。相比之下，我们对生成风格化文本的模型性能进行了细致的分析。此外，我们专注于创建一组简单、自然和有用的提示进行分析。我们的目标是了解开放式生成模型的当前能力和局限性。

3 方法

第一步是将约束类型分解为单个约束的分类法。这些单独的约束条件必须通过一个提示来分析，并明确定义失败和成功。我们通过考虑用户如何自然地在提示符中添加约束来创建分类法。

3.1 提示设计

        之前的作品(雷诺兹和麦克唐纳，2021年；Min et al, 2022)表明提示方差会对模型性能产生巨大影响。为了减少这种可变性，我们采用以下两个步骤来设计提示：设计基本提示我们首先设计一组简单而自然的提示，作为每个单独约束的基本提示。例如，我们对文体约束“情绪”的基本提示是“写一篇让读者感到（愤怒、恐惧、快乐、悲伤）的关于爱的文章”。创建提示变量然后我们根据一些重要的维度来改变这些基本提示，例如主题和提示模板。例如，我们通过2个额外的提示模板（语义相同，但语法不同）和2个额外的主题来改变我们的情绪提示。这些维度不是共变的，除非最初的测试揭示了重要的维度对。
        除非另有说明，否则所有提示符都使用基本主题和模板。完整的提示列表可以在附录C中找到。
        总的来说，我们创建了288个提示，这些提示有助于对LLM的开放式文本生成功能进行健壮和细粒度的分析。

3.2 结果生成

我们通过OpenAI的API以及其他可公开访问的llm（如OPT， BLOOM和GLM）使用GPT-3系列生成输出。我们的主要实验是在GPT-3上进行的，模型文本为davici -002，采样温度为0.7，最大令牌长度为1024。高温鼓励创造性和多样化的输出，高最大令牌长度防止最大长度限制。我们为每个提示符生成10个输出来评估。对模型和模型参数的敏感性研究见第4.5节。

4 文体约束

所有语言都存在文体限制。这些风格上的修改通常包括在文档类型之前的形容词：“给我的老板写一封正式的电子邮件；写一个有趣的搭讪词。”对于LLM来说，在零样本环境中，风格限制尤其具有挑战性（Reif et al, 2021）。我们的风格限制是基于读者咨询（RA）领域的现有工作。RA采用以用户为中心的方法，根据文体特征推荐图书。按功能划分的RA分类法涵盖了对作者和读者都有用的各种风格文本特性。我们使用Pera和Ng（2014）中发现的综合RA分类法。这些特征包括写作风格、语气、情绪、人物塑造、节奏、情节和类型。每个选定的特征都用于在独特而强大的维度上对文本进行风格上的修改。

4.1 分类

        写作风格 写作风格影响文本中的语言复杂性和文学手法，以及文本的详细程度。我们的基本写作风格是实用型和华丽型，我们沿着这个谱系测试更高级的写作风格。
在测试中，我们注意到风格-主题搭配对模型性能有重大影响。因此，我们控制了所有主题和写作风格。
        语气语气反映了作者对某个话题的态度。我们从Spiteri和Pecoskie（2018）中选择四种基本语气作为我们的基本提示：戏剧性、幽默、乐观、悲伤。我们还选择了另外八种高级语气作为提示的变化。
        由于创意语气的分类并不完全与常见语气一致，我们还分析了专业环境中的常见语气：正式、非正式、果断、消极攻击。
        情绪情绪描述了写作作品如何使观众感受。我们选择了Spiteri和Pecoskie（2018）中的四种常见基本情绪——愤怒、恐惧、快乐、悲伤作为我们的基本提示。七种高级情绪被选作提示的变化。
        人物塑造 故事的人物塑造定义了它如何描述其角色。我们选择分析直接和间接的人物塑造。
节奏节奏描述了故事对读者来说进展的快慢。在这里，我们测试了两个通用案例：快节奏和慢节奏。
        情节情节大致概述了故事的事件序列。我们分析了七种基本情节（BOOKER, 2019）：战胜怪兽、白手起家、探险、往返旅程、喜剧、悲剧、重生。由于“喜剧”和“悲剧”有多重含义，GPT-3无法创造经典的“喜剧”和“悲剧”情节，我们的定义被扩展到包括那些有趣或悲伤的故事。
体裁
        故事的体裁是其主题内容的分类。我们选择了6种流行体裁：历史小说、文学小说、科幻小说、悬疑、反乌托邦和恐怖。

4.2 提示变化

除了前面的变化，我们根据主题和提示模板改变所有提示。在写作风格上，我们选择了“日落”、“草莓”和“写论文”三个主题，从功能到华丽的主题，在坐标轴上创造了多样性。对于一般的文体约束“语气”和“情绪”，我们选择了公文式的段落和题材为爱情、生活、人文。这些主题适合我们的任务，因为它们通常以各种风格方向表达。对于以故事为中心的“人物塑造、节奏、情节和类型”的风格约束，我们选择了文档型故事和多样而常见的主题：恋人、猫、幸存者。由于情节和类型都是以内容为中心的风格限制，我们还添加了“无主题”作为基线比较的主题。这些主题在故事中很常见，也各不相同。我们在附录C中显示了完整的提示列表。

4.3 评价

我们使用亚马逊的土耳其机械平台（AMT）来评估所有输出。对于每个输出，我们向工作人员显示提示符和样式的定义，然后向工作人员提出三个问题：“就回应的（方面）而言，你认为回应在多大程度上符合要求？”2. “对这个提示做出有效的回应有多难？”3. “在回应中，你是否观察到任何其他的失败（例如，不一致，未经证实的事实，而不是一个故事/段落）？”我们用5分李克特量表（-2到2）来评估第一个问题的回答风格，用10分李克特量表（1到10）来评估第二个问题的提示难度。第三个问题的目的是允许注释者写下与风格限制无关的错误，这可以促进额外的定性分析。第一个问题的整体注释者间一致性（Krippendorff 's α）为0.31。更多细节和注释接口见附录A。

4.4 结果

写作风格的结果见表1，语气和情绪见表2，人物塑造、节奏、情节和类型见表3。不出所料，GPT-3与喜剧和其他具有挑战性的风格限制（如讽刺、反讽和文学小说）作斗争。除此之外，我们将在这里集中讨论几个关键发现，附录B.1中列出了每个方面的分析以及这些发现的定性示例。

        GPT-3对风格-主题搭配非常敏感。 从表1中可以看出，GPT-3不能以散文或实用风格写关于日落的内容，也不能以华丽风格写关于写论文的内容。从表3中可以看出，GPT-3能够从“恋人”这个主题创造出个体角色，但它无法对“幸存者”或“猫”进行人物塑造。同样从表3中可以看出，GPT-3不能写关于“恋人”战胜怪兽的故事，但它可以写关于“猫”或“幸存者”战胜怪兽的故事。这表明模型可能使用了风格和主题之间的伪相关，而不是对风格有独立的理解。
        当提示过于具有挑战性时，GPT-3会将风格与主题混淆。当要求GPT-3幽默地写作或写喜剧时，它会写关于有趣的事情，但输出内容本身并不有趣。当要求GPT-3写一段让读者感到愤怒或恐惧的文字时，它会直接写关于愤怒和恐惧的内容。这种情况在表现较差的风格中更为常见，看起来当模型不确定如何创造风格时，它会将风格作为主题使用。这可能是因为GPT-3不理解在低概率提示中风格的目的，因此将风格作为主题使用。
        GPT-3在处理非创意写作独有的词汇时遇到困难。写作风格主题“草莓”可以实用型和创意型地写作，但GPT-3无法写出关于草莓的华丽或精致内容。GPT-3也无法创造“历史”或“科幻小说”的内容，以及经典的“喜剧”和“悲剧”。这可能是因为GPT-3在处理超出创意写作意义范围的词汇时，由于创意文本和实用文本数据集的不平衡，难以在风格上使用这些词汇。

GPT-3的性能与注释者感知的提示难度没有相关性。如图2所示，模型性能与注释者感知的提示难度之间的斯皮尔曼相关性为-0.15，显示没有相关性。注释者认为写一个“喜剧”情节的故事很容易，而GPT-3的表现却非常差。注释者认为像“重生”和“反乌托邦”这样具有复杂体裁或情节的提示很难，而模型的表现却很好。这是一个强烈的结果，表明影响提示难度的因素在人类和LLMs之间是不同的。这加强了我们工作的的重要性，我们通过实证找到哪些提示对LLMs具有挑战性，哪些不具有挑战性。

4.5 尺度和温度变化

为了分析对模型参数的敏感性，我们选择了七个基本提示（每个风格约束一个，如表11所示）。在比较不同模型和参数时，我们优先选择平均得分的提示以建立基线。除了我们默认使用text-davinci-002（D，176B）并设置温度为0.7之外，我们还尝试了OpenAI API中的三个不同引擎：text-ada-001（A），text-babbage-001（B），text-curie-001（C），这些分别对应于InstructGPT模型的350M、1.3B和6.7B参数，以及两个额外的温度设置0.4和1.0。5汇总结果如图3所示。

模型规模变化如预期的那样，较小的模型表现较差，除了C模型在幽默语气约束上的表现比B模型差，这是由于C模型在幽默语气约束上的表现极低。
温度变化 对于两个额外的温度设置，性能都有所提高。我们检查了输出结果，并注意到较高的温度会产生更好的结果，而较低的温度则会重复恰好表现良好的输出，如附录B.3所示。

4.6 上下文缓解帮助

我们测试了文献中的三种上下文内缓解策略，使用的提示与第4.5节相同，实验设置也相同：

定义在提示前加上风格的定义（与给注释者展示的相同），以提供关于任务的信息。
示范遵循Brown等人（2020年）的一次性设置，在提示前加上一个回答良好的示范，以帮助模型理解任务。
解释在一次示范后加上解释，说明为什么示范的回应是正确的（Lampinen等人，2022年）。

一个例子显示在附录C.1中。如图4所示，所有缓解措施都通过主要提高“幽默语气”提示的表现而对性能产生了积极影响。然而，这些缓解措施是不自然的提示，结果仍然远低于最佳水平。

5 结构约束

结构约束无处不在：“写一篇少于1000字的文章；把你的论文限制在8页以内”。对于法学硕士来说，结构性约束尤其具有挑战性（Ouyang et al, 2022）。结构在自然语言处理领域是一个广义的概念。我们专门分析与输出的实际内容正交的文本的结构方面。这包括长度、间距和格式，不包括以内容为中心的属性，如语法或语义。我们的分类法基于用户如何在提示符内请求结构约束。我们选择在本文中分析数字、描述和格式结构约束，但我们注意到这不是整个结构空间的综合。

5.1 分类

        数字约束 将文本限制为一定数量或有限数量的单词、句子或段落，在写作的所有方面都是有益的。我们创建了带有数字要求的提示：三个不同的语言结构层次——单词、句子和段落——分别限制为五个、十个、二十个。
        描述性结构约束结构约束也可以是描述性的，比如“简洁的电子邮件”或“深入的讨论问题”。在我们的实验中，我们选择了以下结构描述词：简短、简短、简洁和长、详细、深入。
        格式化 当用户请求如简历或电子邮件这样的文档时，会有特定的格式期望。LLM应该知道如何正确地间隔和格式化特定类型的文档。我们分析了三种常见的格式类型：代码、电子邮件和学术论文。

代码：测试模型的编码能力是一个应用广泛的流行领域（Hendrycks等人，2021年）。我们使用自然指令作为提示，并关注生成代码的格式。我们评估两种流行的编程语言：Python和C，以及两个常见的编码问题：创建战争游戏和两个整数的求和。
电子邮件：我们评估三种不同读者——教师、男朋友、客户——和提示中两种不同电子邮件详细程度的场景。
学术论文：一个格式正确的学术论文应该分为如摘要、引言和结论等部分。我们提示LLM生成关于三个不同主题的学术论文：人工智能、GPT-3的缺陷、我们社会可以采取的从全球大流行中恢复的策略。

提示变化 除了分类法中描述的变化之外，我们还通过提示模板变化所有提示。此外，我们还通过主题——爱情、猫和跑步——的变化来增加数字和描述性结构约束的多样性。一个示例提示是“用五个单词写一句关于爱情的话。”
评估对于数字和描述性结构约束，我们自动计算数量，并手动验证评估的质量。对于格式约束，我们查看生成的文本，并根据其格式进行评估。电子邮件、代码和学术论文在格式约束上的评估很简单。

5.2 结果

GPT-3对结构理解是准确的，但不够精确。总的来说，它的许多输出接近或倾向于满足结构约束，但并不精确地实现它。每个部分的完整分析提供在附录B.2中，以下是最主要的发现。

GPT-3在数字结构约束上失败如图5所示，模型很少生成所需长度的文本。而且，随着所需长度的增加，性能变差。它在五个、十个和二十个的数量上失败率分别为0.46、0.78和1。GPT-3似乎在训练过程中没有学会如何计算单词、句子或段落的数量。然而，结果通常接近请求的数量，这意味着GPT-3对数字结构有一定的概念。

        GPT-3在描述性结构约束如“长”上表现出高变异性如图6所示，当提示包含像“长”这样的结构描述词时，输出的长度极其不稳定，并且在与生成“短”响应的长度上有相当大的一部分（20%）的重叠。这可能是由于模型在预训练数据中看到的“长”文本的内在可变长度导致的，因为长/短是一个相对的概念。
        GPT-3未能正确格式化学术论文当要求GPT-3撰写学术论文时，它不会生成具有正确格式或部分的文本，尽管它在其他文档类型如电子邮件或代码方面取得了成功。电子邮件或代码等文档类型通常会被赋予“电子邮件”或“代码”这样的伪标签，但学术论文的标题并不引用它们的文档类型。我们假设这可能导致模型在将文档类型“学术论文”与训练数据中的那些文档联系起来时遇到困难。
规模和温度变化
        我们还进行了与第4.5节类似的实验，使用所有数字约束提示。我们的自动评估显示，较小的模型在整体上表现稍差，不同的温度并没有显著改变性能。完整的结果在附录B.2.4中。

6 除GPT-3以外的LLMs

我们的方法具有通用性，可以用来分析任何LLM。我们对其他公开可用的LLM进行了试验：OPT-176B9（Zheng等人，2022年），BLOOM-176B10和GLM-130B11（Du等人，2022年），使用了与第4.5节相同的7个基本提示以及我们数字结构约束分类法中的3个额外基本提示。由于模型和API限制的差异，一些模型参数发生了变化。对于GLM和BLOOM，我们使用了可能的最大长度（分别为256和250），以及默认设置的温度=0.7，top-p=1。对于OPT，由于在更高的最大长度下输出不稳定，我们选择了较小的最大长度128。

如表5所示，我们发现输出有时是退化的，比如重复提示。所有响应都经过手动检查，退化的响应被从注释池中移除，并自动标记为-2。除了GPT-3之外的模型表现都差得多，超过一半的生成是退化的。这可能是由于噪声更大的预训练数据集和缺乏指令对齐训练。我们发现一些模式，如风格-内容混淆，对于这些LLM仍然成立，尽管需要对LaMDA（Thoppilan等人，2022年）和PaLM（Chowdhery等人，2022年）等其他模型进行更全面的分析，以揭示更清晰的模式。

7 结论

我们提出了一种通用的方法来分析语言模型在结构和风格约束下生成开放式文本的能力。我们的结果显示，许多失败与注意到的模型挑战以及跨结构和风格约束的新失败模式一致。我们对模型大小的敏感性研究显示出上升趋势，而不是风格和结构约束的出现（Wei et al ., 2022）。我们的缓解措施表明，添加额外的上下文信息一致地提高了两个域中的性能。未来的工作可能会扩展我们的工作，以研究其他约束类型和更复杂的缓解策略。

局限性

我们试图最大限度地覆盖我们的分类法，但它并没有涵盖文体和结构约束的所有方面。此外，我们的分类法不能代表所有的开放文本生成，需要进一步的工作来覆盖开放文本生成空间中的更多维度。我们的提示没有针对性能进行优化（因为要求自然、简单和有用），在各种任务中优化提示的性能是一个活跃的研究领域。我们的分类法不是以用户为中心的。可以通过研究一组不同的实际用户如何使用或可视化开放式文本生成模型来扩展我们的分类法，并在现有的或设想的用例上构建分类法。MTurk的工作人员对模型的表现和提示符的困难进行了注释，因此更准确地反映了一小部分人的感知，尽管这是常见的做法。我们没有严格测试法学硕士的哪个方面（数据集、训练制度等）导致了我们的结果。我们只提供我们汇编的观察和潜在的假设

标签：Prompt,Language,Models,模型,约束,提示,GPT,文本,我们
From： https://blog.csdn.net/m0_49651195/article/details/143193470