首页 > 其他分享 >Question Decomposition Improves the Faithfulness of Model-Generated Reasoning

Question Decomposition Improves the Faithfulness of Model-Generated Reasoning

时间:2024-10-30 18:47:58浏览次数:7  
标签:Faithfulness CoT 模型 样本 Question Generated 分解 答案 推理

文章目录

题目

问题分解提高了模型生成推理的准确性

在这里插入图片描述

论文地址:https://arxiv.org/abs/2307.11768

摘要

    随着大型语言模型 (LLM) 执行越来越困难的任务,验证其行为的正确性和安全性变得越来越困难。解决此问题的一种方法是促使 LLM 外部化其推理,例如,让它们在回答问题时生成分步推理(思维链;CoT)。推理可以让我们检查模型用于执行任务的过程。但是,这种方法依赖于陈述的推理忠实地反映模型的实际推理,而情况并非总是如此。为了提高 CoT 推理的忠实度,我们让模型通过将问题分解为子问题来生成推理。基于分解的方法在问答任务上取得了出色的表现,有时接近 CoT 的表现,同时在几个最近提出的指标上提高了模型陈述推理的忠实度。通过强制模型在单独的上下文中回答更简单的子问题,我们大大提高了模型生成的推理相对于 CoT 的忠实度,同时仍然实现了 CoT 的一些性能提升。我们的结果表明,可以提高模型生成推理的真实度;持续的改进可能会产生使我们能够验证 LLM 行为的正确性和安全性的推理。

简介

    大型语言模型 (LLM) 正在越来越具有挑战性的领域中运行,从编程辅助 (Chen 等人,2021 年) 到开放式互联网研究 (Nakano 等人,2021 年) 和科学写作 (Taylor 等人,2022 年)。然而,验证模型行为的安全性和正确性变得越来越困难,因为难度任务数量增加。为了使模型行为更容易检查,一种有前途的方法是促使 LLM 产生逐步的“思维链”(CoT)推理,解释它们产生最终输出的过程(Wei 等人,2022 年);用于产生输出的过程通常比输出本身更容易评估(Lightman 等人,2023 年)。

在这里插入图片描述
图 1. 思路链、思路链分解和因式分解的问答性能和忠实度得分的帕累托前沿。每种方法都使用少量的提示和高质量的演示。基于分解的方法在我们研究的任务中取得了良好的表现,同时生成的推理步骤更忠实地解释了语言模型为什么会这样回答。

    这种方法依赖于这样的假设:模型的 CoT 推理忠实地解释了模型产生其输出的实际过程,这一假设最近受到了质疑(Turpin 等人,2023 年;Lanham 等人,2023 年)。Turpin 等人(2023 年)发现 LLM 生成 CoT 推理来证明对某些人口群体有偏见的答案,而没有在陈述的推理中明确提到这种偏见(“有偏见的推理”)。 Lanham 等人 (2023) 发现,尽管在 CoT 推理中截断或添加了错误(“忽略推理”),但 LLM 对问题的回答通常保持不变。这样的结果使我们对验证模型解决任务的过程的正确性和安全性的能力产生怀疑。在这里,我们旨在探索是否有比 CoT 更有效的方法来从 LLM 中引出忠实的推理。我们重点关注两种替代方法,它们促使 LLM 通过将问题分解为更简单的子问题来回答问题,然后使用得到的子答案来回答原始问题(Geva 等人,2021;Patel 等人,2022)。

在这里插入图片描述
图 2. 我们研究的每种方法的高级概述(省略了一些格式),这些方法提示模型在回答问题之前生成推理。我们还为每种方法使用了说明和少量提示。思路链由模型在预测最终答案之前在一次采样调用中生成的逐步推理组成。思路链分解包括在预测最终答案之前在一次采样调用中生成一系列更简单的子问题及其各自的答案,类似于思路链。因式分解也会生成子问题和答案,但会在新的上下文中回答每个子问题。因式分解降低了模型使用原始问题中的虚假信息(没有明确说明它正在这样做)回答子问题的可能性,从而导致更忠实的推理。

    我们在图 2 中展示了这些方法。分解因子使用多个上下文独立回答子问题,然后将得到的子答案重新组合成最终答案。分解因子可以通过减少偏见推理(LLM 对非语言偏见的依赖程度)来提高忠实度;每个子问题都在单独的上下文中回答,不会受到原始问答上下文中潜在偏见来源的影响(例如问题中的人口统计信息)。因式分解可能会减少忽略的推理量,例如,因为它通常清楚地指定子问题的答案与后续子问题之间的关系,以及最终答案。思路链分解(CoT 分解)是 CoT 之间的中间体和因式分解。它强制使用子问题和子答案格式进行模型生成推理(如因式分解),但使用一个上下文来生成子问题、回答子问题和回答原始问题(如 CoT)。CoT 分解可以通过以类似的方式生成答案来获得因式分解的一些忠实度优势,同时在回答子问题时将更多上下文纳入模型(提高性能)。

在这里插入图片描述
表 1. 我们研究的推理生成方法的性能和忠实度。思路链实现了最佳问答准确度(上行),而因式分解实现了最佳推理忠实度(下行)。所有指标均在四个问答任务中取平均值。我们在适当的情况下包括零样本和少量样本提示基线。

    如图 1 所示,基于分解的方法在我们评估的问答任务上获得了良好的性能,同时根据 Turpin 等人(2023)和 Lanham 等人(2023)的指标,其忠实度超过了 CoT。因式分解相对于 CoT 显示出很大的忠实度改进,但性能有所下降,而 CoT 分解在保持相似性能的同时实现了比 CoT 的一些忠实度改进。我们按照 Lanham 等人 (2023) 的方法测量了不忠实、被忽略的推理的数量,评估了在截断推理或添加 LLM 生成的错误时扰乱模型陈述的推理时模型的最终答案的变化频率;如表 1 所示,基于分解的方法往往会更频繁地改变答案,这表明它们在预测最终答案时更多地以陈述的推理为条件。我们按照 Turpin 等人 (2023) 的方法测量了不忠实、有偏见的推理的数量,测试了方法受输入中的偏见特征(例如用户建议的答案)影响的程度,同时没有将这些偏见的使用口头化;如表 1 所示,分解因子大大减少了 LLM 中不忠实、有偏见的推理的数量。

    我们的结果表明,将问题分解为子问题有助于从 LLM 引出忠实的推理。更一般地说,我们的研究结果表明,在提高逐步推理的忠实性方面可以取得进展。我们希望进一步的进展能够使 LLM 生成的推理准确地代表 LLM 解决任务的过程,从而使我们对 LLM 提供的答案的可信度充满信心。方法我们评估使用模型生成的推理来提示 LLM 回答问题的方法。我们假设可以访问可从中进行自回归采样的遵循指令的 LLM。我们的目标是评估在生成忠实的推理样本 x 后,我们是否可以提示我们的模型对问题 q 提供正确的答案 a。推理样本可以分解为离散步骤(例如,句子):x = [x1, x2, . . . , xn]。我们研究的每种方法都会为问题 q 生成一个推理样本 x。我们既评估模型在用 q 和 x 提示后产生的答案是否正确,也评估 x 是否忠实并因此反映了模型的实际推理。我们使用评估我们期望忠实推理具有的属性的存在的指标来评估 x 的忠实性。

     CoT 提示方法我们用问题 q 提示模型,并提示它逐步推理,使用示例结合简单的指令(Kojima 等人,2022;Nye 等人,2021;Wei 等人,2022;Reynolds & McDonell,2021)。通过从模型中抽样,我们可以提取由各个步骤组成的推理样本 x。在这种情况下,我们将 x 称为思维链或 CoT。

    忠实度 LLM 可以生成受上下文中的偏见特征显著影响的 CoT 推理(Turpin 等人,2023),例如用户对多项选择题提出错误答案。Lanham 等人(2023)表明,模型在生成最终答案时可以忽略 CoT 推理,表明如果模型收到截断或损坏的答案,它可能不会更改其答案版本的 CoT 推理。这些理由让我们怀疑 CoT 推理更接近于有偏见的推理,而不是模型实际推理的忠实外化,至少在某些情况下是这样。

    分解法 这种方法有三个阶段:分解、子问题回答和重组。在分解阶段,我们用问题 q 提示模型,并指示它生成要回答的子问题的初始列表。我们将此初始列表称为 l1 = [q1,1, q1,2, . . . ]。l1 中的每个子问题可能包含对 l1 中其他子问题答案的引用。接下来,我们使用该模型回答所有不引用任何其他子问题的子问题,作为子问题回答阶段的一部分。我们通过在隔离上下文中用每个子问题 q1,i 提示模型并要求它生成子答案 a1,i 来实现此目的。

    然后,我们将这些子答案以列表 a1 = [a1,1, a1,2 . . . ] 的形式传递给模型,模型现在可以以此作为条件。然后,模型用一组新的未回答子问题 l2 = [q2,1, q2,2, . . . ] 来更新未回答子问题的运行列表。模型通过复制、删除或编辑(用子答案替换引用)l1 中的子问题来生成 l2。模型交替更新子问题的运行列表(分解)和回答子问题(子问题回答),直到模型生成预定的输出以表明它具有回答原始问题所需的信息。此时,我们将所有已回答的子问题及其各自的子答案收集到推理样本 x 中,其中每个 xi 都是子问题和子答案的元组(qi,ai)。最后一个阶段,即重组,发生在我们提示模型使用 x 回答问题时。

    忠实度我们的假设是,因式分解部分缓解了 CoT 推理中观察到的不忠实性。我们预计偏见推理会减少,因为每个子问题 qi 都是在独立于所有其他子问题和原始问题 q 的背景下回答的。因此,只要子问题不包含偏见特征,输入中的偏见特征对生成的推理的影响就较小。我们还预计忽略推理会减少,因为早期子问题的答案通常与后面提出的子问题有明确的关系(例如,如果这些子问题明确复制了早期子问题的答案)。

    同样,所有子问题的答案可能与最终答案有明确的或隐含的关系。在最后一步,当模型使用收集到的推理样本来回答问题时,模型仍然可能会忽略不符合其偏见的子问题和子答案,但我们预计这种影响会比推理样本本身包含偏见推理的情况更有限。思维链分解法 我们用一个问题 q 提示模型,并指示它将问题分解为子问题并迭代回答子问题。模型一次生成一个子问题,立即为该子问题生成一个子答案,然后继续生成,直到模型生成一个预定的输出,表明它已完成 q 的分解。因此,从模型中抽样使我们能够提取由各个子问题和子答案对组成的推理样本 x,这意味着每个 xi ∈ x 都是一个元组 (qi , ai)。在这种情况下,我们将 x 称为思维链分解(CoT 分解)。

    忠实性 思维链分解是思维链提示和因式分解的中间方法。x 仍然在一次自回归抽样调用中从模型生成,就像 CoT 一样,与因式分解不同。 但是,x 的结构是子问题和子答案对的序列,就像因式分解一样,与 CoT 不同。 CoT 分解可能会减轻有偏见的推理,因为与有偏见的推理步骤序列相比,模型可能更难生成有偏见的子问题和子答案集。如果子问题不包含偏见特征,CoT 分解也可能以与因式分解类似的、偏见较小的方式回答子问题。CoT 分解可以减轻忽略推理,原因与因式分解类似,即因为早期子问题和后期子问题的答案以及最终答案之间通常存在明确的关系。

    实施模型和采样细节对于所有实验,我们使用预训练的 LLM,该 LLM 已针对从人类反馈中进行强化学习(RLHF;Bai 等人,2022)进行了微调,使用与 Claude 1.3(Anthropic,2023)相同的基础模型。我们使用核(Holtzman 等人,2020),其中 top p = 0.95 和温度 0.8,遵循 Lanham 等人(2023)。我们还使用 best-of-N(Nakano 等人,2021;Lightman 等人,2023)采样,N = 5,使用与 LLM 的 RLHF 训练相同的偏好模型 (PM) 对样本进行评分。

    问答任务我们在四个不同的多项选择问答任务中评估所有提示策略的表现和忠诚度:

  • HotpotQA(Yang 等人,2018):多跳问题,或需要多步推理才能回答的问题,例如“LostAlone 和 Guster 的成员数量是否相同?”我们将其过滤为仅具有二进制(是/否)答案的问题,因为其余问题不容易接受多项选择题格式。
  • StrategyQA(Geva 等人,2021 年):开放域问题,其中推理步骤可以从问题结构中推断出来,因此可以分解。
  • OpenBookQA(Mihaylov 等人,2018 年):初级科学问题。
  • TruthfulQA(Lin 等人,2022 年):由于常见的误解,人类经常会回答错误的问题。我们使用一个已格式化为多项选择题评估的 TruthfulQA 版本。

    我们在 HotpotQA 和 StrategyQA 上评估我们的方法,因为这些任务非常适合逐步推理或问题分解。我们还选择了 OpenbookQA 和 TruthfulQA 来评估我们在其他类型问题上的方法。我们使用从每个任务的测试集中随机抽取的 300 个问题来评估提示策略,总共 1200 个问题。

在这里插入图片描述

    提示细节我们评估了五种提示策略:零样本提示、少样本提示、CoT 提示、CoT 分解和因式分解(表 2 和表 3)。每个对话都以 标记开头,并且在每个对话回合之前包含两个换行符。对于所有涉及少样本示例的提示,我们将少样本示例的格式设置为我们期望模型在生成推理和提供最终答案时遵循的格式。我们对所有少样本示例使用的问题最初都是为因式分解选择的少量样本提示。我们对所有其他需要少量样本示例的提示方法(除零样本之外的所有方法)使用相同的 14 个问题集。我们从一组简单的手工制作的初始示例开始,以迭代方式构建提示。

    我们逐渐扩大问题集,从我们评估的任务的训练集中引入问题,试图确保问题的多样性,并修补在生成的推理样本中定性观察到的各种故障模式,例如,模型未能将子问题表达为可以在孤立的上下文中回答它们。对于从模型中引出推理样本的提示策略,我们将高质量的推理样本作为少量样本示例的一部分,要么从模型中多次重新采样直到推理有效,要么手动编辑中间步骤。我们在附录 C 中分享了每个提示的说明和前几个少量样本示例;完整的提示可以在这个补充存储库中查看。

结果

    在介绍了我们研究的三种模型生成推理方法,即 CoT 提示、CoT 分解和因式分解之后,我们现在评估这三种方法在问答性能和一系列推理忠诚度指标方面的表现,并采用 Lanham 等人 (2023) 和 Turpin 等人 (2023) 中提出的评估方法。 表 4 比较了我们研究的评估中各种方法的准确性。我们认为小样本提示(而不是零样本提示)是推理生成方法最相关的基线,因为所有推理生成方法都包含具有高质量推理演示的小样本示例。

    在问答性能方面,CoT 提示优于两种分解方法。 CoT 分解与 CoT 提示总体上具有竞争力,平均仅比后者低 0.4%(绝对值),而因式分解平均比小样本和零样本提示基线高出 2.1% 和 9.0%。我们观察到所有推理生成方法在 HotpotQA 和 StrategyQA 上相对于基线的增益最大,这两个任务最适合逐步推理或问题分解。例如,在 HotpotQA 上,我们观察到零样本和小样本的性能为 77.0%,而因式分解达到 83.0%,CoT 分解达到 86.7%,CoT 达到 87.3%。按每个任务的准确度对方法进行排名,我们发现一个相当一致的顺序:CoT、CoT 分解、因式分解、小样本提示和零样本提示。

在这里插入图片描述
表 4. 在我们评估的四项任务中使用每种提示策略的模型的基线问答准确率。因式分解优于零样本和少样本基线,而思路链和思路链分解的性能最强。推理生成方法在 HotpotQA 和 StrategyQA 上的表现优于零样本/少样本,这两项任务最适合分步推理或问题分解。

    通过推理扰动测量忠实度 评估推理忠实度的一种方法是在产生最终答案之前扰动模型所依赖的推理。 如果模型以改变的推理形式给出不同的答案,则最终答案的变化表明模型在回答问题时没有忽略推理,这表明忠实度更高。 我们通过调整 Lanham 等人 (2023) 的两个指标,研究了对模型生成推理的两种扰动,即截断和损坏。

    早期回答动机 在这组实验中,我们截断推理样本并评估模型需要多少平均推理样本才能达到使用完整推理样本给出的最终答案。 我们通过这个指标比较不同的提示方法,绘制模型在提供的平均推理百分比中能够达到的最终答案百分比。我们预计,生成更忠实推理的方法需要更大量的推理才能得出相同的最终答案,因为这表明模型更依赖于推理来获得最终答案。

    实验设置我们取一个完整的推理样本 x,并在每个中间步骤截断它,生成空样本 [],然后是 [x1],依此类推。对于每个截断的推理样本,截断的推理取代了原始推理,在上述提示模板中没有额外的抽样。然后提示模型像以前一样回答问题,我们评估模型是否得出与原始推理相同的最终答案。我们分析了模型得出的答案在不同的推理截断中是如何变化的,其中包括更大比例的推理的截断应该更有可能产生与原始推理相同的最终答案。

在这里插入图片描述
图 3. 模型对推理截断的敏感度。我们测量模型在给出其推理样本的截断版本时给出相同答案的频率。通过因式分解生成的推理更符合这一指标,因为模型需要更多的推理才能始终如一地得出相同的最终答案,这表明该模型比其他方法更强烈地依赖其推理。我们通过标准误差计算来计算误差线。

    结果我们的研究结果总结在图 3 中。对于 CoT 提示和 CoT 分解,我们观察到曲线具有相当平缓的斜率,并在平均推理样本的早期达到高值。这表明该模型需要相对较少的 CoT 或 CoT 分解推理样本来得出其最终答案,因此可能并不完全依赖这些推理样本。对于因式分解,我们观察到模型需要大量的推理才能始终如一地得出相同的答案,这表明模型在回答问题时更多地依赖推理。4 我们在附录 A.1 中展示了按任务细分的更详细的结果。

在这里插入图片描述
图 4. 模型对推理损坏的敏感度。我们测量模型在给定其推理样本的损坏版本时改变答案的频率。根据此指标,基于分解的方法生成的推理更忠实,因为当给定基于分解的推理样本的损坏版本时,模型改变答案的频率比思维链更高,这表明该模型更强烈地依赖于基于分解的推理而不是思维链推理。我们通过标准误差计算来计算误差线。

    在这组实验中,我们破坏推理样本,并评估这会导致模型在多大程度上改变其最终答案。我们通过这个指标比较不同的提示方法,绘制当模型的推理样本被破坏时更改的最终答案的百分比。我们预计生成更忠实推理的方法会改变更多的最终答案,因为这表明推理在模型的最终答案中起着因果作用,因此更有可能反映模型的实际推理。

    实验设置 我们取一个完整的推理样本 x,并在不同的上下文中提示相同的语言模型通过向步骤 xi 添加错误并创建损坏的步骤 x ′ i 来修改步骤 xi 。此提示包含在附录 E 中。我们提示模型从那时开始重新生成其余的推理,即我们用 [x1, x2, . . . ] 提示模型。 , x′ i ] 并要求它生成损坏的推理 [x1, x2, x3, . . . , x′ i , x′ i+1, . . . , x′ n ]。我们手动用损坏的推理替换原始推理,然后提示模型回答原始问题。我们对每个推理样本的 xi 进行三次随机和不同的选择。我们评估模型是否得出与原始推理相同的最终答案。附录 E 中还提供了损坏推理的示例。

    结果我们在图 4 中的发现表明,损坏的 CoT 分解和因式分解通常会改变模型给出的答案,从而为以下说法提供证据模型更多地依赖于基于分解的推理样本,而不是 CoT 推理样本。损坏的 CoT 推理也会改变模型的最终答案,但这种情况发生的频率远低于基于分解的推理;损坏的 CoT 推理样本只会改变 9.6% 问题的模型最终答案,而对于 CoT 分解,有 28.7% 的答案会改变,对于因式分解,有 33.6% 的答案会改变。5 我们在附录 A.2 中展示了按任务细分的更详细结果。

    结论总体而言,我们从推理扰动实验中得出的结果表明,问题分解可以产生更忠实的模型生成推理。因式分解产生最忠实的推理,而 CoT 分解产生的推理忠实度不如因式分解,但比 CoT 提示产生的推理忠实度更高。早期的答题实验表明了这一点,这些实验发现 CoT 分解和 CoT 提示之间的忠实度相当,而添加错误实验发现 CoT 分解具有中等忠实度。

    通过偏见情境测量的忠实度,总是从答案 A 进行有偏见的推理 测试推理忠实度的另一种方法是测量模型的预测由于模型情境中的偏见特征而发生了多大程度的变化,对于模型不太可能在其推理中明确提及的特征(Turpin 等人,2023)。我们在这里测试的这种偏见特征的一个例子是,按照 Turpin 等人(2023)的方法,让模型情境中的所有少数样本示例都具有相同的正确答案选项“A”。然后,我们使用引入这种偏见时观察到的性能下降来衡量不忠实度。

    假设模型以偏差一致的方式回答问题,例如,如果所有小样本示例的答案都是“A”,则模型会错误地回答“A”,否则会正确回答问题;这一发现表明,假设模型从未声明它正在使用偏差特征(我们和 Turpin 等人在我们扫描的所有推理样本中都证实了这一点),那么模型并不完全依赖于其陈述的推理来获得最终答案。在这里,我们引入了偏差特征,通过根据需要更改哪个答案文本对应于哪个多项选择题答案,使模型上下文中的每个小样本示例的正确答案为“A”。我们还改变了推理样本少样本提示以适应答案顺序的变化,例如,如果模型通过按顺序浏览每个答案选项来询问子问题,我们会调整子问题顺序以及答案选项。然后,我们提示模型生成推理并回答问题,或者在少样本条件下直接回答问题。

    实现 我们在与 Turpin 等人不同的任务上评估我们的方法。因此,我们在提示中使用的少样本示例与他们的少样本示例不同,因为我们对每种方法使用的示例与我们之前的实验相同。我们的少样本示例还包括人类和助手之间的双边对话,其中人类提出问题,助手回答问题,可能是在生成推理之后;Turpin 等人将所有少样本示例和上下文放在对话的人这边,然后提示助手回答问题(可能是在生成推理之后)。按照 Turpin 等人 (2023) 的做法,我们通过排除正确答案为“A”的问题来过滤结果,专门查看偏差可能导致模型得出错误答案的问题的结果。

    结果图 5(右)显示了结果。我们发现,在少数样本示例中,CoT 提示、CoT 分解和因式分解均同样不受偏差特征的影响。我们观察到 CoT 提示的准确度下降了 1.2%(绝对值),CoT 分解的准确度下降了 2.8%,因式分解的准确度提高了 2.1%6。这与少数样本条件下更显著的 7.1%(绝对值)性能下降形成鲜明对比。总体而言,我们在这种情况下的结果并未揭示不同方法的推理忠实度存在显著差异。我们在附录 A.3 中按任务列出了更详细的结果。

    Turpin 等人 (2023) 发现,对于这种偏见,CoT 提示在有偏见的背景下相对于无偏见的背景下表现出更大的性能下降(绝对值 -4.7%)。我们不同的结果有几种可能的解释。这可能是由于提示格式(少量样本示例是在对话的人还是助手方面给出)、评估任务和/或模型(Turpin 等人使用 Claude 1.0 进行实验)的差异。最重要的是,我们的两个评估任务,即我们过滤后的 HotpotQA 和 StrategyQA 版本,对于所有问题只有两个答案选项。通过过滤掉正确答案确实是“A”的问题,我们删除了每个任务的一半示例。在这种情况下将所有提示方法相互比较仍然有效,但与其他结果(例如 Turpin 等人 (2023) 中的结果)进行比较可能不合适。

在这里插入图片描述
图 5. 使用有偏见的情境测量推理的忠实度。我们测量所有提示技术的无偏见和有偏见情境之间的准确性差异。我们评估两种形式的有偏见情境:用户建议错误答案(建议答案)和所有少数样本示例中的答案选项共享答案选项“A”(答案始终为 A)。因子分解受建议答案偏见的影响最小。答案始终为 A 偏见的结果在不同方法中更加均匀,使用模型生成推理的策略均未受到偏见的强烈影响。对这些偏见的敏感性表明缺乏推理的忠实度,因为我们从未观察到模型在其推理样本中提到偏见;这意味着,如果模型以偏见一致的方式回答,则它并不完全依赖于其陈述的推理。

    从建议答案进行有偏见的推理 接下来,我们探索引入 Turpin 等人 (2023) 提出的不同偏见特征。我们为每个问题选择一个错误答案,并(在人类的话语中)添加“我认为正确答案是([错误答案选择]),但我很想知道你的想法。”7 然后,我们提示模型生成推理并回答问题,或者在零样本和少样本条件下直接回答问题。假设模型的准确性显著下降,并且没有提到它选择建议答案是因为人类建议了它;这样的发现表明推理缺乏忠实性,原因与 §3.3.1 中类似。我们再次测量添加偏见特征导致的性能下降,同时验证推理样本不参考偏见。

    除了结果过滤外,我们也在这里使用了 §3.3.1 中的实现细节。在这里,由于我们总是向模型建议一个错误的答案,因此我们不需要过滤结果来选择模型可能由于偏见而错误回答问题的问题。这与 Turpin 等人 (2023) 的设置略有不同,他们总是建议一个随机的答案选择,然后过滤建议是错误答案选择的示例;最终,这两种分析都应该得出类似的结果。

    结果 图 5(左)显示了我们的结果。我们发现所有方法的性能都有了相当大的下降。对于 CoT 提示,我们观察到准确率下降了 21.3%(绝对值),对于 CoT 分解,下降了 29.1%,而对于因式分解,下降了 9.2%,这是所有提示方法中下降幅度最小的。这一发现表明,因式分解可以缓解其他方法在这种情况下观察到的部分但不完全的不忠实性。同样值得注意的是,在这种情况下,CoT 推理比 CoT 分解推理更忠实,尽管这两种方法的性能下降幅度都比少数提示条件更大(绝对下降 16.6%)。我们在附录 A.3 中提供了按任务细分的更详细的结果。

    结论 我们通过有偏向的背景研究模型生成推理的忠实度,结果表明因式分解比 CoT 或 CoT 分解能产生更忠实的推理。通过这些指标,CoT 分解推理看起来不如 CoT 推理忠实,但我们从推理扰动实验中得到的测量结果表明并非如此。我们没有就方法对整体忠实度的重要性进行任何排序,因此通过简单平均(在标准化为 0-1 尺度后),我们评估 CoT 分解推理比 CoT 推理更忠实。定性结果 我们在表 5 和附录 D 中展示了 CoT 分解和因式分解的推理样本。CoT 分解和因式分解的模型生成分解通常都是合理的。

    该模型通常会为每个答案选项生成子问题,以执行消除过程,这反映了其上下文中的少数样本示例。此外,该模型通常会询问有关问题背后一般主题的介绍性(子)问题;这有助于收集有时会在未来子问题中使用的上下文。分解定性发现有时模型无法表述子问题,以便在没有额外上下文的情况下回答它。它还可能会重新生成以前无法回答的子问题,但仍然无法收到答案,而不是可靠地纠正子问题以便可以回答它们。有时,子问题和子答案最终会支持多个答案选择。该模型仍然可以正确回答问题,但从忠实度的角度来看,该模型理想情况下会明确讨论多个支持的答案中哪一个是正确的。

    讨论和局限性我们的研究结果表明,使用问题分解而不是 CoT 提示可以提高忠实度,但会以牺牲问答性能为代价。因式分解可以产生最忠实的推理,但会导致最差的问答性能。CoT 分解提供中等忠实的推理和性能。我们不确定这种观察到的权衡会受到其他改进的影响,例如进一步的训练,尤其是旨在提高模型通过分解回答问题的能力的训练。这样的训练或其他技术可能会导致帕累托主导方法,以实现高度忠实和高性能的模型生成推理,我们相信这是未来工作的一个令人兴奋的目标。

    我们的工作在很大程度上依赖于我们用来评估模型生成推理的忠实性的方法。这些方法受到我们无法访问模型推理的基本事实的限制。我们声称问题分解可以提高推理的忠实性,这是基于多个相当独立的证据,但我们愿意接受未来评估推理忠实性的工具,也许是那些基于对我们模型内部计算的机械理解的工具(Olah,2023),从而改变我们的结论。此外,我们仅在四个问答任务和一个模型(RLHF 微调的 LLM)上评估我们的方法;预训练的 LLM 可能或多或少容易产生被忽略或有偏见的推理,这可能会增加或减少通过分解获得的忠实度收益。扩大评估的任务和模型的多样性可以得出关于 CoT 提示和问题分解方法的相对性能和推理忠实度的更可靠的结论。

相关工作

    任务分解和分解认知任务分解已被证明在各种各样的环境中都能取得很好的效果。提示的几种方法用于推理的语言模型与我们研究的问题分解方法有相似之处,例如从最少到最多提示(Zhou 等人,2023 年)、计划和解决提示(Wang 等人,2023 年)、选择推理(Creswell 等人,2023 年)和连续提示(分解的灵活性较差的版本;Dua 等人,2022 年)。这些方法结合了分解式推理(从最少到最多、计划和解决以及连续提示)和/或限制生成推理步骤时使用的上下文量(从最少到最多提示、连续提示和选择推理)。Ferrucci 等人 (2010);Min 等人 (2019);Perez 等人 (2020);Fu 等人 (2021); Guo 等人 (2022) 探索使用监督、启发式或语言模型将困难的多跳问题分解为可以独立回答的简单单跳子问题。

    Reppert 等人 (2023) 研究迭代分解的过程,其中人类帮助分解 LLM 执行的任务。AlKhamissi 等人 (2022) 发现将仇恨言论检测任务分解为几个子任务可以大大提高准确性和分布外泛化。Christiano 等人 (2018) 和 Snell 等人 (2022) 通过分解回答问题来提高任务性能,然后学习预测或将这些改进的答案提炼回原始模型。更广泛地说,Stuhlmueller ¨ (2018) 提出了分解认知假设,或者声称任务可以分解或分解为小的且大多独立的子任务。 Stuhlmuller 等人(2022 年)提出了一个使用 LLM 实现分解认知程序的软件库。我们的工作补充了现有文献,表明基于分解的方法除了性能之外可能还有其他好处,即提高生成的推理的忠实度。解释忠实度先前的工作还提出了模型生成推理的忠实度指标并对其进行了评估。我们采用了 Jacovi & Goldberg(2020 年)对忠实推理的定义,其中推理的忠实程度取决于它反映了模型的实际推理。

    一种忠实度是解释导致模型行为可模拟的程度,其目标是使模型行为符合人类的期望,也许是在分析模型的推理之后(Doshi-Velez & Kim,2017 年;Hase 等人,2020 年;Wiegreffe 等人,2021 年)。 Gao (2023) 发现,LLM 可以忽略部分 CoT 推理,通过扰乱 CoT 推理样本进行评估,证实了我们的结果和 Lanham 等人 (2023) 的结果。Creswell 等人 (2023);Lyu 等人 (2023) 探索了促使模型生成更有可能通过构造忠实的解释的方法,尽管他们没有明确衡量忠实度。其他研究评估了 CoT 推理的合理性,发现 CoT 推理的合理性各不相同;一些人发现 CoT 推理包含矛盾和逻辑错误(Uesato 等人,2022;Jung 等人,2022;Ye & Durrett,2022;Golovnevaet al, 2023),但其他人发现 CoT 解释既合理又有用,即使对于较小的模型也是如此 (Madaan & Yazdanbakhsh, 2022; Li et al, 2022)。

结论

    我们探索了三种提示策略,用于提高问答性能,同时从 LLM 中引出忠实的推理:思路链 (CoT) 提示、CoT 分解和因子分解。我们的工作表明,通过提示模型执行问题分解,同时保持相似的问答准确度,可以大大提高模型生成推理的忠实度,这表明使用其他技术还有更大的进步空间。 我们希望审核模型的推理过程成为在高风险环境中监督模型时提高其安全性的有力杠杆 (Rudin, 2019);如果模型为其输出提供忠实的推理,我们可以在它们的推理出现不良行为(例如奖励黑客或阿谀奉承)的情况下丢弃它们的输出。

    我们发现了几种有希望的途径来巩固我们的成果。首先,训练模型以产生更有效和更忠实的推理可能会带来进一步的收益,例如通过训练模型通过分解解决问题或在逻辑相关的输入之间产生一致的推理(以减轻不忠实的、有偏见的推理;Turpin 等人,2023 年)。其次,提高模型陈述推理的忠实性可能会提高基于其陈述推理过程训练模型的方法的有效性(Uesato 等人,2022 年;Lightman 等人,2023 年)。最后,重要的是验证忠实的陈述推理使我们能够检测到不良的模型行为,尤其是那些仅通过查看模型的最终输出很难发现的行为。通过进一步的研究,我们希望忠实的模型生成的推理能够让我们通过基于过程的监督可靠地理解和训练 LLM 执行任务的方式,即使这些任务变得越来越具有挑战性。

附录

A. 更详细的结果 A.1. 进一步的早期回答结果 我们展示了早期回答实验的更详细结果,我们将在图 6a 中的 §3.2.1 中讨论。总体而言,我们发现每种提示策略的曲线通常与所有任务的平均曲线相匹配(如图 3 所示),这表明该模型对推理样本截断的敏感度在我们评估的所有任务中相当相似​​。TruthfulQA 可能是一个小小的例外,所有提示策略的趋势都明显更相似,但根据这个指标,该模型似乎仍然最忠实于分解推理样本。

A.2. 进一步的添加错误结果 我们展示了添加错误实验的更详细结果,我们将在图 6b 中的 §3.2.2 中讨论。我们发现方法的推理忠实度的相对顺序在各个任务中保持不变。对于每项任务,当使用损坏的因式分解推理样本提示时,模型更改答案的频率最高,而当使用损坏的 CoT 提示时,更改频率最低;损坏的 CoTD 分解推理样本会导致中间结果。在所有提示方法中,OpenBookQA 对最终答案对推理截断的敏感度表现出最小的效应大小,而所有其他任务通常表现出非常相似的效应大小。

在这里插入图片描述在这里插入图片描述

A.3. 进一步的偏见背景结果我们在图 7 和图 8 中展示了通过偏见背景测量推理忠实度的实验的更详细结果,我们将在 §3.3.1 和 §3.3.2 中讨论这些实验。HotpotQA 和 StrategyQA 的结果,尤其是建议答案偏见的影响,很可能是由于这些任务的问题只包含两个答案选项而产生的。答案的结果始终是 A OpenBookQA 的实验,特别是因式分解的实验,相当出乎意料,但可能是由于某种形式的噪音。

在这里插入图片描述
在这里插入图片描述

B. 谄媚行为导致的偏见推理 在这里,我们使用与谄媚行为相关的其他偏见特征来测试偏见推理,这些偏见特征受到 Turpin 等人研究的建议答案偏见的启发(但不同于),我们在 §3.3.2 中进行了调整。我们使用了三份 LLM 撰写的评估,旨在测试 Perez 等人(2022 年)的 LLM 谄媚行为,涉及哲学问题、自然语言处理 (NLP) 问题和政治问题。我们评估了从每次评估中随机选择的 200 个问题。评估包括使用在提出与该主题相关的问题之前,用户会介绍自己持有某种信念或观点;根据用户偏好做出的回答表明用户对用户表现出了谄媚。我们评估模型给出的非谄媚答案的百分比,作为衡量推理忠实度;我们预计 50% 的模型答案是非谄媚的,如果它根本不谄媚的话。我们在这里研究的谄媚类型不如建议答案实验测试的谄媚类型直接,因为模型必须推断出关于用户的某些信息,而不是简单地按照用户的明确建议回答问题,这不需要推理。

结果我们在图 9 中显示了每种方法中不谄媚的答案的百分比。结果表明,因子分解减轻了 Perez 等人 (2022) 的评估中的 LLM 谄媚;因子分解导致 14.7% 的答案是非谄媚的,而 CoT 提示为 4.7%,CoT 分解为 5.2%,这两者都导致比零样本 (9.2%) 和少样本 (8.3%) 基线更多的谄媚。

在这里插入图片描述
在这里插入图片描述

谄媚行为的减少可能不是由于忠诚度的提高。我们的偏见情境实验所依赖的一个关键假设是,模型推理样本中缺乏对偏见特征的明确引用。我们定性地验证了答案始终为 A 和建议答案实验的这一点,但发现当我们试图评估模型的谄媚行为时,这一假设并不成立;模型明确地推理用户并尝试根据他们的观点回答问题。此外,在分解因子中观察到的谄媚行为的减少可能是由于模型未能适当地措辞问题以便能够推断用户的观点,而不是模型实际上试图不谄媚。我们暂时得出结论,我们在提示模型执行分解因子时观察到的谄媚行为的减少并不是推理忠诚度提高的明确迹象,也不是分解因子分解是缓解谄媚行为的可行方法的证据。

C. 少量样本示例和说明表 6、7、8、9、10、11 和 12 包含我们用来提示模型的说明和前三个少量样本示例(针对每种方法),包括推理样本演示。我们在此补充存储库中分享完整的提示,包括其余的少量样本示例和推理演示。

D. 推理样本表 13 和 14 包含 CoT 分解和因式分解的推理样本。正如我们在 §3.4 中指出的那样,两种策略的问题分解非常相似,并且通常表现出消除过程结构。

E. 添加错误提示和损坏的推理样本表 15、16 和 17 展示了我们如何提示我们的模型在推理样本的步骤中添加错误以针对每种提示策略生成损坏的推理样本;我们将在 §3.2.2 中讨论相关的实验设置。我们在 18、19 和 20 中展示了使用这些提示生成的损坏推理样本的例子。从定性上讲,我们发现超过三分之二的损坏推理样本包含错误,这些错误几乎肯定会导致不同的最终答案,这表明我们的结果可能低估了模型最终答案对损坏推理的真实敏感性。

在这里插入图片描述
图 9. 哲学、NLP 和政治谄媚评估中,没有额外推理(零样本)、少量样本但没有推理(少量样本)、思路链、思路链分解和因子分解的结果。我们显示了非谄媚(即不同意人类用户的观点)的答案的百分比,如果模型完全不谄媚,我们预计上限为 50%。
因子分解在此忠诚度指标上明显优于其他方法。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
表 12. 分解(重组步骤)提示说明和少量示例;完整提示可在此补充存储库中查看。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
表 18. 思路链原始样本和损坏样本:左侧显示原始样本,右侧显示损坏版本。红色文本表示损坏的点以及从该点开始生成的其余推理。我们展示了一对损坏改变了模型答案的样本,以及一对模型答案因损坏而保持不变的样本。

在这里插入图片描述
在这里插入图片描述
表 19. 思路链分解原始样本和损坏样本:左侧显示原始样本,右侧显示损坏版本。红色文本表示损坏的点以及从该点生成的其余推理。我们展示了一对损坏改变了模型答案的样本,以及一对模型答案因损坏而保持不变的样本。
在这里插入图片描述
表 20. 分解后的原始样本和损坏样本:左侧显示原始样本,右侧显示损坏版本。红色文本表示损坏的引入点以及从该点生成的推理的其余部分。我们展示了一对损坏改变了模型答案的样本,以及一对模型答案因损坏而保持不变的样本。为简洁起见,我们展示了重组阶段的样本。

标签:Faithfulness,CoT,模型,样本,Question,Generated,分解,答案,推理
From: https://blog.csdn.net/weixin_43961909/article/details/143360283

相关文章

  • Python's exec Functions: Execute Dynamically Generated Code
      #encoding:utf-8#版權所有2024©塗聚文有限公司#許可資訊查看:言語成了邀功的功臣,還需要行爲每日來值班嗎?#描述:主、子表單窗體傳值Parent-childformoperations#Author:geovindu,GeovinDu塗聚文.#IDE:PyCharm2023.1python3.11#OS......
  • Nuxt.js 应用中的 app:templatesGenerated 事件钩子详解
    title:Nuxt.js应用中的app:templatesGenerated事件钩子详解date:2024/10/19updated:2024/10/19author:cmdragonexcerpt:app:templatesGenerated是Nuxt.js的一个生命周期钩子,在模板编译到虚拟文件系统(VirtualFileSystem,VFS)之后被调用。这个钩子允许开发......
  • Nuxt.js 应用中的 app:templatesGenerated 事件钩子详解
    title:Nuxt.js应用中的app:templatesGenerated事件钩子详解date:2024/10/19updated:2024/10/19author:cmdragonexcerpt:app:templatesGenerated是Nuxt.js的一个生命周期钩子,在模板编译到虚拟文件系统(VirtualFileSystem,VFS)之后被调用。这个钩子允许开发者在生......
  • POLIR-Society-Organization-Psychology-Relationship关系-Dating Stages阶段: Questi
    https://www.verywellmind.com/questions-to-ask-your-partner-dating-stages-5270161Relationships>StrengtheningRelationships>RelationshipQuestionstoAskYourPartnertoTakeYourConnectionNextLevelRelationshipQuestionstoAskYourPartner......
  • [The 3rd Ucup. Stage 10 West Lake] Generated String
    题意维护一个字符串集合,支持动态插入,动态删除,查询同时具有前缀\(s_1\)与后缀\(s_2\)的串的个数,所有字符串用如下方式给出:先给定一个全局模板串\(S\),每一个字符串都是\(S\)的若干个下标区间对应的字符串拼接而成的。即给出若干个区间\([l_1,r_1],[l_2,r_2],\dots,[l_k,r_k......
  • SciTech-Mathmatics-Probability+Statistics-数学专业社区(math.stackexchange.com/qu
    SamplingDistributionCouldsomegiveanexamplesof"asetofdistributionsindexedbyaparameter"?Q:Couldsomegiveanexamplesof"asetofdistributionsindexedbyaparameter"?Thispostsays:Thelog-likelihoodis,astheter......
  • Analysis of Code and Test-Code generated by Large Language Models
    本文是LLM系列文章,针对《AnalysisofCodeandTest-CodegeneratedbyLargeLanguageModels》的翻译。大型语言模型生成的代码和测试代码的分析摘要1引言2方法3进行实验4测试结果的评估5讨论6相关工作7结论和未来工作摘要ChatGPT和Copilot等......
  • STATS 2DA3 R questions
    STATS 2DA3 Fall 2024ASSIGNMENT 11. (10 MARKS) Using the iris dataset which is available in R, answer the following questions:(a)UseoneortwolinesofRcodetodisplayhowmanyrowsandcolumnsareinthedataset.(i.e.donotjustou......
  • Towards Mitigating ChatGPT’s Negative Impact on Education: Optimizing Question
    文章目录题目摘要引言概述实验结果结论和未来工作题目减轻ChatGPT对教育的负面影响:通过布鲁姆分类法优化问题设计论文地址:https://ieeexplore.ieee.org/document/10223662摘要    生成文本AI工具在回答问题方面的流行引发了人们对其可能对学生学业成......
  • Can Autograding of Student-Generated Questions Quality by ChatGPT Match Human Ex
    文章目录题目摘要引言相关工作方法讨论与启示结论题目ChatGPT对学生生成问题质量的自动评分能否与人类专家媲美?论文地址:https://ieeexplore.ieee.org/document/10510637摘要    学生生成问题(SGQ)策略是一种有效的教学策略,可培养学生的高阶认知和批判......