题目
样本链:增强干扰项生成以实现多模式教育问题生成
论文地址:https://aclanthology.org/2024.acl-long.432/
项目地址:https://github.com/Luohh5/Chain-of-Exemplar
摘要
多项选择题 (MCQ) 对于加强概念学习和学生参与度以实现教育目的非常重要。尽管教育内容具有多模态性质,但当前的方法主要侧重于基于文本的输入,而往往忽略了视觉信息的整合。在这项工作中,我们研究了多模态教育问题生成问题,旨在根据多模态教育内容生成具有合理但不正确的干扰项的特定主题教育问题。为了解决这个问题,我们引入了一个新框架,即 Chainof-Exemplar (CoE),它利用具有 Chainof-Thought 推理的多模态大型语言模型 (MLLM) 来改进具有挑战性的干扰项的生成。此外,CoE 利用三阶段情境化样例检索来检索示例问题,作为生成更多特定主题教育问题的指南。在 ScienceQA 基准上的实验结果表明,CoE 在问题生成和干扰项生成方面都优于现有方法,适用于各个学科和教育水平。
简介
多项选择题 (MCQ) 在教育中对于促进深入和广泛的知识获取非常重要。研究 (Davis, 2009) 表明,精心设计且具有教育目的的问题与提高学生的参与度和成就密切相关。问题生成的一个关键方面是干扰项的质量 (Gierl 等人, 2017)。干扰项不足或质量低下的问题挑战性较低,也更容易解决。在教育环境中,生成合理但不正确的干扰项至关重要,因为有效且具有挑战性的干扰项可以显著提高学生的阅读理解能力并有助于他们取得整体学业成功。然而,手动生成 MCQ 成本高昂且耗时,因为即使是专业的测试开发人员每天也写不出超过三四个好的 MCQ(Kim 等人,2012 年)。
图 1:多模态教育问题和干扰项生成问题的说明。
为了减轻人力劳动,自动 MCQ 生成受到了广泛关注。先前的研究(Berre 等人,2022 年;Liang 等人,2018 年;Ren 和 Zhu,2021 年;Qiu 等人,2020 年)主要侧重于基于文本的 MCQ 生成输入,而从多模态上下文生成 MCQ 仍然相对未被充分探索。如此强调文本往往会导致视觉信息的利用不足,而视觉信息在教育内容中很普遍,例如教科书(Lu 等人,2022 年)或考试(Zhang 等人,2023a 年)。此外,一些最新研究(Wang 和 Baraniuk,2023 年)忽视了创建具有挑战性和发人深省的干扰项,这对于高质量的教育问题生成至关重要。此外,当前方法生成的问题往往过于笼统,不适合特定科目或教育水平。如图 1 所示,问题生成模型的任务是从包含文本描述和视觉插图的生物学教科书中创建教育问题。
示例问题侧重于特定学科的知识,随附的干扰项经过精心设计,既合理又不正确,从而提高了问题的教育价值。鉴于这些挑战,我们提出了一个名为 Chain-of-Exemplar (CoE) 的新框架,它结合了检索到的样本和 Chain-ofThought (CoT) 推理来生成教育从文本和图像的多模态输入中生成问题和干扰项。具体而言,我们使用多模态大型语言模型 (MLLM) 对多模态上下文进行编码,并将其合并到三阶段多模态 CoT 框架中,该框架将问题生成、理由生成和干扰项生成分开。CoT 有助于触发 MLLM 的推理能力,从而生成合理和令人困惑的干扰项。
同时,为了生成特定学科教育目的的更专业的问题,我们利用检索到的示范教育问题作为指导生成的示范。最后,我们采用易于应用的多任务训练策略来微调我们的生成模型。这项工作的主要贡献可以概括如下:
- 我们提出了一个三阶段框架,即 CoE,通过多任务微调 MLLM 来执行多模态 CoT 推理,生成定制问题和合理的干扰项。
- 为了增强特定学科专业教育问题的生成,我们利用检索到的示范教育问题作为指导生成的示范。
- 在 ScienceQA 基准上的实验结果表明,CoE 优于现有方法并有效利用了 MLLM。我们的代码将通过 https://github.com/Luohh5/Chain-of-Exemplar 发布。
相关工作
问题生成 (QG) (Pan et al, 2019) 在对话系统 (Gao et al, 2019; Do et al, 2023; Zeng et al, 2023; Deng et al, 2022) 和智能辅导系统 (Xu et al, 2022; Yao et al, 2022; Zhang et al, 2022; Zhao et al, 2022; Dugan et al, 2022; Deng et al, 2023b) 等应用中起着至关重要的作用。从基于句法树或知识库的先前研究(Heilman 和 Smith,2010;Kumar 等人,2015)发展而来,大多数现有研究通常采用深度神经网络(Du 等人,2017;Li 等人,2019;Dong 等人,2024)来生成问题。随着预训练和大型语言模型 (PLM/LLM) 的出现,最近的研究(Bulathwela 等人,2023;Wang 等人,2022;Wang 和 Baraniuk,2023)设计了各种微调策略来增强 QG 能力语言模型。就教育目的而言,多项选择题生成 (Berre 等人,2022) 非常重要,其中干扰项生成 (Ren 和 Zhu,2021;Qiu 等人,2020) 起着至关重要的作用。除了基于文本的输入外,越来越多的研究侧重于从图像进行 QG (Mostafazadeh 等人,2016;Li 等人,2018)。然而,值得注意的是,大多数现有工作都集中在单模态 QG 上,而多模态 QG 的潜力在很大程度上尚未得到探索。
多模态问答 由于问题生成是问答 (QA) 的逆任务,因此要有效地应对这一领域的挑战,就需要从 QA 研究中汲取见解。由于信息流在实际应用中的多模态性质,研究人员 (Hannan et al, 2020; Talmor et al, 2021; Luo et al, 2023) 强调回答需要跨多种模态信息的问题的重要性,这通常称为多模态问答。值得注意的是,一些研究集中于教育情境中的多模态问答,例如基于教科书 (Lu et al, 2022) 和基于考试 (Zhang et al, 2023a) 的问题。基于这些情境生成问题对于构建智能辅导系统和为学生提供个性化学习体验具有巨大潜力。
思路链推理 最近,为了解决复杂的推理任务,提出了 CoT 提示 (Wei et al, 2022),通过提示 LLM 将复杂问题分解为一系列中间步骤。随后,CoT 推理已在各种情况下得到有效应用,包括多模态推理(Zhang et al,2023b;Wu et al,2023)、多语言场景(Shi et al,2023;Qin et al,2023)、对话系统(Wang et al,2023a;Deng et al,2023a)和知识驱动的应用(Trivedi et al,2023;Wang et al,2023b)。除此之外,其他 Chainof-X 方法的发展也呈现激增之势,其中大多数方法主要侧重于通过指导来增强 LLM,以提高推理能力。例如,Chainof-Knowledge(Li et al,2023)通过动态整合来自异构源的基础信息来增强 LLM,以获得更符合事实的理由。 Chain-of-Note(Yu 等人,2023 年)通过一系列阅读笔记来增强 LLM 的学习,以便检索文档以进行更精确和情境化的推理。受这些工作的启发,我们为 LLM 配备了检索到的范例,以补充情境知识并指导生成。
方法
给定正确答案 A 和多模态情境 C = {I, T},其中 I 表示图像,T 表示文本段落,多模态教育问题生成任务旨在生成相关问题 Q 和几个分散注意力的答案 A′。所提出的 CoE 框架的概览如图 2 所示。
模型架构如图 2 所示,CoE 由四个不同的模块组成:问题生成器模块 GQG、理由生成器模块 GRG、干扰项生成器模块 GDG 和情境化范例检索 (CER) 模块 R。问题生成器、理由生成器和干扰项生成器使用相同的预训练多模态语言模型(例如 Qwen-VL)作为共享权重的主干。通过使用这三个生成器,我们引入了一种 CoT 推理策略,将多步骤问题分解为中间推理步骤(基本原理),然后生成干扰项。为了指导生成,我们引入了一个类似的情境化样本检索模块(第 3.2 节),从训练数据中检索最相关的示例,并将其用作给定测试实例的演示。
情境化样本检索为了检索与样本 E 类似的样本以进行更针对特定主题的生成,我们引入了一个情境化样本检索 (CER) 模块来辨别训练数据 D 中每个样本之间的相似性并将它们关联起来,如图2所示,具体来说,我们首先使用 AnglE (Li and Li, 2023) 将每个示例的属性信息(即文本上下文 T、答案 A 和问题 Q)编码为向量。
其中 M(·) 和 V 分别表示编码器和向量表示。所有向量都位于包含丰富语义的潜在样本空间中。如果两个向量在潜在空间中距离较近,则它们更有可能在类似领域共享相似信息。随后,我们计算给定测试实例 S 与其他每个样本 S i ∈ D 之间每个属性向量的余弦相似度,然后在潜在空间中检索最近邻居作为最相关示例:
其中 I 表示所有 N 个样本中最相似样本的索引,E = S I 。我们将测试实例与检索到的样本连接起来,形成格式化输入的提示,并将其输入到生成器模块中:其中 EQG 包含示例图像、上下文、答案和问题,而 ERG 和 EDG 则进一步扩展了基本原理和干扰项。在随后的生成过程中,检索到的样本提供了测试实例上下文中可能不存在的补充上下文知识,并对输出进行灵活控制,使其风格与样本相似,这在上下文有限的情况下尤其有效。通过这种方式,CER模块检索相关信息作为原始样本的补充,以使生成基于当前主题。
样本链推理为了构建样本链框架,我们将CER模块和思维链(CoT)推理结合起来,生成教育问题和干扰项。具体而言,CoE推理框架包括三个生成阶段:(i)问题生成、(ii)基本原理生成和(iii)干扰项生成。这三个阶段共享相同的模型架构,但输入和输出格式不同。问题生成在问题生成阶段,我们向问题生成器提供检索到的样例 EQG、答案输入 A 和上下文输入 C(包括文本段落 T 和相关图像 I)。主要目标是训练问题生成模型 GQG:
推理生成在推理生成阶段,生成的问题Q被附加到原始输入XQG = {A,T,I,EQG},并在样例EQG中补充相应的推理作为ERG,以构造第二阶段的进一步输入XRG = {Q,A,T,I,ERG}。 然后,我们将更新后的输入输入到推理生成模型中,以生成中间推理作为推理。
干扰项生成 类似地,干扰项生成的最后一步的输入是通过将示例 ERG 扩展为相应的干扰项并将生成的原理 R 与之前的输入 XRG 连接起来而构建的,即 XDG = {Q, R, A, T, I, EDG}。随后,我们将修改后的输入输入到干扰项生成器中,方法是其中A′表示问题Q的合理但不正确的答案。
多任务训练程序在格式化所有提示输入之后,我们以多任务的方式对多模态大型语言模型执行指令微调。具体来说,我们通过组合和打乱来自三个任务的所有示例来组装格式化的数据:问题生成,基本原理生成和干扰项生成。按照教师强制方法,我们将基本事实问题和基本原理用作干扰项生成的输入。然后,我们将最小化三个生成任务中对标记平均的负对数似然损失LNLL的总和作为我们的训练目标:
其中L是输出序列的最大长度,yl和yl分别表示基本事实序列和预测序列中的第l个标记。通过同时在这些任务上训练 MLLM,我们的目标是防止 CoT 训练期间可能扰乱推理的中间错误,并使模型对提示的措辞选择更具鲁棒性。
推理推理阶段还包括问题生成、理由生成和干扰项生成阶段。给定图像 I、上下文 T、答案 A 和检索到的样例 EQG,问题生成器为下一阶段生成相应的问题 Q。随后,理由生成器利用所有上述输入以及生成的问题和扩展的样例 ERG 为中间推理生成理由 R。最后,干扰项生成器使用所有先前的输入,包括生成的理由和增强的样例 EDG,来预测合理的干扰项 A′。值得注意的是,我们只计算样例检索的答案和上下文相似度之间的最大值,因为在推理期间没有给出测试实例的问题。
实验
实验设置 数据集
我们在反向 ScienceQA 数据集 (Lu et al, 2022) 上进行实验。ScienceQA 是第一个大规模多模态教育数据集,它注释了详细的讲座和基准数据集包含 21,208 个多模态科学问题,涉及 3 个学科、26 个主题、127 个类别和 379 个技能,具有丰富的领域多样性,在不同领域表现出色。基准数据集分为训练集、验证集和测试集,分别有 12,726、4,241 和 4,241 个示例。请注意,为了将格式从 QA 转换为 QG 设置,我们通过使用上下文和正确答案作为输入来反转 ScienceQA 数据,并生成相应的多选题作为输出。数据集统计信息的详细信息如表 1 所示。
表 1:ScienceQA 基准数据集统计。问题类型:NAT = 自然科学,SOC = 社会科学,LAN = 语言科学,TXT = 包含文本上下文,IMG = 包含图像上下文,NO = 无上下文,G1-6 = 1-6 年级,G7-12 = 7-12 年级。
评估指标我们采用自动和人工评估来衡量我们方法的性能。具体来说,我们选择了 2 个自动评估指标,包括 BLEU-4(Papineni et al, 2002)和 ROUGE-L(Lin, 2004)用于问题生成,这两个指标都已在现有的 QG 工作中得到广泛使用。此外,我们选择 ROUGE-L 和 Accuracy(Chung et al, 2020)作为干扰项生成的自动评估指标。具体来说,在 Accuracy 中,我们将 ScienceQA 中的原点选项替换为正确答案和生成的干扰项的组合,其余数据保持不变。我们采用多模态问答模型(Zhang et al, 2023b)(由 ScienceQA 数据集训练)来评估“修改后的”多项选择题的准确性。因此,准确度得分越高,生成质量越差。
基线我们将 CoE 与 ScienceQA 中最先进的 (SOTA) 方法进行比较,包括 VLT5(Yeh et al, 2022)、MultiQG-Ti(Wang and Baraniuk, 2023)和 Multimodal-CoT(Zhang et al, 2023b)。请注意,我们利用 ScienceQA 的反向任务格式来训练 Multimodal-CoT,以完成问题和干扰项生成任务。由于之前在自动多模态问题和干扰项生成方面的工作有限,我们使用现成的模型 API 作为基线。具体来说,我们使用 ChatGPT API(Ouyang 等人,2022 年)和零样本以及上下文学习(Kaplan et al, 2020),最多可使用三个示例,每个示例的格式与我们在 ScienceQA 数据集中的预处理数据点完全相同。有关 ChatGPT 基线和其他实验设置的更多详细信息,请参阅附录 A
问题生成评估
我们首先对问题生成进行评估,包括自动评估和人工评估。自动评估表 2 展示了 CoE 与之前的最先进模型的自动评估结果的比较,这表明所有强基线都无法在 BLEU4 和 ROUGE-L 上与 CoE 竞争。在基线中,MultiQG-TI 和 Multimodal-CoT 使用多模态大型语言模型实例化问题生成器,其表现大大优于 VL-T5,后者只是扩展了具有视觉理解能力的预训练语言模型。同时,与利用上下文中的图像标题提供视觉语义的 MultiQG-TI 相比,Multimodal-COT 通过利用图像特征实现了更好的性能。此外,结果清楚地表明,ChatGPT 在我们的设置中未能完成多模态 QG 任务。尽管在上下文学习环境中,随着更多示例的增加,其性能稳步提高,但 ChatGPT 仍远远落后于 CoE。
此外,在 3 个学科类别中,所有问题生成基线在社会科学 (SOC) 中始终表现出优异的性能,而在语言科学 (LAN) 中表现出最低的性能。它们还为具有配对图像 (IMG) 的问题实现了性能提升,但在没有任何文本或图像提示 (NO) 的情况下表现不佳。此外,CoE 的表现在不同科目和年级之间表现出高度一致性,这证明了该框架在教育领域的通用性。
然而,BLEU-4 和 ROUGE-L 指标仅侧重于评估生成的问题与基本事实之间的精确匹配,而忽略了问题多样性的方面。为了解决这一问题,我们加入了一个额外的指标来自动评估问题的多样性,并在附录 B 中报告。
我们进一步进行人工评估,以评估生成问题的质量,并调查生成的干扰项是否会在真正的人工测试中使考生感到困惑。对于问题生成,我们随机选择了 50 个通过不同方法生成的问题样本,并聘请了三位具有良好英语背景的注释者,根据 4 个指标对它们进行从 1(最差)到 5(最好)的评分:
- 可读性衡量生成的问题是否易于相应年级的学生阅读和理解;
- 适当性检查生成的问题是否与相应的科目一致;
- 复杂性估计相应年级的学生回答生成的问题所需的推理或认知努力水平;
- 参与度衡量学生是否觉得问题很有趣并且有兴趣回答问题。注释者指南见附录 E。
表 3 说明了问题生成的人工评估结果。虽然基本事实问题在所有指标上都获得了最高分,但我们提出的 CoE 优于所有其他基线,并且与基本事实非常接近。此外,4.48 的平均得分表明我们的模型可以可靠地生成具有挑战性和发人深省的教育问题,这些问题表现出令人印象深刻的可读性、适当性、复杂性和参与度。值得注意的是,MLLM 的使用为 Multimodal-CoT 和 VL-T5 带来了巨大的结果差异。有趣的是,尽管 ChatGPT 在大多数指标上表现不佳,但与 VLT5 相比,它在可读性和参与度方面表现出色,这表明其在生成可读段落方面具有强大的少量学习能力。
表2:问题生成的自动评估结果。↑:越高越好,↓:越低越好。
干扰项生成评估
然后,我们评估构建多项选择题的干扰项生成性能,包括自动评估和人工评估。 自动评估 表 4 总结了干扰项生成的自动评估结果。与 QG 类似,由于 MLLM 强大的认知和生成能力,MultiQG-TI 和 Multimodal-CoT 与 VL-T5 相比表现出更优异的性能。值得注意的是,由于利用了 CoT 推理,Multimodal-CoT 生成的干扰项比 MultiQG-TI 更令人困惑和具有挑战性。同样,ChatGPT 和 CoE 的性能之间仍然存在显著差异。
在进一步分析 3 个学科的结果时,我们观察到所有评估方法的性能并没有在特定学科中表现出一致的优势,这与 QG 不同。事实上,我们的 CoE 在自然科学 (NAT) 领域表现出色,而在社会科学 (SOC) 领域表现最差,与 QG 结果存在明显偏差。此外,CoE 在配对文本 (TXT) 问题 ROUGE-L 得分方面取得了令人印象深刻的成绩,尽管准确性有所下降。相反,缺少配对文本和图像(NO)的问题会降低 ROUGE-L 分数,但不影响准确性,这凸显了 CoE 在无上下文干扰项生成中的强大适应性。同样,我们的 CoE 框架在不同科目和成绩之间的高性能一致性进一步证明了它的普遍性。
人工评估此外,我们还邀请了另外三位注释者使用不同方法生成的干扰项来回答选定的 50 个 MCQ。他们回答的准确性将作为评估生成的干扰项质量的人工评估指标。此外,我们还采用 5 分量表对其他 3 个指标进行评估生成的干扰项的质量,包括:
- 重叠检查生成的干扰项是否与正确答案完全重叠;
- 合理性估计生成的干扰项在语义上是否与给定的上下文和问题相关;
- 独特性衡量生成的干扰项与基本事实相比的原创性。详细的评估指南见附录 E。
表 5 总结了干扰项生成的人工评估结果。总体而言,我们的 CoE 优于所有其他基线,甚至在准确性上超过了事实,这表明 CoE 生成的干扰项足够独特且发人深省,足以分散人类对正确答案的注意力。然而,尽管我们采用了 CoT 和 CER 模块等一系列策略来增强生成的干扰项的可信度,但独特性仍然有限,无法显着提高。相反,由于黑箱内部未知的预训练知识,ChatGPT 在零样本和少样本文本生成中往往表现良好,尤其是在读取能力和多样性方面。因此,它在重叠性和独特性方面都表现出色,但在合理性方面有所欠缺,导致注释者在 MCQ 回答中的准确率更高。
消融研究
我们进行消融研究,以调查所提出的方法在思路链推理、情境化样例检索模块和多任务学习方面的影响,如表 6 所示。有几个值得注意的观察结果如下:
- 当放弃思路链 (CoT) 推理时,干扰项直接基于上下文和带有相关答案的问题生成,其性能分别下降了 15.7% Acc 和 0.9 R-L。结果表明,中间原理确实可以增强干扰项的生成。
- 当我们删除情境化样本检索 (CER) 模块时,整体性能会大幅下降,尤其是 Acc 显著下降了 -14.3%,这表明添加 CER 模块确实有助于检索原始样本的补充信息并产生效益。此外,附录 C 中提供了有关 CER 模块消融研究的更多详细信息。
- 当我们使用单任务学习代替多任务学习(MTL)作为微调策略时,我们可以看到两个生成任务的成绩都有所下降,具体来说,B-4 分数下降了 -6.4,Acc 分数上升了 +13.1%,这进一步验证了在 CoT 微调过程中利用多任务学习来减轻中间误差的有效性。
- 至于输入上下文,删除图像或文本段落都会导致两个生成任务的性能大幅下降,特别是 B-4 显著下降了 -14.8 和 21.0。它凸显了在生成问题和干扰项时结合视觉和文本信息的优势。
案例研究
为了定性评估 CoE 中的四个模块,我们在图 2 中可视化了一个来自 ScienceQA 的示例。基于此示例中的上下文、图像和答案输入,问题生成器显然无法在不参考示例问题“这三个对象有哪些共同属性?”的情况下生成合适的问题。此外,示例推理“一个物体具有不同的属性……这三个物体共同的属性是咸的”为推理生成器提供了有价值的信息补充,并作为指导生成的示范。此外,生成如此多样化和合理的干扰项得益于信息丰富的中间推理,它解释了“属性”的定义并描述了图像中物体的共同点。
为了进一步估计 CER 模块和 CoT 推理如何影响问题和干扰项生成,我们在图 3 和图 4 中展示了生成的示例。图 3 中的示例说明,当我们添加 CER 模块时,生成的问题“这四个物体具有哪个属性物体有什么共同点?”,询问“物体属性”,表现出更令人印象深刻的复杂性和教育适用性。相反,当删除样例时,生成的问题“图像中这四种食物的味道如何?”似乎过于简单和琐碎,难以回答。此外,图4表明,当我们放弃中间推理时,干扰项生成器无法从关于“哪种动物的脚具有抓取猎物的适应性”的解释中进行推理,从而生成不同的干扰项“大角羊”和不相关的干扰项“章鱼”。
结论
在本文中,我们提出了一种称为样本链(CoE)的新框架,它结合检索到的样例和思维链(CoT)推理,从文本和图像的多模态输入中生成教育问题和干扰项。具体而言,我们利用MLLM对多模态上下文进行编码,并将它们合并到三阶段多模态CoT框架中,即问题生成、理由生成和干扰项生成。同时,我们引入了语境化范例检索 (CER) 模块来检索示范性教育问题作为指导生成的示范。我们最终采用易于应用的多任务训练策略来微调我们的生成模型。我们在 ScienceQA 基准上的实验表明,CoE 优于现有方法并实现了新的最佳性能。
局限性
生成的独特性 如附录 B 所述,我们提出的 CoE 在问题生成方面可以比大多数基线取得更好的性能。同时,我们承认与 ChatGPT 相比,问题多样性存在局限性。与第 4.3.2 节类似,虽然 CoE 的干扰项生成与大多数基线相比表现出更高的独特性,但仍然未能满足注释者的期望。与我们的 CoE(采用监督学习且生成的多样性严重依赖于微调数据)相比,ChatGPT 能够通过利用上下文学习而无需任何监督来生成高度独特的问题和干扰项。因此,未来的研究仍有空间探索有效的微调策略,并研究如何将外部知识或从 ChatGPT 中提取知识到开源 LLM 中。
幻觉问题 CoE 的另一个限制是,我们的原理生成模块可能存在幻觉问题的典型缺陷,即捏造与上下文和答案无关的中间推理。幻觉原理会误导生成过程,导致不相关和琐碎的干扰项生成。一种潜在的解决方案是用自洽性 (Wang et al, 2023c) 取代思想链推理中使用的贪婪解码策略,通过采样不同的推理路径并选择最一致的干扰项生成原理,模仿多种不同的思维方式。推理路径的多样性越大,CoT 就能生成越真实、越合理的原理。我们相信,这一未来研究方向将在有效解决幻觉问题方面被证明是有价值和有前景的。
样本资源 在训练期间,我们的 CER 模块从 ScienceQA 的训练分割中检索领域特定样本来指导生成。然而,在这些样本指导下训练的生成器极大地限制了生成的问题和干扰项的质量和多样性,主要是由于对训练数据的强烈依赖。实际上,这种限制并非我们工作所独有。教育性 MCQ 生成严重依赖特定领域的训练数据来生成用于教育目的的问题和干扰项。因此,我们承认未来研究需要探索将检索到的样本与外部知识结合起来的方法,以减少对训练数据的依赖并提高生成质量。
附录
A 实施细节我们使用 Qwen-7B (Bai et al, 2023) 作为问题、基本原理和干扰项生成的主干。
值得注意的是,我们通过仍然使用 Qwen-7B 代替 Flan-T5-Large (Chung et al, 2022) 作为主干,重现了 Multimodal-CoT (Zhang et al, 2023b)。对于训练,我们将输入和输出序列的最大长度都设置为 2048。
由于 CUDA 内存不足,我们使用 QLoRA (Dettmers et al, 2023) 作为我们的微调策略,并将批量大小减小到 2。此外,我们对模型进行了最多 5 个 epoch 的微调,最大学习率为 1e −5 ,最小学习率为 1e −6 ,线性预热为 3000 步。
此外,我们使用预训练的 AnglE-LLaMA-7B(Li and Li,2023)语言编码器作为 CER 模块的主干。我们的实验在 4 个 NVIDIA GTX 3090 24G GPU 上运行。CoT 的提示细节如图 5 所示。
对于 ChatGPT 基线,我们在 ChatGPT 零样本和少样本实验中使用 gpt3.5-turbo-1106 模型 API。我们给 ChatGPT 的提示在问题和干扰项生成方面几乎与 CoE 提示相同,如下所示。
## 0-shot 问题生成上下文:... 答案:...
根据相应的上下文和答案生成问题。
## 1-shot 问题生成上下文:... 答案:...
参考示例,根据相应的上下文和答案生成问题。
示例:...
## 3-shot 问题生成上下文:... 答案:...
参考这 3 个示例,根据相应的上下文和答案生成问题。
示例 1:...
示例 2:...
示例 3:...
## 0-shot 干扰项生成上下文:... 答案:...
根据上述上下文和答案,生成至少 1 个合理但不正确的答案,并用数字分隔它们,如 (1) (2) (3)。
## 1-shot 干扰项生成上下文:... 答案:...
参考示例,根据上述上下文和答案,生成至少 1 个合理但不正确的答案,并用数字分隔它们,如 (1) (2) (3)。
示例:...
## 3 次干扰项生成上下文:... 答案:...
参考这 3 个示例,并根据上述上下文和答案,生成至少 1 个合理但不正确的答案,并用数字将它们分开,例如 (1) (2) (3)。
示例 1:...
示例 2:...
示例 3:...
B 问题多样性
为了衡量生成的问题的多样性,我们使用 Distinct-n 分数(Li et al,2016)作为自动评估指标。具体来说,它计算语料库级别的不同 n-gram 的数量,数量越高表示问题的多样性越大。我们考虑 n 的值从 1 到 4。如表 7 所示,随着 n 的值从 1 增加到 4,所有方法的性能都会提高。此外,ChatGPT 展示了利用零样本或少样本上下文学习生成高度独特的问题的能力,而无需任何监督,这与干扰项生成中的表现相似。除了 ChatGPT,我们的 CoE 优于所有其他基线,这表明 CoE 生成的问题表现出令人印象深刻的适当性,同时保持了高度的多样性。
C 样本检索分析
样本检索策略分析 我们构建了一个实验,使用不同的样本检索策略训练生成器,以研究样本检索策略是否影响性能。具体来说,我们利用 3 种检索策略:随机、最大和求和。在“随机”策略中,样本是从训练数据中随机选择的。“最大”策略表示使用 argmax 来求答案、上下文和问题相似度之间的最大值,而“求和”策略表示通过以下方式将这三个信号相加来组合:
如表 8 所示,随机选取的样本在问题和干扰项生成方面的表现都无法与上下文检索样本相媲美,这进一步证明了上下文检索样本确实为生成器提供了有价值和有用的信息,并验证了上下文检索的有效性。此外,使用“求和”策略检索样本的表现优于“最大化”策略,这表明在样本检索中结合三种信号可以得到更合适、更相关的样本,这对问题和干扰项生成都有好处。
样本数量的影响 为了进一步分析样本数量对生成性能的潜在影响,我们改变了样本数量(表示为 N),并检索相似度最高的前 N 个样本。如图 6 所示,我们观察到,随着 N 从 1 增加到 3,问题和干扰项生成性能都有所提高,这验证了样本为生成器提供的信息的有效性和实用性。但是,我们注意到,当 N = 2 时,最大输入长度的限制会导致样本中的某些内容被截断,从而阻止其发挥最佳性能。因此,当 N ≥ 2 时,问题和干扰项生成的性能都会缓慢提高。
不同基础模型的 D 分析为了分析我们 CoE 框架的通用性,我们进行了一项实验,利用其他基础模型代替 Qwen-VL (Bai et al, 2023) 作为问题和干扰项生成的主干,包括 LLaVA (Liu et al, 2023)、InstructBLIP (Dai et al, 2023)、mPLUG-Owl (Ye et al, 2023) 和 VisualGLM-6B (Ding et al, 2021; Du et al, 2022)。请注意,我们对所有基础模型使用相同的提示,以确保比较的公平性。如表 9 所示,Qwen-VL 的表现优于所有其他基础模型,展示了其在我们的框架中的高度适用性和适宜性。总体而言,虽然 5 个基础模型之间的性能略有差异,但它们在问题和干扰项生成方面始终表现出卓越的性能,这进一步证实了我们CoE 框架方法的有效性和多功能性。
E 生成质量评估指南我们在图 7 中展示了问题和干扰项生成质量的人工评估指南。