A Comparative Study of AI-Generated (GPT-4) and Human-crafted MCQs in Programming Education

标签：MCQs LLM AI LO 生成评估 crafted GPT MCQ

文章目录

题目

编程教育中人工智能生成的（GPT-4）和人类编写的 MCQ 的比较研究

在这里插入图片描述

论文地址:https://dl.acm.org/doi/10.1145/3636243.3636256

摘要

教育工作者需要不断开发和维护有效的最新评估。虽然在计算机教育领域，越来越多的研究利用大型语言模型 (LLM) 来生成和参与编码练习，但使用 LLM 生成编程 MCQ 的方法尚未得到广泛探索。我们分析了 GPT-4 生成与高等教育 Python 编程课程中的特定学习目标 (LO) 相一致的多项选择题 (MCQ) 的能力。具体来说，我们开发了一个由 LLM 驱动的 (GPT-4) 系统，用于从高级课程环境和模块级 LO 生成 MCQ。我们评估了 651 个 LLM 生成的 MCQ 和 449 个人造 MCQ，与 6 门 Python 课程中的 246 个 LO 一致。我们发现 GPT-4 能够生成具有清晰语言、单一正确选择和高质量干扰项的 MCQ。我们还观察到，生成的 MCQ 似乎与 LO 很好地一致。我们的研究结果可供希望利用最先进的生成模型来支持 MCQ 创作工作的教育工作者利用。

CCS 概念 • 社会和专业主题 → 计算机科学教育；软件工程教育。

关键词 GPT-4、大型语言模型、法学硕士、多项选择题、MCQ、自动生成、评估、自动内容生成、学习目标、LO

引言

多项选择题 (MCQ) 测试是教育领域最受欢迎的评估类型之一。然而，设计出能够准确达到预期学习目标 (LO) 的高质量 MCQ 需要宝贵的专业知识，而且耗时长，因此成本高昂。这在计算机教育等技术领域尤其如此，因为开发有效的 MCQ 面临着独特的挑战，例如与包含计算机代码片段相关的挑战。随着技术的变化、对编程教育的兴趣日益浓厚以及学生分享过去评估的门槛越来越低，对教师编写新颖高质量 MCQ 的需求从未如此高涨。大型测试领域的最新发展语言模型 (LLM)，例如生成式预训练转换器 (GPT)，在应对这一挑战方面显示出巨大的潜力。

利用 LLM 的功能，教育工作者可以 (半) 自动化生成 MCQ 评估。我们开发了一种新颖的基于 LLM (GPT-4) 的管道，用于自动生成高等教育 Python 编程课程的 MCQ。我们方法的新颖之处在于利用高级课程背景和详细的模块级 LO 来生成格式良好的高质量 MCQ，这些 MCQ 使用清晰的语言，具有合理的干扰项，并且与 LO 保持一致。由于了解自动生成的 MCQ 的质量和有效性至关重要，我们对 651 个自动生成的问题和 449 个人工制作的问题进行了严格的评估。如果高质量的自动 MCQ 生成被证明是可行的，它可以大大减少教育工作者目前在开发评估上花费的时间和精力。

为了研究 GPT-4 是否以及如何为高等教育编程课程生成高质量的 MCQ 评估，我们分析了以下研究问题：RQ1：生成的 MCQ 在多大程度上满足典型的质量要求？具体来说，它们是否：

以清晰的语言提供足够的信息；
有一个正确的答案，
高质量的干扰项；
包含语法和逻辑上正确的代码？

RQ2：生成的 MCQ 与指定的模块级 LO 的一致性如何？通过开展这项工作，我们为计算教育研究界提供了以下贡献。据我们所知，这是：

首批使用和评估 LLM 自动生成编程课程 MCQ 的研究之一。
首批不是从课程材料的短篇生成 MCQ 而是从 LO 生成 MCQ 的研究之一。
对生成的 MCQ 进行的最广泛（1,100 个 MCQ）和最详细的评估之一，包括与 LO 的一致性。

数据集

对于本文中的实验（第 5 节），我们收集了来自四门 Python 编程3 和两门入门数据科学4 课程的 246 个模块级 LO 的数据集。其中三门课程还包含我们收集的 MCQ（共 529 个），以便将它们与自动生成的 MCQ 进行比较（第 5 节）。我们假设这些 MCQ 是手动创建的。两位作者将每个 MCQ 与相应课程模块中最佳匹配的 LO 相关联。我们从实验中排除了 51 个 MCQ，因为我们无法合理地将它们分配给单个相应的 LO。另外 29 个 MCQ 被排除在我们的研究之外，因为它们需要多个正确选择，而我们只关注单选键的 MCQ。因此，生成的数据集包含 449 道人工编写的 MCQ。使用经过微调的 BERT 分类器（第 4 节有详细信息），每个 LO 被归类到修订后的布鲁姆分类法的六个级别之一。表 1 显示了 LO 在课程和布鲁姆分类法各个级别中的分布情况，以及从每门课程收集的 MCQ 数量。请注意，从课程中提取的一些 LO 定义不明确（例如没有动作动词），因此无法根据布鲁姆分类法对它们进行分类。

MCQ 生成

图 1 显示了 MCQ 生成流程的整体架构。为了生成 MCQ，我们仅提供有关课程、课程单元（模块）和目标。然后，我们将内部 MCQ 设计资源与用户的输入结合起来，提交给 GPT-4。以下各节将更详细地阐述 MCQ 生成流程中涉及的每个步骤。所提出的 MCQ 生成流程的显着特点是，用户只需提供有关课程和模块的高级信息。这与第 2 节中描述的绝大多数其他 MCQ 生成系统形成鲜明对比。虽然那些系统使用一段文本（例如，教科书中的一段）来生成 MCQ，但我们的系统使用特定的模块级 LO 来生成与该 LO 高度一致的 MCQ。这使我们能够更仔细地将 MCQ 生成与对学生预期 LO 成绩的评估结合起来。除了特定的模块级 LO 及其所属模块外，用户还需要提供课程标题（本研究中使用的课程标题见表 1）、简短的课程描述（包括课程级 LO 列表）和课程模块列表。使用这个特定的上下文以及遵循提示 LLM 生成 MCQ 的最佳实践是所呈现的流程的突出特点。

在这里插入图片描述

图 1：MCQ 生成管道。该图描述了从左到右的自动 MCQ 生成过程。处理用户提供的输入——预测所提供 LO 的布鲁姆分类法级别，从而确定适当的问题类型和相应的 MCQ 示例。这些与原始用户输入和 MCQ 设计资源相结合，形成作为提示提交给 GPT-4 模型的系统和用户消息，输出生成的 MCQ（词干、关键、干扰项）。

设计资源我们策划了一组静态资源来支持有效 MCQ 生成的各个阶段。我们专注于以下要素：

MCQ 原则——一组经过研究验证且普遍接受的原则，指导高质量 MCQ 的创作。例如，这包括干扰项应该是合理的并且数量有限（通常只有两个）。我们在这里只提供了简洁的描述，但图 2 的 MCQ 原则部分显示了广泛的摘录。
布卢姆分类法——修订版布卢姆分类法的六个层次的定义，即记忆、理解、应用、分析、评估和创造。该分类法帮助教育工作者阐明关注具体行动和行为的学习目标，并针对不同层次的认知过程。要让学习目标指导评估的选择，它们必须是可衡量的，也就是说，应该能够评估学习者是否达到了预期的学习目标。我们还提供了有关布卢姆分类法的目的和用途的信息分类法。图 2 中的布鲁姆分类法部分显示了广泛的摘录。
问题类型系统——通过对收集到的人工 MCQ 数据集进行非正式分析（第 3 节），我们定义了五种类型的编程 MCQ：回忆、填空、识别正确输出、分析（跟踪）代码和场景（参见下面管道的 LO 映射到问题类型步骤）。我们将这些类型的定义包含在资源中。图 2 中的 QType 示例部分提供了回忆类型的示例。
问题类型示例——针对每种定义的类型提供一小组高质量的 MCQ 示例（图 2 中的 QType 示例部分中的示例）。
输出格式——输出格式（JSON）的规范。图 2 显示了更多详细信息（输出格式部分）。

为 LLM 提供此类信息以创建有效的 MCQ 是这项工作的核心贡献之一。与 Leaf 不同，我们的方法允许无需训练即可生成问题和干扰项，从而确保有效生成，而不必担心领域外的泛化。可以合理地假设这适用于主流领域，例如编程入门，其中用于 LLM 预训练的数据集中包含大量相关材料。但是，这种方法可能不适用于内容不太丰富的高度专业化的领域。

在这里插入图片描述

图 3：提示的用户消息部分。该图显示了提示的示例用户消息部分及其主要组成部分：问题类型、课程名称、模块（单元）名称、学习目标和布鲁姆分类法级别。左侧的彩色条纹和彩色徽章与图 1 中的管道组成部分的颜色相匹配。
紫色文本是动态的（依赖于数据）。

LO 布鲁姆分类法级别分类器我们对来自 5,558 门大学课程的 21,380 个 LO 针对每个布鲁姆分类法类别微调了一个二元 BERT 分类器。BERT（来自 Transformer 的双向编码器表示）是一种流行的 LLM，以其对下游任务的微调能力而著称。我们使用这些模型来预测生成的 LO 的布鲁姆分类法级别（即记忆、理解、应用、分析、评估或创建）。然后，预测结果将用于管道的 LO 映射到问题类型步骤（见下文），并且还嵌入到提示的用户消息部分，如图 3 所示。

LO 映射到问题类型我们使用自动预测的所提供 LO 的布鲁姆分类级别（见上文）来确定适合该 LO 的 MCQ 类型（见表 2）。我们将每个分类级别映射到一个或多个问题类型，并为每种类型生成一个问题：

回忆 - 给定极少或没有代码，向学生询问基本的编程概念或技术细节。
填空 - 给定一个删除了一些部分的代码片段，要求学生选择一个成功替换空白的选项，以创建语法和语义正确的代码。
基于场景 - 给定一个场景或情况，要求学生确定最适合完成规定任务的适当工具、方法或包。
正确的输出——给定一个代码片段，要求学生跟踪程序执行以确定中间或最终输出。
码分析——给定一个代码片段，要求学生发现错误或以新的方式构建或使用代码。

在这里插入图片描述

表 2：自动生成的 MCQ。该表显示了每个问题类型（行）和布鲁姆分类法级别（列）的自动生成的 MCQ 的分布情况。
表 3：评分者间一致性。该表显示了 Gwet 对六个评分标准项目的 AC1 和 Fleiss

标签：MCQs,LLM,AI,LO,生成,评估,crafted,GPT,MCQ
From： https://blog.csdn.net/weixin_43961909/article/details/141401246

A Comparative Study of AI-Generated (GPT-4) and Human-crafted MCQs in Programming Education

文章目录

题目

摘要

引言

相关工作

数据集

MCQ 生成

相关文章

赞助商

阅读排行