首页 > 其他分享 >Can Autograding of Student-Generated Questions Quality by ChatGPT Match Human Experts?

Can Autograding of Student-Generated Questions Quality by ChatGPT Match Human Experts?

时间:2024-08-22 21:50:58浏览次数:12  
标签:Student SGQ 评分 3.5 Human GPT Autograding 评估 4.0

文章目录

题目

ChatGPT 对学生生成问题质量的自动评分能否与人类专家媲美?

在这里插入图片描述

论文地址:https://ieeexplore.ieee.org/document/10510637

摘要

    学生生成问题 (SGQ) 策略是一种有效的教学策略,可培养学生的高阶认知和批判性思维。然而,评估 SGQ 的质量非常耗时,并且需要领域专家的大量帮助。以前的自动评估工作侧重于问题的表面特征。为了克服这一限制,使用最先进的语言模型 GPT-3.5 和 GPT-4.0 对 1084 个 SGQ 的主题相关性、表达清晰度、可回答性、挑战性和认知水平进行了评估。结果表明,与 GPT-3.5 相比,GPT-4.0 在主题相关性、表达清晰度、可回答性和难度级别方面表现出与专家更好的评分一致性。GPT-3.5 和 GPT-4.0 在认知水平方面与专家的一致性较低。在三轮测试中,与 GPT-3.5 相比,GPT-4.0 在自动评分中表现出更高的稳定性。此外,为了验证 GPT 在评估不同领域和学科的 SGQ 方面的有效性,我们在 LearningQ 数据集的一部分上做了同样的实验。我们还讨论了教师和学生对 GPT 模型自动评分的态度。研究结果强调了 GPT-4.0 在协助教师评估 SGQ 质量方面的潜力。尽管如此,SGQ 的认知水平评估仍然需要教师的人工检查。

索引词——人工智能 (AI) 辅助评分、自动评分、ChatGPT、问题质量评估、学生生成的问题 (SGQ)。

引言

    学生生成的问题 (SGQ) 对于教师了解学生的知识至关重要。SGQ 指示有关学生对讲座的理解水平、概念误解或教学目标与学生理解之间的差距的信息。根据这些信息,教师可以调整教学设计或方法以满足学生的需求。 SGQ 还有利于学生的高阶认知思维和计算思维。当学生在课前或课后有疑问时,他们会积极参与学习。这个过程鼓励学生保持好奇心并激发批判性思维。

    然而,在大规模在线学习的背景下,手动评估大量 SGQ 的质量对课程讲师来说是一项耗时的任务。这会导致课程讲师感到疲惫和工作负担过重。为解决此问题提出的一个实用解决方案是采用自动机器评分。虽然以前的自动方法已经取得了出色的表现,但它们侧重于 SGQ 的表面特征,例如文本长度、语法和句子结构。为了评估 SGQ 的语言和教学质量,已经实现了一种结合专家和 GPT-3 的混合模型。GPT-3 模型在 SGQ 质量分类中的准确率为 40%,在布鲁姆分类法分类中的准确率为 32%。GPT-3 表现平平是由于缺乏领域知识,导致高估质量或错误分类布鲁姆分类法。随着 GPT 模型的发展,GPT-3.5 和 GPT-4.0 在多个自然语言处理任务上展现出了最佳性能。这些先进的模型在教育评估和评价方面具有巨大的潜力。

    为了验证先进模型在评估 SGQ 质量方面的有效性,我们使用 GPT-3.5 和 GPT-4.0 自动评估问题的质量。通过与专家评估进行比较,我们探讨了 GPT-3.5 和 GPT-4.0 在 SGQ 自动质量评估方面的表现。本研究调查了以下研究问题。

  1. RQ1:GPT-3.5 或 GPT-4.0 对 SGQ 质量的自动评分能否与人类专家相媲美?
  2. RQ2:GPT-3.5 或 GPT-4.0 能否像人类专家一样准确地根据布鲁姆分类法自动对 SGQ 进行分类?
  3. RQ3:GPT-3.5 和 GPT-4.0 在自动评分 SGQ 质量方面有多稳健?
  4. RQ4:课程讲师和学生对 GPT-3.5 和 GPT-4.0 评估有何看法?

    本文的主要贡献在于:首先,我们评估了 GPT-3.5 和 GPT-4.0 模型在自动 SGQ 评分中的有效性。其次,我们通过与一组经验丰富的教育工作者的比较证明了 GPT-3.5 和 GPT-4.0 在对教育问题进行分类方面的表现不如人类专家准确。第三,我们对课程讲师和学生进行了全面调查,以收集他们对使用 GPT-4.0 模型评估 SGQ 的看法。调查问题包括模型的可靠性和准确性,以及模型的潜在优势。

    本文的其余部分组织如下。第二部分回顾了相关工作。在第三部分中,我们解释了实验设计和数据集。随后,我们在第四部分展示了使用 GPT-3.5 和 GPT-4.0 的自动评分结果,并对实验进行了详细分析。在第五部分,我们讨论了我们的发现。最后,第六部分对本文进行了总结。

相关工作

    A. 学生生成的问题SGQ 策略被定义为一种教学过程,学生在此过程中就他们认为重要且相关的课程材料的特定领域提出问题。来自各种研究的实证证据表明,SGQ 策略可有效提高学生的积极性、课堂参与度和学习成绩。当学生对学习内容有疑问时,他们会关注学习材料中的关键信息,积极寻找解决方案,并保持高度的好奇心和对学习活动的参与度。因此,学生可以更深入地理解学习内容,并培养批判性和创造性思维能力。例如,Aflalo发现,参与提问活动的学生往往比同龄人表现出更高的认知和元认知能力。Hsu和Wang设计了一种基于游戏的SGQ策略来提升学生的算法思维能力。他们发现游戏机制加上SGQ策略可以提高学生的积极性和算法思维能力。

    此外,SGQ策略对教师也有潜在的好处。它可以帮助教师评估学生的学习情况和认知发展水平。SGQ指示有关哪些学习内容对学生来说很难的信息。通过采取全面的方法来审查SGQ,教师可以获得有关学生整体成长和发展的宝贵见解,并确定教学实践中的优势和劣势。SGQ还可以帮助教师定制教学方法,以解决学生的学习差距或误解。尽管这些研究证明了 SGQ 在促进教学和学习方面的价值,但大多数研究都忽略了学生提出的问题的质量。SGQ 的质量因学生的表达和认知能力而异。有些问题可能包含模棱两可、不合逻辑或不精确的信息。

    因此,在使用 SGQ 之前需要评估或审查其质量。然而,评估大量 SGQ 的质量仍然是一项极具挑战性的任务,因为它需要课程讲师投入大量的时间和精力。

    B. 评估 SGQ 的质量 先前的研究设计了不同的指标来评估 SGQ 的质量。Davey 和 McBride从文字和推理方面评估了 SGQ 的质量。如果问题的答案可以是推理或从文本中整合的,则该问题被评为正确。如果答案直接来自文本,该问题被评为不正确。Marbach-Ad 和 Sokolove 提出了八个类别来评估 SGQ 的质量,从低级到高级。这些类别可以分为四大类:准确表达、概念、超越课本和研究假设。该指标也用于评估学生生成的阅读问题。在读写教育中,使用流动类型学来评估 SGQ 的质量。读写特定类型学包括六个子领域:描述性、认知性、连接性、生成性、建构性和整合性。此外,大多数研究使用布卢姆分类法或其修订版来评估 SGQ 的质量。

    布卢姆分类法是评估学习者认知水平的基准标准和宝贵工具。它包括六个级别:记忆、理解、应用、分析、评估和创造。为了评估 SGQ 的质量,先前的研究使用了同行、人类专家或自动评估方法。同行评审是评估 SGQ 质量的有效方法。然而,这种方法受到学生认知的限制,不能完全依赖它。专家根据问题的语言和任务导向维度,根据预定义的评估标准对 SGQ 进行评估。语言层面的评估旨在根据问题的语法和惯用表达来评估问题。相比之下,任务导向层面的评估旨在从问题的可理解性、领域相关性、语法准确性、清晰度、不可重复性、可回答性、必要信息、重要性和适应性等方面来评估问题。

    人类专家评估的一个缺点是它易受主观性、情感和先验知识的影响,这可能会影响评估准确性。许多研究人员提出了自动评估方法来弥补人类专家评估方法的不足。一些自动化评估通常分析SGQ的表面特征,例如句子的流畅性和准确性,而忽略了教学原则。为了提高自动机器评估的效率和质量,最近的研究尝试从语言学和教学法的角度评估问题质量。例如,Ruseti 等人使用递归神经网络和词嵌入技术将问题分为四类:1(非常浅)到 4(非常深)。这种方法的准确率达到了 81.22%。

    然而,通过这种方法得出的评估并不一定能提高教学或学习成果。张等人使用谷歌的 BERT 模型根据布鲁姆分类法对学生生成的编程问题进行分类。这项研究结果表明,BERT 成功地将 SGQ(尤其是预测)分类在布鲁姆分类法的较低级别。 Moore 等人 [8] 使用专家评审和 GPT-3 模型来评估大学生生成的化学问题的质量。他们采用九项评分标准和布鲁姆分类法来分析 SGQ 的质量。结果表明,GPT-3 可以帮助教师区分低质量和高质量的 SGQ。与专家评估的一致性为 40%。在自动布鲁姆分类法中,GPT-3 模型与专家评估的匹配率为 32%。准确率低可能是由于数据量较少和缺乏专业领域数据。

在这里插入图片描述

方法

     (1)SGQ质量评价指标为适应应用场景,我们修改了Moore[8]指标,从语言表达和教学意义两个角度评价问题的质量。该指标包含相关性、清晰度、可回答性、挑战性和认知水平五个评价维度。认知水平源自修订的布鲁姆分类法,如表1所示。下面简要介绍该指标的内容和描述。首先,为判断SGQ是否与章节主题相关,我们简要概述了每章的主题词,并根据问题内容和章节的主题词评估问题与章节的相关性。例如,在“教育媒体与设备的产品与分类”一章中,我们概述了五个主题词:“教育设备概述、教育设备分类、教育媒体产品、教育媒体与设备趋势、在线学习资源”。如果学生提出“如何实现教育媒体和设备与教学的深度融合?”这个问题,就与本章主题相关。而“智慧教育的未来趋势是什么?”这个问题被认为与本章主题无关。评估SGQ的主题相关性可以准确衡量学生对本章的理解程度。

    其次,“清晰度”在提到问题时,通常是指问题的表述是否良好,其意图是否容易被理解。一个清晰的问题简洁、无歧义,并有效地传达了它想要传达的信息或询问。它涉及两个方面:一方面,问题是否容易理解,以免误导或混淆;另一方面,问题的逻辑是否清晰,能够有序地表达整个思想和意图。例如,“虚拟现实技术会对教学和学习产生什么影响?”这个问题很容易理解,可以达到良好的沟通效果。相反,“如何实现教育媒体和设备与教学的深度融合?”这个问题很容易理解,可以达到良好的沟通效果。

    “虚拟模拟可以普及吗?”这样的问题回答起来不够清楚,表述也不够清晰。因此,清晰度对于确保问题的接受者准确理解所问的内容并能提供准确和相关的回答至关重要。清晰的问题避免不必要的术语、复杂的句子结构或多重解释。第三,“可回答性”是指问题能够得到有效和准确回答的程度。“可回答性”问题是可以用相关信息、事实、观点或解释来直接回答所提出的问题。相反,“不可回答性”问题可能过于模糊或假设,无法产生有意义的答案。例如,“作为一名中学校长,我应该如何从众多产品中选择适合我们学校的设备?”这个问题是可以回答的。它要求提供有关决策过程的建议和指导:中学校长应如何从各种选项中选择合适的设备。然而,“如何在课堂上使用教育媒体和设备?”这个问题是无法回答的。它的范围很广,并没有具体说明所指的教育媒体或设备的类型。

   &ensp不同类型的媒体和设备有不同的用例和考虑因素。因此,问题的可回答性取决于其表述方式以及它与从回答者那里获取信息、见解或意见的预期目的的一致性。第四,当问题引发深思熟虑和批判性分析,并且需要付出巨大努力才能有效回答时,该问题被认为是具有挑战性的。具有挑战性的问题往往超出了简单的事实查询,而是要求受访者进行复杂的推理、评估各种观点,并运用知识和专业知识来提供有意义的回答。具有挑战性的问题要求的不仅仅是表面的理解。它们需要分析、综合和评估信息的能力。例如,“智能教室的特点是什么?”被认为不那么具有挑战性,因为它寻求的是特征的描述性列表,而不是需要深入分析或批判性思考。智能教室的许多特征,如交互式显示器、数字内容和在线协作工具,都是广为人知和讨论的。 “如何在小学课堂中使用 iPad 支持学生的深度知识构建?”这个问题具有挑战性。该问题涉及将技术(iPad)融入特定的教育环境(小学课堂)以实现更高水平的学习目标(深度知识构建)。它需要深思熟虑地分析和考虑各种因素,以提供全面而有意义的答案。

   &ensp总而言之,一个具有挑战性的问题会促使个人进行批判性、深入性和创造性的思考,以制定出一个明智而深思熟虑的答案。

    最后,为了准确确定学生提出问题的认知水平,本研究使用了改良的布卢姆分类法来评估问题所属的认知水平。先前的研究广泛使用这种分类法来评估学习者的认知水平。它由六个级别组成,每个级别都与问题的认知水平相对应。从低到高,六个级别分别是:

  1. 记住,对应于简单的记忆和对知识的理解;
  2. 理解,对应于理解知识的含义;
  3. 应用,对应于能够将知识应用于相关案例;
  4. 分析,对应于能够分析知识之间的关系;
  5. 评价,对应于批判性地评价知识和理论并分析其优缺点;
  6. 创造,对应于在理解和分析的基础上形成自己的观点并提出创新的解决方案以供应用。

    通过将SGQ与这六个级别相匹配,可以更准确地确定学生在理解和应用学习内容方面所达到的认知水平。 为确保评估结果的准确性和公平性,本研究将总分设为50分,以衡量问题的综合质量。在这个累积分数中,各个评分标准组成部分的分数范围为0到10。具体而言,在认知水平内,问题根据其与特定认知水平的匹配程度被赋予分数。被归类为“记忆”或“理解”的问题分别获得 1.5 或 3 分。属于“应用”类别的问题被分配 4.5 分,而被归类为“分析”、“评估”或“创造”的问题分别获得 7、8.5 或 10 分。值得注意的是,应用和分析级别之间的分数差异为 2.5 分,而其他级别的分数差异为 1.5 分。这一决定是根据先前的研究 [8] 得出的,该研究表明 SGQ 主要集中在记忆(52%)、理解(25%)和应用(20%)层面,而分布在分析、评估和创造层面的问题较少。因此,为了反映这种区别,我们在应用和分析级别之间设置了 2.5 分的差距。其他级别保持了 1.5 分的一致差异。

    B. 数据集 我们从中国某师范大学一门为期一学期的教育媒体与设备课程中收集了 SGQ。“教育媒体与设备”是教育技术专业本科生课程中的必修基础课程。它旨在帮助学生了解教育媒体与设备的发展,掌握使用常用设备的技能。该课程涵盖七个章节,全面概述教育媒体与设备、教育与技术的历史发展、教育设备的演变、智慧教室的概念、人工智能 (AI) 与教育设备的融合、教育设备在支持教学和学习中的作用以及虚拟现实和增强现实在实验课程中的应用。

在这里插入图片描述

    本课程通过智能实验室学习平台在线和离线提供教学。该平台是一个在线教育应用程序,其设计特点是开放性、即时性和连通性。课程讲师可以上传相关的教学视频、课程材料、练习和资源。同时,学生可以灵活地登录以方便访问学习材料,补充和扩展了他们的课堂学习体验。如果学生在学习过程中遇到问题或有疑问,他们可以通过平台的在线问答模块提问,并寻求教师和其他学生的答案和帮助。

    研究数据收集于2023年春季学期,由84名二年级教育技术专业学生提交的1084个问题组成。我们设计了一个提问活动。在活动中,要求学生“在每节课后创建一个你认为有价值或对学习平台问答模块有疑问的问题”。然后,课程老师会回复对GPT-3.5、GPT-4.0和他自己生成的问题质量的评估。我们使用OpenAI API(GPT-3.5 Turbo和GPT-4 Turbo)对SGQ进行批量评分,输入参数是表II中的Prompt。

    为了验证GPT在评估不同领域和学科的SGQ方面的有效性,我们在LearningQ [34]数据集上做了同样的实验。该公开数据集包含可汗学院学生生成的5600道简答题。我们从计算机、数学和科学三个学科中随机抽样了总共300道题。每门学科包含100道题。我们邀请了每门学科的两位领域专家根据我们的评分规则对这些问题进行评分。两位领域专家之间的Cohen’s Kappa一致性得分分别达到0.75、0.73和0.79,这是一个相当大的一致性。

    C.实验步骤整个实验过程如下:首先,我们将Prompt输入GPT模型进行学习。我们设计了一个用于评估SGQ的提示,如表II所示。提示模板包含每个章节和问题的特定主题术语,进一步增强了评估的特殊性。占位符标记“章节主题术语”被动态替换为每个章节的相关主题术语。同样,“问题”标记也被单独的 SGQ 替换,每个 SGQ 放在单独的行上并用大写字母表示。每个模型的评估结果包括分配给每个问题的每个评分标准的分数,以及总体得分。在这次评估练习中,我们让 GPT 模型扮演教育技术专家的角色,利用预定义的评估指标来衡量 SGQ 的质量。其次,我们为 GPT 模型提供了 14 个案例,以确保更好地理解评分规则,包括前四个维度为 0 分和总分的案例以及每个认知水平的案例,如表 III 所示。最后,GPT 模型使用提示对 SGQ 进行批量评分。

在这里插入图片描述

    为了检验两种GPT模型对试题质量自动评分的准确性,我们邀请了课程讲师和两位教育技术教授担任人工评分员。课程讲师对课程核心概念和学生认知水平的掌握更细致、更全面;而相比于课程讲师,教授的综合判断能力更强,能够准确判断试题的原创性和潜在价值。三位专家对1084份SGQ进行人工评分,试题从主题相关性、表达清晰度、可答性、挑战性和认知水平五个维度进行评分。我们以三位专家的平均分作为试题相关性、清晰度、可答性和挑战性的评分基准。由于试题的认知水平难以确定,因此三位专家共同确定了试题的认知水平。通过专家的评价基准,我们可以有效评估两种模型对试题质量自动评分的效果。我们进行了比较分析,以区分 GPT-3.5 和 GPT-4.0 模型各自的评估能力。为了验证模型评分结果的一致性,使用相同的提示对模型执行了三次迭代。 同样,上述方法也用于评估 LearningQ 中的 SGQ。

    IV. 分析与结果我们使用 SPSS26.0 软件对人类专家、GPT-3.5 和 GPT-4.0 的评分进行评估。为了评估不同维度上评分结果的一致性,我们采用 Kendall 检验对人类专家、GPT-3.5 和 GPT-4.0 进行了二乘二比较。之所以选择这种方法,是因为评分结果具有独立性,三个实体之间没有相互作用。为了衡量 GPT-3.5 和 GPT-4.0 的得分稳定性,我们使用相同的模板对相同的提示进行了三次单独的迭代。通过多个独立样本的 Kruskal-Wallis 检验来审查模型评分的稳健性,该检验分析了三轮评分之间的方差。为了确定统计显著性,我们采用了 p < 0.05 的标准。

    A. SGQ 质量的自动评分我们对第一个研究问题(RQ1)的主要关注点是检查 GPT-3.5、GPT-4.0 和人类专家在 SGQ 质量自动评分方面的一致性。为此,我们审查了人类专家、GPT-3.5 和 GPT-4.0 在总分、相关性、清晰度、可回答性和挑战性等各个维度的评分结果的一致性。这些收集到的分数构成了评估和随后比较各自评分能力有效性的基础。

  1. 总分:我们分析了问题各个维度的总分,以确定三位评估者的总分之间可能存在的显著差异。如表 IV 所示,整体结果表现出明显的一致性(p < 0.05)。很明显,人类专家与 GPT 模型之间以及 GPT-3.5 与 GPT-4.0 之间的 Kendall 一致系数小于 0.5。相比之下,人类专家与 GPT-4.0 之间的 Kendall 一致系数显著上升至 0.756。因此,在 GPT-3.5 与 GPT-4.0 之间以及人类专家与 GPT-3.5 之间的结果中观察到明显的区别。
  2. 相关性:利用 Kendall 的 W 检验,我们仔细检查了 GPT 模型和人类专家在相关性项目评估中的一致性。Kendall 的W 检验的结果列于表 IV,表明三位评估者的评分显著一致(p < 0.05)。表 IV 中的数据显示,GPT-4.0 与人类专家和 GPT-3.5 之间的 Kendall 一致性系数值均超过了 0.7 的阈值。相反,人类专家和 GPT-3.5 之间的 Kendall 一致性系数值仍然非常小。这种差异凸显了人类专家和 GPT-3.5 在主题相关性评估方面缺乏一致性。GPT-3.5 在衡量问题的主题相关性方面的能力有限,而 GPT-4.0 在这方面表现出增强的能力。
  3. 清晰度:我们分析了 Kendall 的 W 检验结果,以检验 GPT 模型和人类专家在评分清晰度项目方面的一致性。如表 IV 所示,专家给出的分数与 GPT-3.5 给出的分数之间没有显著的一致性(p > 0.05)。GPT-4.0 和专家之间的 Kendall 一致性系数值明显更高。这一观察结果强调了人类专家和 GPT-3.5 在清晰度维度上缺乏共识。相比之下,在评估清晰度方面,人类专家和 GPT-4.0 的评分输出之间的一致性明显更强。GPT-3.5 和 GPT-4.0 在清晰度评级方面也一致。
  4. 可回答性:如表 IV 所示,结果显示三位评估者之间的一致性(p < 0.05)。值得注意的是,人类专家与 GPT-3.5 和 GPT-4.0 分数之间的 Kendall 一致性系数值分别为 0.657 和 0.692。观察到 GPT-3.5 和 GPT-4.0 之间的 Kendall 一致性系数极低。这一观察结果强调了与 GPT-3.5 分数相比,GPT-4.0 在可回答性方面的准确性有所提高。此外,GPT-4.0 与专家评分的一致性显着提高,反映出其与专家评估的高度一致。
  5. 挑战性:我们对 GPT-3.5、GPT4.0 和人类专家评估进行了分析,以了解问题的挑战程度。目的是确定三位评估者在评估问题复杂性方面是否一致。如表 IV 所示,研究结果表示三位评估者意见一致(p < 0.05)。 值得注意的是,GPT-4.0 和 GPT-3.5 之间以及 GPT-3.5 和专家之间的 Kendall 一致性系数值较高。这一观察结果表明,GPT-3.5 和 GPT-4.0 在评估问题的挑战性水平时表现出更大的一致性。然而,专家评分与 GPT4.0 评分更为接近,与 GPT-3.5 评分的一致性较低。

在这里插入图片描述

    如表 IV 所示,GPT-4.0 与 GPT-3.5 相比表现出更好的性能,特别是在评估相关性、清晰度、可回答性和挑战性水平方面。GPT-4.0 在主题相关性和清晰度方面与专家评估表现出更强的一致性,而 GPT-3.5 在这些方面落后。此外,GPT-4.0 表现出增强的可回答性和挑战性评估与专家评分的一致性,而 GPT-3.5 得分较低。然而,如图 1 所示,GPT 模型的评估分数超过了人类专家。特别值得注意的是,GPT-4.0 的得分高于 GPT-3.5。

在这里插入图片描述在这里插入图片描述

    B. SGQ 的自动布鲁姆分类法为了解决 RQ2,我们使用 Kendall 系数和混淆矩阵来评估 GPT 模型和人类专家之间的一致性。众所周知,与其他四个维度的评估相比,认知水平的评估更为困难。它需要充分理解问题的背景和细微差别,尤其是在教育背景下。确定认知水平通常需要对主题有深入的理解,而模型可能不具备这一点。从表 V 可以看出,Kendall 系数三位评估员给出的评分值均低于 0.5。在专家和 GPT-3.5 评分之间观察到最高的 Kendall 系数值 0.363。在专家和 GPT-4.0 之间以及 GPT-3.5 和 GPT-4.0 之间,Kendall 系数值明显较低。这一观察结果强调,GPT 模型提供的分数在辨别 SGQ 的认知水平方面并不准确。

在这里插入图片描述在这里插入图片描述

    如表 V 所示,与前身 GPT-3.5 相比,GPT-4.0 模型在评估问题质量的能力方面表现出显着增强。然而,如图 2 和图 3 所示,GPT-3.5 模型与人类专家分配给 SGQ 的布鲁姆分类法的一致性为 19.28%。类似地,GPT-4.0 模型根据布鲁姆的 TABLE VI KRUSKAL–WALLIS TEST OF VARIANCE FOR GPT-3.5 SCORES 分类法,与人类专家对 SGQ 的评估有 23.71% 的一致率。一个值得注意的模式出现了,GPT 模型经常将问题归类为“评估”级别,而人类专家倾向于将问题归类为“分析”级别。这一发现表明,GPT-3.5 和 GPT-4.0 模型在 SGQ 的布鲁姆分类法上仍然表现出相当大的分歧。

在这里插入图片描述

    C. GPT 模型在 SGQ 自动评分中的稳健性为了解决 RQ3,我们在四个领域对每个模型进行了三次单独的评级迭代,以评估 GPT-3.5 和 GPT-4.0 评级的稳定性。在每次迭代中,GPT 模型都被分配了相同的提示来评估各个维度的问题,确保每轮的分数不受前几轮的影响。我们使用 Kruskal-Wallis 检验(一种分析多个独立样本差异的非参数方法)来评估模型在多轮评分中的潜在变化。分析涵盖五个维度:主题相关性、表达清晰度、可回答性、挑战性和认知水平。分析结果列于表 VI 和表 VII 中。对于 GPT-3.5 模型,在所有三个评分轮次中,不同维度和总分的 p 值均超过 0.05。Cohen 的 f 值(表示差异的效应大小)也在 0 到 0.015 之间。这些结果共同表明三个评分轮次之间没有显着差异,突显了 GPT-3.5 性能的稳定性。

在这里插入图片描述

    GPT-4.0 模型显示,在每个维度和总分的三轮评分中,所有 p 值均大于 0.05得分,相关的 Cohen f 值始终小于 0.1,表示效应大小最小。这表明,虽然三轮评分之间存在统计上的显着差异,但这些差异的实际影响可以忽略不计。值得注意的是,结果证实了 GPT-4.0 在多轮评分中的得分稳定性。

在这里插入图片描述在这里插入图片描述

    如图 4 所示,GPT 模型评分中的绝对误差主要局限于相关性、清晰度、可回答性和挑战性等维度的 [0,2] 范围内。与 GPT-3.5 相比,GPT-4.0 在对 SGQ 质量进行评级时表现出更高的稳定性。如图 5 所示,GPT-3.5在认知水平分类中,三轮评分相同率为41.61%。此外,GPT-3.5至少两轮评分相同率达到49.26%。 同样,对于GPT-4.0,三轮评分相同率为39.85%,至少两轮评分相同率为50.37%。尽管GPT模型与人类专家在布鲁姆分类法中存在相当大的差异,但GPT模型在多轮自动化布鲁姆分类法中表现出相对稳定的性能。

在这里插入图片描述

    D. GPT模型对不同领域的SGQ评分的表现我们使用Kendall的W检验来检验GPT模型与人类专家在三个不同领域的LearningQ数据集上的一致性。结果如表VIII-X所示。总体而言,GPT-4.0与人类专家的得分高于GPT-3.5与人类专家的得分。然而,GPT模型和人类专家对不同领域的SGQ的评估一致性较差。在评估总体得分时,人类专家与GPT模型之间以及GPT-3.5与GPT-4.0之间的Kendall一致性系数较低。结果突显了GPT模型与人类专家之间以及GPT-3.5与GPT-4.0之间的显著差异。

    E.课程教师和学生对GPT自动评分的看法为了回答问题4,我们对课程教师和学生进行了一项调查,以收集他们对GPT评分表现的看法。如图6所示,41.67%的学生同意GPT-4.0模型对他们问题生成的评估,35.71%的学生同意老师的评价,22.62%的学生同意GPT-3.5模型。

    课程讲师认为,GPT 提供了一种快速的方法和适当的理由来评估大量 SGQ。但值得注意的是,由于通过 API 接口进行批量问题评分,1084 个 SGQ 中只有 754 个提供了详细的评分理由。为了评估所提供理由的可靠性,我们聘请了两位经验丰富的讲师共同审查了 754 个 SGQ 的理由。最终,讲师们认为 583 个(77.32%)理由被认为是合理的,适合采用。两位讲师之间的 Cohen’s Kappa 一致性得分达到 0.75。

讨论与启示

    本研究的主要目的是比较 GPT 模型和人类专家在 SGQ 自动评分方面的差异。结果表明,与 GPT-3.5 相比,GPT-4.0 在主题相关性、表达清晰度、可回答性和难度级别等各个方面都表现出与专家更高的评分一致性。然而,GPT-3.5 和 GPT-4.0 在认知水平方面都表现出与专家的低一致性。研究结果表明,GPT 模型还不能取代教师自动评估 SGQ 的质量。这项研究做出了独特的贡献,突显了利用人工智能进行教育评估的持续挑战,并强调了人类专业知识在评估 SGQ 质量方面不可替代的作用。

    这项研究证实,与人类专家相比,GPT 模型仍然输出不一致的评分。结果与早期的研究 [8] 一致,该研究显示 GPT-3 模型与 40% SGQ 的人类评估一致。此外,我们的结果表明,GPT-3.5 和 GPT-4 在我们的课程数据和 LearningQ 上往往比人类提供更高的评分。结果有三种可能的解释。首先,GPT 模型经过训练,可以根据输入数据和上下文生成文本模式,但在数学和数字推理方面遇到挑战 [35]。其次,GPT 模型表现出优先考虑问题语言流畅性的倾向,导致基于对内容的表面理解而不是对其细微差别的深刻理解而给出的分数过高。

    第三,GPT 模型可能缺乏真实的主题专业知识,导致对需要领域特定知识的问题进行评分时不准确。因此,GPT 模型可能更适合生成评分 SGQ 的理由,而不是直接分配分数。教师可以参考 GPT 模型提供的理由,但他们需要根据自己的领域知识为 SGQ 分配适当的分数。

    另一个重要发现是,GPT-3.5 和 GPT-4.0 在认知水平方面与专家的一致性较低。这一发现与早期的研究 [8] 一致,该研究显示 GPT-3 模型在布鲁姆分类法上与 32% 的 SGQ 专家评价相匹配。有几个因素可能导致 GPT 模型和专家在评估 SGQ 的布鲁姆分类法级别时出现巨大差异。首先,需要特定领域知识的问题的布鲁姆分类法可能会给模型带来挑战,导致认知水平的错误分类。其次,问题通常涉及多种认知技能,这使得模型很难准确地分配单个布鲁姆分类法级别。第三,人类专家在分配布鲁姆分类法时可能会出现分歧或不一致,这使其成为模型具有挑战性的基准。
在这里插入图片描述在这里插入图片描述

    调查结果显示,支持 GPT-4.0 评估的学生强调,GPT 模型不仅提供分数,还为给定的分数提供附带的理由。这一特点增强了评估过程的公平性。这些学生认为,仅仅依靠成绩并不能有效地鼓励问题的改进。他们欣赏 GPT-4.0 提供的详细理由如何帮助他们理解问题的优势和劣势,从而促进更有意义的学习体验。此外,课程讲师认为GPT-4.0生成的部分理由并不合理,因为这些理由比较模糊,无法针对学生的问题提供建设性的反馈。此外,课程讲师认为GPT模型往往会给SGQ分配更高的认知分类水平。
在这里插入图片描述

    基于上述观点,我们建议教师不要直接使用GPT模型来给SGQ打分,而是将自己给SGQ打的分数输入GPT模型,让模型生成分数的理由,教师可以对这些理由进行细化,使其符合自己的判断标准。由于GPT模型在Bloom分类法中的不准确性和不稳定性,我们建议教师努力为课程构建自己的知识问答数据库,并适当标注Bloom分类法对SGQ的分类,并基于所收集的数据尝试训练AI模型,提高分类的可靠性。此外,根据学生的反馈,我们建议教师在评估SGQ时,应提供客观理由和建设性意见,以帮助学生改进和优化他们的问题这种方法可以增强学生对老师的信任感。

结论

    在本文中,我们比较了 GPT 模型和人类专家对 SGQ 评分的一致性。根据本研究的结果,与 GPT-3.5 相比,GPT-4.0 在主题相关性、表达清晰度、可回答性和难度级别等各个维度上都表现出与专家更高的评分一致性。然而,GPT-3.5 和 GPT-4.0 在认知复杂性方面都表现出与专家有限的一致性。在三轮测试中,与 GPT-3.5 相比,GPT-4.0 在自动评分中表现出更高的稳定性。总之,我们已经确认 GPT 模型还不能完全取代人类专家直接评分 SGQ。

    需要承认这项初步研究有几个局限性。首先,本研究的样本量有限,这可能影响了研究结果的普遍性。先前的研究发现,大型语言模型在不同学科领域的表现各不相同,而对这些模型进行有效的微调需要大量数据才能达到最佳效果。因此,未来的研究应致力于收集更多的 SGQ 数据或采用生成教育问题的新方法,以更好地优化模型性能。其次,这项研究未能尝试或调整现有的回归模型来试验自动评分的 SGQ。一些研究表明,GPT 模型擅长生成文本反馈,但不擅长文本评分。为了提高 GPT 模型的评分性能,进一步的研究可以结合人机交互方法,其中人类专家将为 GPT-4 的评估提供反馈或指导,促进模型从人工纠正中学习和改进。最后,这项研究缺乏对 SGQ 评估指标和评分标准的多样化尝试。先前的研究建议对 SGQ 使用不同的质量评估标准,包括它们对学习的效用和它们所促进的学习深度。因此,未来的研究可以尝试采用各种质量评估标准来比较大型语言模型的智能评估性能。

标签:Student,SGQ,评分,3.5,Human,GPT,Autograding,评估,4.0
From: https://blog.csdn.net/weixin_43961909/article/details/141438722

相关文章