首页 > 编程语言 >还没期末考试,算法却说我的物理一定挂科

还没期末考试,算法却说我的物理一定挂科

时间:2023-05-17 13:32:13浏览次数:38  
标签:预测 模型 样本 期末考试 学生 算法 挂科


By 超神经


场景描述:大学物理是理工科学生的基础必修课程,但也因为有一定的难度,令很多学生望而生畏。研究人员提出了用 AI 算法预测,哪些学生物理课有挂科风险,好让老师更好地进行教学指导和调整教育资源的分配。


关键词:随机森林 决策树 大学物理 预测



不得不说,算法的预测能力越来越强,小到预测夫妻是否会吵架,大到预测地震洪水等何时发生。


现在,算法甚至连你的物理课会不会挂科,都能预测出来。


这是最近西弗吉尼亚大学和加州理工大学的学者们,在 arxiv.org 上发表的一项最新研究。


还没期末考试,算法却说我的物理一定挂科_数据


他们发表了一篇有趣的论文:《Using Machine Learning to Identify the Most At-Risk Students in Physics Classes》(《使用机器学习来识别物理课上,最有挂科风险的学生》)。


还没期末考试,算法却说我的物理一定挂科_随机森林_02

爱因斯坦:让我看看是谁会挂科?


论文中表示,通过机器学习算法,可以评估物理基础课中学生的毕业成绩,该预测模型将学生分类为成绩 A、B、C、D、F 和 W(退选)。


注:美国大部分院校采用的评分等级与百分制分数对应规则大约为:A:90+;B:80+;C:70+;D:60+;F:不及格;W:退选课程(Withdrawal 的简写)。


 预测成绩:敲响警钟,你还可以抢救一下


还记得被大学物理支配的恐慌吗?


对很多理工科学生来说,大学物理的难度系数与高数相当,是最让人头秃的科目之一。


国外一项研究显示:曾主修工程和科学(统称为 STEM)但最后转专业,或者没能拿到学位的学生中,其中一小半的人就是因为物理和数学等主修课程,实在是太难。


还没期末考试,算法却说我的物理一定挂科_数据集_03

学好高等数学、微积分也是掌握物理的前提之一


STEM 学生,尤其是基础学科的流失率逐年提高,而与此同时,社会对他们的需求却依旧很高,出现了不小的人才缺口。


因此,西弗吉尼亚大学和加州理工大学的研究人员提出,用 AI 算法来拯救这些学生吧。


他们认为,用机器学习算法,来识别哪些学生有挂科风险。这样教师就可以根据预测结果,有针对性地进行指导,从而提高学生的通过率,也能及时了解他们的掌握情况。


 算法:参考过往表现,预测未来成绩


 样本抽取 


研究人员从来两所大学的抽取了三个样本,来训练预测学生表现的人工智能算法。


这些样本数据包括了:学生的 ACT(美国高考)成绩、大学 GPA 、物理课上收集的数据(比如课后作业成绩和考试成绩)。


其中,样本一和样本二来自于美国东部一所大学的物理科学和工程专业的学生。


样本一:包括 2000 年至 2018 年,完成大学物理 1 课程的所有学生,样本量为 7184 人。


样本二: 2016 年秋季至 2019 年春季学期的数据,样本量为 1683 人。样本包括了课堂表现数据,比如平均答题次数、课后作业平均成绩、学期考试分数等。


样本三:数据来自于 2017 年整个学年的力学入门课。样本三收集于另一所大学,该大学位于美国西部。


 变量 


本研究中所使用的变量,都是来自大学和班级内部。同时,也将一些人口统计信息如性别、族裔等信息纳入其中。


还没期末考试,算法却说我的物理一定挂科_数据_04

学生的高中成绩、是否有微积分基础等都是考虑的变量


 随机森林算法预测 


研究中,采用随机森林机器学习算法,来预测学生的入门物理学课程最终成绩。算法最后会将学生分为获得 A、B 或 C 的学生(归为 ABC 类学生)和获得 D、F 或 W 的学生(归为 DFW 类潜在挂科学生)。


为了了解算法的性能,他们将数据集分为测试和训练数据集。训练数据集用于开发分类模型,以训练分类器。


测试数据集则用于表征模型性能。


分类模型预测测试数据集中每个学生的测试结果后,会将预测结果与实际结果进行比较。


 结果:尴尬了,准确度 57 % 


经过模型调整与验证,研究者得出了预测结果,但准确率实在不太乐观……


还没期末考试,算法却说我的物理一定挂科_数据_05

模型在三个样本集的表现


他们指出,在对整个样本预测结果中,女性和少数民族学生较多的样本,DFW 准确性较低,他们指出,这需要对人口统计学进行模型调整。


在第一个样本上训练的算法,预测「DFW 类学生」的准确性仅为 16%,研究人员分析,这可能是因为训练集中,成绩为 DFW 的学生比例很低(12%)所致。


样本一中,模型的最佳表现准确度仅仅达到 57%,也就是仅比随机概率好一点点而已。



 结果准确率低,模型引争议


面对这个结果,他们认为:对于教育工作者和正在努力学习的学生来说,此类机器学习分类模型,可能是一个强大的工具,可以更好指导教育干预和教育资源的分配。


还没期末考试,算法却说我的物理一定挂科_随机森林_06

研究人员:任何模型都不能达到 100% 的准确度

网友:可是... 57% 是不是有点低?


但是,也有批评者认为,像这样的技术,可能会带有偏见或误导性的预测,给学生造成伤害。


一直研究表明,即使接受了大型语料库的训练,人工智能在预测复杂结果方面,仍会存在偏差问题。


此前,亚马逊的内部 AI 招聘工具,就因为表现出对女性的偏见,而被停用。


因此,人们也担心,这种成绩预测算法,不仅不能起到提高 STEM 学生保留率,反而会加剧不平等现象。


当然一切的结果都只是预测,考试嘛,三分天注定,七分靠打拼,剩下的九十分靠老师的心情。


还没期末考试,算法却说我的物理一定挂科_数据集_07

祖师爷:想考好?得有这个







还没期末考试,算法却说我的物理一定挂科_数据集_08

标签:预测,模型,样本,期末考试,学生,算法,挂科
From: https://blog.51cto.com/u_16060192/6290337

相关文章

  • 代码随想录算法训练营第8天 | ● 344.反转字符串 ● 541. 反转字符串II ● 剑指Offer
     第四章 字符串part01  今日任务  ●  344.反转字符串●  541. 反转字符串II●  剑指Offer 05.替换空格●  151.翻转字符串里的单词●  剑指Offer58-II.左旋转字符串  详细布置   344.反转字符串  建议: 本题是字符串基础题目,就是考察......
  • 基于CNN卷积神经网络的语音信号识别算法matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:   2.算法涉及理论知识概要       人工智能的应用中,语音识别在今年来取得显著进步,不管是英文、中文或者其他语种,机器的语音识别准确率在不断上升。其中,语音听写技术的发展最为迅速,目前已广泛在语音输入、语音搜索、语音......
  • R语言改进的K-Means(K-均值)聚类算法分析股票盈利能力和可视化
    全文链接:http://tecdat.cn/?p=32418原文出处:拓端数据部落公众号大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分。人们在投资时总期望以最小的风险获取最大的利益,面对庞大的股票市场和繁杂的股票数据,要想对股票进行合理......
  • 程序员岗位介绍,我爬取了拉勾网所有技术岗位工资数据,算法工程师平均薪资高达2W
    点击观看视频↓↓↓程序员岗位介绍,我爬取了拉勾网所有技术岗位工资数据,算法工程师平均薪资高达2W文字版大家好,我是宁一,一个多月没有更新视频了,这一个多月我都在准备一个店铺商城的云开发小程序项目,项目刚刚开发完,还需要一段时间来写成课程,怕大家把我忘了,先来更新一篇文章~最近有......
  • 文心一言 VS chatgpt (17)-- 算法导论4.1 3~4题
    三、在你的计算机上实现最大子数组问题的暴力算法和递归算法。请指出多大的问题规模n0是性能交叉点一一从此之后递归算法将击败暴力算法?然后,修改递归算法的基本情况一一当问题规模小于n0时采用暴力算法。修改后,性能交叉点会改变吗?文心一言:在你的计算机上实现最大子数组问题......
  • 【Vue2.x源码系列08】Diff算法原理
    什么是虚拟DOMDOM是很慢的,其元素非常庞大,当我们频繁的去做DOM更新,会产生一定的性能问题,我们可以直观感受一下div元素包含的海量属性在Javascript对象中,虚拟DOM表现为一个Object对象(以VNode节点作为基础的树)。并且最少包含标签名tag、属性attrs和子元素对象children三个属......
  • 用Rust实现DES加密/解密算法
    信息安全技术课程要求实现一下DES算法。对着一份Java代码断断续续抠了几天,算是实现出来了。这里记录一下算法思想和我的Rust实现。DES算法解析概述https://en.wikipedia.org/wiki/Data_Encryption_StandardDES是一种对称的分组加密算法,加密和解密使用同一个密钥,计算过程将数......
  • 代码随想录算法训练营第七天|454. 四数相加 II、383. 赎金信、15. 三数之和、18. 四数
    【参考链接】454.四数相加II【注意】1.a+b作为key,出现次数作为value,0-(c+d)有没有在map集合里出现过,出现的次数做统计。遍历两个数组时间复杂度为O(n2)。【代码】1classSolution(object):2deffourSumCount(self,nums1,nums2,nums3,nums4):3"""......
  • 基于分时电价,采用改进粒子群算法,以最小化系统峰谷差率和用户成本最少为目标,并考虑电池
    基于分时电价,采用改进粒子群算法,以最小化系统峰谷差率和用户成本最少为目标,并考虑电池寿命和充电功率等约束条件,优化电动汽车充放电。参考论文:基于V2G的电动汽车充放电优化调度策略有注释简单易懂,可自己调整参数。ID:4525670541175133......
  • C++ 图进阶系列之剖析二分图的染色算法和匈牙利算法
    1.前言二分图又称作二部图或称为偶图,是图论中的一种特殊类型,有广泛的应用场景。什么是二分图?二分图一般指无向图。看待问题要有哲学思想,有二分图也可以是有向图。如果图中所有顶点集合能分成两个独立的子集,且任一子集中的任意顶点之间没有边连接,则称这样的图为二分图。......