首页 > 其他分享 >R语言数据分析案例38-高等教育学生成绩分析(多元线性回归)

R语言数据分析案例38-高等教育学生成绩分析(多元线性回归)

时间:2024-07-02 09:26:53浏览次数:36  
标签:数据分析 38 title 学生 60 theme 课程 高等教育 成绩

一、研究背景

学生成绩是衡量教育质量的重要指标,同时也是教育工作者进行教学反思和改进的重要依据。随着现代教育的不断发展,各类学科课程的设置日益多样化,学生的学习表现也呈现出复杂多样的特征。为了深入了解学生在各门课程中的表现,找出影响学生成绩的关键因素,有必要对学生成绩数据进行详细的分析和研究。。。。

二、研究意义

优化教学策略,通过对学生成绩数据的分析,可以帮助教育工作者识别出哪些课程是学生的强项和弱项,从而有针对性地调整教学方法,提高教学效果。

资源分配,了解各门课程对学生成绩的影响,可以帮助学校合理分配教育资源。例如,可以加强对重点课程的支持,提供更多的教学资源和培训机会。。。。

三、实证分析

读取数据集,并展示前五行

数据和代码

报告代码数据

# 读取数据
file_path <- "成绩1.xlsx"
data <- read_excel(file_path, sheet = "Sheet1")
data
head(data,5)

从原始数据可以看出,该数据集包含学生的学号和多门课程的成绩。数据框有35列,每行代表一个学生的记录。主要课程有西方经济学、高等数学(两个部分)、基础会计、国际贸易实务、世界海运地理、国际金融实务、商务英语中级等。

接下来查看数据的缺失情况并可视化

ggplot(missing_data, aes(x = reorder(variable, -missing_count), y = missing_count)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  coord_flip() +
  labs(title = "缺失值数量条形图", x = "变量", y = "缺失值数量") +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5) # 标题居中
  )

图中可以看到,有些变量的缺失值数量较多,例如基础德语,商务英语中级,而有些变量没有缺失值。接下来用均值填充缺失值

 可以看见现在已经不存在缺失值,接下来对数据进行描述性统计分析:

该描述性统计分析涵盖了多个课程的成绩数据,提供了每门课程成绩的最小值、第一四分位数、中位数、平均值、第三四分位数和最大值。例如西方经济学最小值:60.00第一四分位数:60.00中位数:60.00平均值等等。。。。

接下来选择几个主要变量进行分析:

# 绘制箱线图
ggplot(data_filled, aes(y = 西方经济学)) +
  geom_boxplot(fill = "steelblue", color = "black") +
  labs(title = "西方经济学 箱线图", y = "西方经济学") +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5) # 标题居中
  )

主要展示了成绩的分布、中心趋势和离群值情况。箱线图中的粗线代表成绩的中位数,接近于60分。箱体的上下边界分别代表第一四分位数和第三四分位数,约为60分和70分。。。

该图显示了高等数学课程成绩的密度分布情况,主要展示了成绩在不同分数段的分布密度。图中显示了高等数学成绩在不同分数段的密度分布情况。

# 绘制直方图
ggplot(data_filled, aes(x = 基础会计)) +
  geom_histogram(binwidth = 5, fill = "blue", color = "black", alpha = 0.7) +
  labs(title = "基础会计直方图", x = "基础会计", y = "频数") +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5) # 标题居中
  )

 

从直方图可以看出,基础会计的成绩分布存在两个明显的高峰。较多的学生成绩集中在60分附近,而另一个高峰在70分到80分之间。。。

 

成绩分布在60分到90分之间,表明所有学生的国际海洋货物运输成绩均在这个区间内。小提琴图显示了成绩在不同分数段的密度分布情况。图形中部较窄,两端逐渐变宽,形成一个漏斗形状。。。。

 成绩被分为四个区间:60-70分、70-80分、80-90分和90-100分。大多数学生的成绩集中在60-80分之间,占了大部分的学生人数。。。

接下来选择部分日常重要课程对平均分做多元线性回归模型,具体回归结果如下:

# 构建回归公式
formula <- as.formula(paste(target_var, "~", paste(important_features, collapse = " + ")))
print(formula)
# 建立线性回归模型
lm_model <- lm(formula, data = data_filled_no_id)
# 打印模型摘要
summary(lm_model)

回归模型为:

这表明截距 (Intercept):29.32891,在所有自变量(课程成绩)都为零的情况下,平均成绩为29.32891。西方经济学:0.10093表明,每增加1分西方经济学成绩,平均成绩增加0.10093分。等等,而且。。。

接下来对模型进行检验:

模型残差检验的结果如下:

 Shapiro-Wilk检验的p值大于0.05,表示残差符合正态分布。

# 绘制残差图
par(mfrow=c(2, 2))
plot(lm_model)

 

该图包含四个不同的图表,用于对线性回归模型的残差进行诊断。分别为“残差 vs 拟合值”、“Q-Q图”、“规模-位置图”和“残差 vs 杠杆图”。

接下来进行多重共线性检验:

library(car)
vif_values <- vif(lm_model)
# 打印VIF值
print("VIF值:")
print(vif_values)
# 判断是否存在共线性
if (any(vif_values > 10)) {
  print("存在多重共线性问题")
} else {
  print("不存在多重共线性问题")
}

从结果可以看出,不存在多重共线性(VIF值大于10通常被认为存在多重共线性问题。否则不存在共线性问题。)

四、结论

通过对学生多门课程成绩的数据分析,我们发现了以下几个主要结论:

不同课程的成绩分布存在显著差异。描述性统计分析揭示了各课程成绩的基本情况,包括最小值、最大值、平均值和四分位数等。线性回归分析结果表明,西方经济学、国际贸易实务、国际海洋货物运输等课程对学生的平均成绩具有显著影响。。。。

创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

标签:数据分析,38,title,学生,60,theme,课程,高等教育,成绩
From: https://blog.csdn.net/m0_62638421/article/details/140007962

相关文章

  • [AIGC] 常用的OLAP数据库:为数据分析提供强大的支持
    导语:在大数据时代,数据分析成为了企业决策的重要依据。为了高效地处理和分析海量的数据,OLAP数据库应运而生。本文将介绍几种常用的OLAP数据库,为数据分析提供强大的支持。一、SnowflakeSnowflake是一种云原生的OLAP数据库,以其强大的数据处理能力和灵活的架构而闻名。它具有......
  • 338 Authorization with JWT
    步骤1、客户端添加headerscities.service.tsimport{Injectable}from'@angular/core';import{City}from"../models/city";import{HttpClient,HttpHeaders}from"@angular/common/http";import{Observable}from"rxjs"......
  • pandas数据分析预测,报告加数据集和代码文件
    利用Pandas与相关可视化库完成数据的分析、处理与可视化任务,并利用KNN、决策树、随机森林等算法对数据进行分类或预测。数据选题应具有正面积极的意义,可从以下大类方向中选取:·信息类·金融类·交通类·食品安全类·体育类·健康信息·商品类评分细则:·Pan......
  • 【华为OD机试真题】238、贪吃蛇 | 机试真题+思路参考+代码分析(C++、Java、Py、JS)
    文章目录一、题目......
  • 数据分析划重点
    一、NumPy数据计算1、numpy数组 NumPy提供了一个多维数组类型ndarray,它可以用来表示向量、矩阵和张量。这些数组可以有不同的数据类型,如整数、浮点数、复数等。具有如下属性:(1)内存最优(除了其他方面,以内存块的最佳布局传送数据到C或FORTRAN)。(2)允许快速线性代数计算,不需......
  • 基于云计算的优质高等教育资源共享平台的研究与设计
    目前主要完成了系统的需求分析、系统的结构功能分析、系统可行性分析、还有系统环境的搭建和相关技术的学习。主要研究内容:  高校作为知识组织机构和教学信息资源中心,所提供信息服务相当依靠信息技术,因此信息技术的发展水平决定了高校教育信息服务的质量。因此全国各级......
  • 数据分析必备:一步步教你如何用matplotlib做数据可视化(13)
    1、Matplotlib文本Matplotlib具有广泛的文本支持,包括对数学表达式的支持,对光栅和矢量输出的TrueType支持,具有任意旋转的换行符分隔文本以及unicode支持。Matplotlib包含自己的matplotlib.font_manager,它实现了一个跨平台,符合W3C标准的字体查找算法。用户可以对文本属性(......
  • 【深度学习】图形模型基础(1):使用潜在变量模型进行数据分析的box循环
    1.绪论探索数据背后的隐藏规律,这不仅是数据分析的艺术,更是概率模型展现其威力的舞台。在这一过程中,潜在变量模型尤为关键,它成为了数据驱动问题解决的核心引擎。潜在变量模型的基本理念在于,那些看似复杂、杂乱无章的数据表象之下,往往隐藏着一种更为简洁、有序的结构和规律,只......
  • 数据分析神器Pandas快速入门3类型转换
    序列类型转换3.1自动转换在pandas1.0中,引入了一种新的转换方法.convert_dtypes。它会尝试将Series换为支持pd.NA类型。以city_mpg系列为例,它将把类型从int64转换为Int64:>>>city_mpg.convert_dtypes()01919223310417......
  • AI数据分析012:动态展示全球第一股英伟达10年股价走势
    文章目录一、介绍二、输入内容三、输出内容一、介绍英伟达在过去十年的股价走势展示了其在市场上的强劲表现和显著增长。自1999年上市以来,英伟达的股价经历了多次显著的涨幅,并在2024年达到了历史新高。从2023年6月的数据来看,英伟达的股价为386.54美元/股,市值为9......