R语言数据分析案例38-高等教育学生成绩分析（多元线性回归）

标签：数据分析 38 title 学生 60 theme 课程高等教育成绩

一、研究背景

学生成绩是衡量教育质量的重要指标，同时也是教育工作者进行教学反思和改进的重要依据。随着现代教育的不断发展，各类学科课程的设置日益多样化，学生的学习表现也呈现出复杂多样的特征。为了深入了解学生在各门课程中的表现，找出影响学生成绩的关键因素，有必要对学生成绩数据进行详细的分析和研究。。。。

二、研究意义

优化教学策略，通过对学生成绩数据的分析，可以帮助教育工作者识别出哪些课程是学生的强项和弱项，从而有针对性地调整教学方法，提高教学效果。

资源分配，了解各门课程对学生成绩的影响，可以帮助学校合理分配教育资源。例如，可以加强对重点课程的支持，提供更多的教学资源和培训机会。。。。

三、实证分析

读取数据集，并展示前五行

数据和代码

报告代码数据

# 读取数据
file_path <- "成绩1.xlsx"
data <- read_excel(file_path, sheet = "Sheet1")
data
head(data,5)

从原始数据可以看出，该数据集包含学生的学号和多门课程的成绩。数据框有35列，每行代表一个学生的记录。主要课程有西方经济学、高等数学（两个部分）、基础会计、国际贸易实务、世界海运地理、国际金融实务、商务英语中级等。

接下来查看数据的缺失情况并可视化

ggplot(missing_data, aes(x = reorder(variable, -missing_count), y = missing_count)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  coord_flip() +
  labs(title = "缺失值数量条形图", x = "变量", y = "缺失值数量") +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5) # 标题居中
  )

图中可以看到，有些变量的缺失值数量较多，例如基础德语，商务英语中级，而有些变量没有缺失值。接下来用均值填充缺失值

可以看见现在已经不存在缺失值，接下来对数据进行描述性统计分析:

该描述性统计分析涵盖了多个课程的成绩数据，提供了每门课程成绩的最小值、第一四分位数、中位数、平均值、第三四分位数和最大值。例如西方经济学最小值：60.00第一四分位数：60.00中位数：60.00平均值等等。。。。

接下来选择几个主要变量进行分析：

# 绘制箱线图
ggplot(data_filled, aes(y = 西方经济学)) +
  geom_boxplot(fill = "steelblue", color = "black") +
  labs(title = "西方经济学 箱线图", y = "西方经济学") +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5) # 标题居中
  )

主要展示了成绩的分布、中心趋势和离群值情况。箱线图中的粗线代表成绩的中位数，接近于60分。箱体的上下边界分别代表第一四分位数和第三四分位数，约为60分和70分。。。

该图显示了高等数学课程成绩的密度分布情况，主要展示了成绩在不同分数段的分布密度。图中显示了高等数学成绩在不同分数段的密度分布情况。

# 绘制直方图
ggplot(data_filled, aes(x = 基础会计)) +
  geom_histogram(binwidth = 5, fill = "blue", color = "black", alpha = 0.7) +
  labs(title = "基础会计直方图", x = "基础会计", y = "频数") +
  theme_minimal() +
  theme(
    plot.title = element_text(hjust = 0.5) # 标题居中
  )

从直方图可以看出，基础会计的成绩分布存在两个明显的高峰。较多的学生成绩集中在60分附近，而另一个高峰在70分到80分之间。。。

成绩分布在60分到90分之间，表明所有学生的国际海洋货物运输成绩均在这个区间内。小提琴图显示了成绩在不同分数段的密度分布情况。图形中部较窄，两端逐渐变宽，形成一个漏斗形状。。。。

成绩被分为四个区间：60-70分、70-80分、80-90分和90-100分。大多数学生的成绩集中在60-80分之间，占了大部分的学生人数。。。

接下来选择部分日常重要课程对平均分做多元线性回归模型，具体回归结果如下：

# 构建回归公式
formula <- as.formula(paste(target_var, "~", paste(important_features, collapse = " + ")))
print(formula)
# 建立线性回归模型
lm_model <- lm(formula, data = data_filled_no_id)
# 打印模型摘要
summary(lm_model)

回归模型为：

这表明截距 (Intercept)：29.32891，在所有自变量（课程成绩）都为零的情况下，平均成绩为29.32891。西方经济学：0.10093表明，每增加1分西方经济学成绩，平均成绩增加0.10093分。等等，而且。。。

接下来对模型进行检验：

模型残差检验的结果如下：

Shapiro-Wilk检验的p值大于0.05，表示残差符合正态分布。

# 绘制残差图
par(mfrow=c(2, 2))
plot(lm_model)

该图包含四个不同的图表，用于对线性回归模型的残差进行诊断。分别为“残差 vs 拟合值”、“Q-Q图”、“规模-位置图”和“残差 vs 杠杆图”。

接下来进行多重共线性检验：

library(car)
vif_values <- vif(lm_model)
# 打印VIF值
print("VIF值:")
print(vif_values)
# 判断是否存在共线性
if (any(vif_values > 10)) {
  print("存在多重共线性问题")
} else {
  print("不存在多重共线性问题")
}

从结果可以看出，不存在多重共线性（VIF值大于10通常被认为存在多重共线性问题。否则不存在共线性问题。）

四、结论

通过对学生多门课程成绩的数据分析，我们发现了以下几个主要结论：

不同课程的成绩分布存在显著差异。描述性统计分析揭示了各课程成绩的基本情况，包括最小值、最大值、平均值和四分位数等。线性回归分析结果表明，西方经济学、国际贸易实务、国际海洋货物运输等课程对学生的平均成绩具有显著影响。。。。

创作不易，希望大家多点赞关注评论！！！（类似代码或报告定制可以私信）

标签：数据分析,38,title,学生,60,theme,课程,高等教育,成绩
From： https://blog.csdn.net/m0_62638421/article/details/140007962

R语言数据分析案例38-高等教育学生成绩分析（多元线性回归）

一、研究背景

二、研究意义

三、实证分析

四、结论

相关文章

赞助商

阅读排行