案例一:分析电影评分数据
数据背景 假设我们有一个包含电影评分的数据集,数据集包含三列:电影名称、评分和评论数量。
目标
- 绘制电影评分的直方图。
- 计算电影评分的平均值
- 找出评分最高的电影
步骤
1.1.数据导入
# 数据导入
movie_data <- read.csv("movie_ratings.csv")
1.2.数据检查
# 数据检查
str(movie_data)
1.3.数据可视化
# 数据可视化:绘制直方图
library(ggplot2)
ggplot(movie_data, aes(x=Rating)) +
geom_histogram(bins=30) +
labs(title="电影评分直方图", x="评分", y="电影数量")
1.4.计算评分平均值
# 计算评分平均值
mean_rating <- mean(movie_data$Rating)
cat("电影评分的平均值为:", mean_rating, "\n")
1.5.找出评分最高的电影
# 找出评分最高的电影
max_rating_movie <- movie_data[which.max(movie_data$Rating), ]
cat("评分最高的电影为:", max_rating_movie$Movie, ",评分为:", max_rating_movie$Rating, "\n")
案例二:分析员工绩效数据
数据背景
假设我们有一个包含员工绩效的数据集,数据集包含四列:员工ID、销售额、工作年限和满意度。
目标
- 绘制员工销售额的箱型图。
- 计算员工销售额的中位数。
- 找出工作年限最长的员工。
步骤
2.1. 数据导入
# 数据导入
employee_data <- read.csv("employee_performance.csv")
2.2. 数据检查
# 数据检查
str(employee_data)
2.3. 数据可视化
# 数据可视化:绘制箱型图
library(ggplot2)
ggplot(employee_data, aes(y=Sales)) +
geom_boxplot() +
labs(title="员工销售额箱型图", x="员工ID", y="销售额")
2.4. 计算销售额中位数
# 计算销售额中位数
median_sales <- median(employee_data$Sales)
cat("员工销售额的中位数为:", median_sales, "\n")
2.5. 找出工作年限最长的员工
# 找出工作年限最长的员工
max_years_employee <- employee_data[which.max(employee_data$Years), ]
cat("工作年限最长的员工ID为:", max_years_employee$EmployeeID, ",工作年限为:", max_years_employee$Years, "\n")
案例三:分析城市空气质量数据
数据背景
假设我们有一个包含城市空气质量的数据集,数据集包含四列:城市、PM2.5、PM10和空气质量指数(AQI)。
目标
- 绘制AQI的散点图,以PM2.5为x轴,PM10为y轴。
- 计算AQI的平均值。
- 找出AQI最高的城市。
步骤
3.1. 数据导入
# 数据导入
air_quality_data <- read.csv("air_quality.csv")
3.2. 数据检查
# 数据检查
str(air_quality_data)
3.3. 数据可视化
# 数据可视化:绘制散点图
library(ggplot2)
ggplot(air_quality_data, aes(x=PM25, y=PM10)) +
geom_point() +
labs(title="空气质量指数散点图", x="PM2.5", y="PM10")
3.4. 计算AQI平均值
# 计算AQI平均值
mean_aqi <- mean(air_quality_data$AQI)
cat("AQI的平均值为:", mean_aqi, "\n")
3.5. 找出AQI最高的城市
# 找出AQI最高的城市
max_aqi_city <- air_quality_data[which.max(air_quality_data$AQI), ]
cat("AQI最高的城市为:", max_aqi_city$City, ",AQI为:", max_aqi_city$AQI, "\n")
标签:数据分析,找出,评分,data,AQI,员工,案例,初级,数据
From: https://blog.csdn.net/weixin_44304280/article/details/143688545