多元统计分析——基于R语言的单车使用情况可视化分析

标签：统计分析成分可视化湿度共享单车租赁温度

注：基于R语言的单车使用情况可视化分析为实验记录，存在不足，自行改进。

一、提出问题（要解决或分析的问题）

1 、用户对共享单车的使用习惯，环境对共享单车运营带来的影响？ 2 、共享单车的租赁量主要与哪些环境有关？

二、数据来源及选取方法（数据完整可靠）

数据说明：所使用的数据是共享单车运营数据，记录了共享单车租赁的时间、地点、环境（包括季节，温度，湿度）等数据。数据来源： https://www.kaggle.com/c/bike-sharing-demand/data

三、数据可视化分析

3.1 数据基本信息描述（图或表）

datetime ( 时间 ): hourly date + timestamp Season( 季节 ) : 1 = spring, 2 = summer, 3 = fall, 4 = winter holiday ( 是否是周末 ): whether the day is considered a holiday workingday ( 是否是工作日 ):whether the day is neither a weekend nor holiday weather ( 天气 ): 1: Clear, Few clouds, Partly cloudy, Partly cloudy 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist 3: Light Snow, Light Rain + Thunderstorm +Scattered clouds,Light Rain+Scattered clouds 4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog temp ( 温度 ) : temperature in Celsius atemp ( 最高温度 ) :"feels like" temperature in Celsius humidity ( 湿度 ): relative humidity windspeed ( 风速 ):wind speed casual ( 损坏车辆 ) : number of non-registered user rentals initiated registered ( 登记使用车辆 ) :number of registered user rentals initiated count ( 总租赁车辆数 ):number of total rentals

3.2.采用的多元分析方法（一种或多种，必须理论阐述该研究方法的基本原理）

3.2.1采用主成分分析

主成分分析（principal components analysis ）也称主分量分析，是由霍特林于 1933 年首次提出的。主成分分析是利用降维的思想，在损失很少信息的前提下，把多个指标转化为几个综合指标的多元统计方法。简单地说，主成分分析就是在研究问题选取的指标比较多、研究的问题比较复杂时，可以把原来研究的指标做几个线性组合，即主成分，来解释原来变量绝大对数信息的一种多元统计法。

3.2.2主成分分析的意义

通过主成分分析，可以从事物间错综复杂的关系中找出一些主要成分，从而能有效利用大量统计数据进行定量分析，揭示变量之间的内在关系，得到对事物特征发展规律的一些深层次的启发，把研究工作引向深入。

3.3数据分析结果及解释（图或表，必须含分析解释）

（1）读取数据

data <- read.csv("C:\\Users\\leglon\\Desktop\\假期r\\train(1).csv", header = TRUE,stringsAsFactors = F)

（2）缺失值处理

#缺失值处理
na.omit(data,cols,invert)

（3）从data中读取温度、最高温度、湿度、风速、损坏使用数据、登记使用数据，租赁总数据

# 从data中读取温度、最高温度、湿度、风速、损坏使用数据、登记使用数据，租赁总数据
suppressWarnings(temperature <- as.numeric(data[,6]))
suppressWarnings(atemp <- as.numeric(data[,7]))
suppressWarnings(humidity <- as.numeric(data[,8]))
suppressWarnings(windspeed <- as.numeric(data[,9]))
suppressWarnings(casual <- as.numeric(data[,10]))
suppressWarnings(register <- as.numeric(data[,11]))
suppressWarnings(count <- as.numeric(data[,12]))

（4）求温度、湿度和风速的均值与标准差

# 温度的均值和标准差
mean(temperature, na.rm = T)
sd(temperature, na.rm = T)

# 湿度的均值和标准差
mean(humidity, na.rm = T)
sd(humidity, na.rm = T)

# 风速的均值和标准差
mean(windspeed, na.rm = T)
sd(windspeed, na.rm = T)

（5）可视化湿度与租赁量关系图

plot(x = humidity,y=count,xlab="湿度",ylab="租赁量",main="湿度与租赁量关系图",cex=1,pch=1)

由湿度-租赁量散点图可知，湿度在 30-60 区间内，租赁量较多，湿度低于 20 ，且大于 90 ，租赁量较少。

（6）可视化温度与租赁量关系图

plot(x=temperature,y=count,xlab="温度",ylab="租赁量",main="温度与租赁量关系图",cex=1,pch=1)

由温度-租赁量散点图可知，当温度在 15-25 之间时，共享单车租赁量较高；当温度在 15 度以下时，温度越低，租赁量越低；当温度较高时，仍能保持一定的租赁量。

（7）查看拟合效果

shapiro.test(temperature[0:5000])
#W的值越接近1就越表明数据和正态分布拟合得越好,可以认为样本数据服从正态分布.

w值越接近1就越表明数据和正态分布拟合得越好,可以认为样本数据服从正态分布，从图中可以看出w的值为0.97539，服从正态分布。

（8）可视化工作日与休息日单车使用情况

hours = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24)

count_workday = c(36.73225806451613, 16.003236245954692, 8.436065573770492, 
                  4.892733564013841, 5.363636363636363, 24.529032258064515,
                  102.57741935483871, 290.69032258064516, 479.9451612903226,
                  242.29354838709676, 133.59677419354838, 157.0193548387097, 
                  199.34726688102893, 197.16077170418006, 180.36655948553056,
                  198.62700964630224, 292.4662379421222, 529.2090032154341,
                  495.4855305466238, 349.2829581993569, 249.36334405144694, 
                  184.85530546623795, 138.34405144694534, 88.9967845659164)
count_weekday = c(94.48965517241379, 71.9103448275862, 53.74825174825175,
                  25.53472222222222, 8.544827586206896, 9.373239436619718,
                  19.99310344827586, 47.26896551724138, 112.2551724137931, 
                  177.9241379310345, 263.80689655172415, 325.3862068965517, 
                  379.11034482758623, 387.82068965517243, 378.7310344827586, 
                  373.70344827586206, 367.64827586206894, 339.1241379310345, 
                  292.24827586206897, 242.3448275862069, 183.80689655172415, 
                  148.73793103448276, 123.35172413793103, 90.60689655172413)

# 绘制租赁量和时刻的柱形图
barplot(height = count_workday, xlab = "时刻", 
        ylab = "租赁量", main = "工作日使用情况", names.arg = hours)
#由工作日-时刻租赁柱状图/饼状图可知，工作日的共享单车使用高峰期集中在上午7-10点
#和下午18-20点，与上下班交通高峰期正好重合；
barplot(height = count_weekday, xlab = "时刻",
        ylab = "租赁量", main = "休息日使用情况", names.arg = hours)
# 绘制租赁量和时刻的饼状图
pie(x = count_workday, labels = hours, main = "工作日使用情况", radius = 1)
pie(x = count_weekday, labels = hours, main = "休息日使用情况", radius = 1)
#由休息日-时刻租赁柱状图/饼状图可知，休息日的共享单车使用集中在11-19点；

由工作日-时刻租赁柱状图可知，工作日的共享单车使用高峰期集中在上午 7-10 点和下午 18-20 点，与上下班交通高峰期正好重合。饼状图为工作日不同时间段共享单车使用占比情况。

由休息日-时刻租赁柱状图可知，休息日的共享单车使用集中在 11-19 点。饼状图为休息日不同时间段共享单车使用占比情况

（9）做主成分可视化分析

X = data.frame(
  x1=c(temperature),
  x2=c(atemp),
  x3=c(humidity),
  x4=c(windspeed),
  x5=c(casual),
  x6=c(register)
)
str(X)
cor(X) #计算相关矩阵
#### 作主成分分析
PCA=princomp(X,cor = T)
PCA
PCA$loadings  #主成分负荷
eigen(cor(X)) #计算相关矩阵的特征值
PCA$scores   #主成分得分
summary(PCA,loadings = TRUE)
screeplot(PCA,type='lines')

由于前三个主成分的累积贡献了已达到 82.04% ，所以另外三个主成分可以舍去，达到降维 目的。将温度（ temp ）、最高温度（ atemp ）和湿度（ humidity ）作为三个主要成分，可以 认为共享单车的租赁量主要与这三个环境有关。

3.4作回归诊断图

#### 将主成分作线性回归
lm.sol<-lm(count~temperature+atemp+humidity,data=X)
lm.sol$coefficients  #输出估计的回归系数
summary(lm.sol)
#回归方程通过了回归参数的检验与回归方程的检验，得到回归方程为：
#Y = 178.32869+3.08058*x1+5.26462*x2-2.80534*x3
#回归诊断
influence.measures(lm.sol)
op<-par(mfrow=c(2,2),mar=0.4+c(4,4,1,1),oma=c(0,0,2,0))
plot(lm.sol,1:4)
par(op)

四、讨论和小结：联系实际，分析问题（对应第一部分提出的问题）

1 、用户对共享单车的使用习惯，环境对共享单车运营带来的影响？由工作日- 时刻租赁柱状图可知，工作日的共享单车使用高峰期集中在上午 7-10 点和下午 18-20 点，与上下班交通高峰期正好重合；由休息日- 时刻租赁柱状图可知，休息日的共享单车使用集中在 11-19 点；温度和湿度都会对共享单车的使用带来影响，由温度- 租赁量散点图可知，当温度在 15-25 之间时，共享单车租赁量较高；当温度在 15 度以下时，温度越低，租赁量越低；当温度较高时，仍能保持一定的租赁量；由湿度- 租赁量散点图可知，湿度在 30-60 区间内，租赁量较多，湿度低于 20 ，且大于 90 ，租赁量较少。 2 、共享单车的租赁量主要与哪些环境有关？由碎石图可知，由于前三个主成分的累积贡献了已达到 82.04% ，所以另外三个主成分可以舍去，达到降维目的。将温度（temp ）、最高温度（ atemp ）和湿度（ humidity ）作为三个主要成分，可以认为共享单车的租赁量主要与这三个环境有关。

五、源代码

# 读取数据
data <- read.csv("C:\\Users\\leglon\\Desktop\\假期r\\train(1).csv", header = TRUE,stringsAsFactors = F)
#缺失值处理
na.omit(data,cols,invert)
# 从data中读取温度、最高温度、湿度、风速、损坏使用数据、登记使用数据，租赁总数据
suppressWarnings(temperature <- as.numeric(data[,6]))
suppressWarnings(atemp <- as.numeric(data[,7]))
suppressWarnings(humidity <- as.numeric(data[,8]))
suppressWarnings(windspeed <- as.numeric(data[,9]))
suppressWarnings(casual <- as.numeric(data[,10]))
suppressWarnings(register <- as.numeric(data[,11]))
suppressWarnings(count <- as.numeric(data[,12]))

# 温度的均值和标准差
mean(temperature, na.rm = T)
sd(temperature, na.rm = T)

# 湿度的均值和标准差
mean(humidity, na.rm = T)
sd(humidity, na.rm = T)

# 风速的均值和标准差
mean(windspeed, na.rm = T)
sd(windspeed, na.rm = T)

plot(x = humidity,y=count,xlab="湿度",ylab="租赁量",main="湿度与租赁量关系图",cex=1,pch=1)
plot(x=temperature,y=count,xlab="温度",ylab="租赁量",main="温度与租赁量关系图",cex=1,pch=1)
#由温度-租赁量散点图可知，当温度在15-25之间时，共享单车租赁量较高；
#当温度在15度以下时，温度越低，租赁量越低；当温度较高时，仍能保持一定的租赁量；
shapiro.test(temperature[0:5000])
#W的值越接近1就越表明数据和正态分布拟合得越好,可以认为样本数据服从正态分布.
hours = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21,22, 23, 24)

count_workday = c(36.73225806451613, 16.003236245954692, 8.436065573770492, 
                  4.892733564013841, 5.363636363636363, 24.529032258064515,
                  102.57741935483871, 290.69032258064516, 479.9451612903226,
                  242.29354838709676, 133.59677419354838, 157.0193548387097, 
                  199.34726688102893, 197.16077170418006, 180.36655948553056,
                  198.62700964630224, 292.4662379421222, 529.2090032154341,
                  495.4855305466238, 349.2829581993569, 249.36334405144694, 
                  184.85530546623795, 138.34405144694534, 88.9967845659164)
count_weekday = c(94.48965517241379, 71.9103448275862, 53.74825174825175,
                  25.53472222222222, 8.544827586206896, 9.373239436619718,
                  19.99310344827586, 47.26896551724138, 112.2551724137931, 
                  177.9241379310345, 263.80689655172415, 325.3862068965517, 
                  379.11034482758623, 387.82068965517243, 378.7310344827586, 
                  373.70344827586206, 367.64827586206894, 339.1241379310345, 
                  292.24827586206897, 242.3448275862069, 183.80689655172415, 
                  148.73793103448276, 123.35172413793103, 90.60689655172413)

# 绘制租赁量和时刻的柱形图
barplot(height = count_workday, xlab = "时刻", 
        ylab = "租赁量", main = "工作日使用情况", names.arg = hours)
#由工作日-时刻租赁柱状图/饼状图可知，工作日的共享单车使用高峰期集中在上午7-10点
#和下午18-20点，与上下班交通高峰期正好重合；
barplot(height = count_weekday, xlab = "时刻",
        ylab = "租赁量", main = "休息日使用情况", names.arg = hours)
# 绘制租赁量和时刻的饼状图
pie(x = count_workday, labels = hours, main = "工作日使用情况", radius = 1)
pie(x = count_weekday, labels = hours, main = "休息日使用情况", radius = 1)
#由休息日-时刻租赁柱状图/饼状图可知，休息日的共享单车使用集中在11-19点；

X = data.frame(
  x1=c(temperature),
  x2=c(atemp),
  x3=c(humidity),
  x4=c(windspeed),
  x5=c(casual),
  x6=c(register)
)
str(X)
cor(X) #计算相关矩阵
#### 作主成分分析
PCA=princomp(X,cor = T)
PCA
PCA$loadings  #主成分负荷
eigen(cor(X)) #计算相关矩阵的特征值
PCA$scores   #主成分得分
summary(PCA,loadings = TRUE)
screeplot(PCA,type='lines')
#z1 = 0.540*X1 + 0.535*X2 - 0.211*X3 - 0.471*X5 + 0.389*X6
#z2 = 0.308*X1 + 0.334*X2 + 0.612*X3 - 0.574*X4 - 0.186*X5 - 0.233*X6
#z3 = 0.301*X1 + 0.273*X2 + 0.684*X4 - 0.286*X5 - 0.531*X6
#由于前三个主成分的累积贡献了已达到82.04%，所以另外三个主成分可以舍去，
#达到降维目的。

#### 将主成分作线性回归
lm.sol<-lm(count~temperature+atemp+humidity,data=X)
lm.sol$coefficients  #输出估计的回归系数
summary(lm.sol)
#回归方程通过了回归参数的检验与回归方程的检验，得到回归方程为：
#Y = 178.32869+3.08058*x1+5.26462*x2-2.80534*x3
#回归诊断
influence.measures(lm.sol)
op<-par(mfrow=c(2,2),mar=0.4+c(4,4,1,1),oma=c(0,0,2,0))
plot(lm.sol,1:4)
par(op)

标签：统计分析,成分,可视化,湿度,共享,单车,租赁,温度
From： https://blog.csdn.net/qq_62127918/article/details/141340269

多元统计分析——基于R语言的单车使用情况可视化分析

一、提出问题（要解决或分析的问题）

二、数据来源及选取方法（数据完整可靠）

三、数据可视化分析

3.1 数据基本信息描述（图或表）

3.2.采用的多元分析方法（一种或多种，必须理论阐述该研究方法的基本原理）

3.2.1采用主成分分析

3.2.2主成分分析的意义

3.3数据分析结果及解释（图或表，必须含分析解释）

（1）读取数据

（2）缺失值处理

（3）从data中读取温度、最高温度、湿度、风速、损坏使用数据、登记使用数据，租赁总数据

（4）求温度、湿度和风速的均值与标准差

（5）可视化湿度与租赁量关系图

（6）可视化温度与租赁量关系图

（7）查看拟合效果

（8）可视化工作日与休息日单车使用情况

（9）做主成分可视化分析

3.4作回归诊断图

四、讨论和小结：联系实际，分析问题（对应第一部分提出的问题）

五、源代码

相关文章

赞助商

阅读排行

多元统计分析——基于R语言的单车使用情况可视化分析

一、提出问题（要解决或分析的问题）

二、数据来源及选取方法（数据完整可靠）

三、数据可视化分析

3.1 数据基本信息描述（图或表）

3.2.采用的多元分析方法（一种或多种，必须理论阐述该研究方法的基本原理）

3.2.1采用主成分分析

3.2.2主成分分析的意义

3.3数据分析结果及解释（图或表，必须含分析解释）

（1）读取数据

（2）缺失值处理

（3） 从data中读取温度、最高温度、湿度、风速、损坏使用数据、登记使用数据，租赁总数据

（4）求温度、湿度和风速的均值与标准差

（5）可视化湿度与租赁量关系图

（6）可视化温度与租赁量关系图

（7）查看拟合效果

（8）可视化工作日与休息日单车使用情况

（9）做主成分可视化分析

3.4作回归诊断图

四、讨论和小结：联系实际，分析问题（对应第一部分提出的问题）

五、源代码

相关文章

赞助商

阅读排行

（3）从data中读取温度、最高温度、湿度、风速、损坏使用数据、登记使用数据，租赁总数据