近些年,“共享单车”模式迅速地在全球各大城市中流行起来,但随着资本的逐步退潮,共享单车企业需寻求新的盈利模式,首要任务便是探究共享单车使用量的影响因素。本案例利用首尔自行车共享需求数据集对单车使用量的影响因素进行可视化分析。
1. 读取数据
首先,读取数据集首尔自行车共享需求数据集 ,数据集包含在首尔自行车共享系统中每小时出租的公共自行车的数量,以及相应的天气数据和假日信息,包含14个属性,8760条数据。
首先,读取数据集首尔自行车共享需求数据集 ,数据集包含在首尔自行车共享系统中每小时
字段含义说明:
Date
:日期。
Rented Bike Count
:租用自行车计数 - 每小时租用自行车数。
Hour
:小时 - 一天中的小时。
Temperature
:温度 - 摄氏温度。
Humidity(%)
:湿度。
Wind speed (m\/s)
:风速。
Visibility (10m)
:能见度。
Dew point temperature
:露点温度 - 摄氏度。
Solar Radiation (MJ\/m2)
:太阳辐射。
Rainfall(mm)
:降雨量。
Snowfall (cm)
:降雪量。
Seasons
:季节。
Holiday
:假期。
Functioning Day
:功能日 - NoFunc(非功能时间),Fun(功能时间)。
2. 字段基本统计信息
查看数据集中每个字段的基本统计信息。
数据集共有8760条数据,根据字段基本统计信息可以看到该数据集不存在缺失值,有Date
、Seasons
、Holiday
、Functioning Day
四个字段为字符型数据,其余均为数值型数据。
3. 单车使用量分布直方图
利用直方图组件查看单车使用量分布直方图,分箱数量默认为10。
可以看到,每小时租车数量在0~355.6这个区间最多。
4. 温度分布直方图
利用直方图组件查看温度分布直方图,分箱数量默认为10。
租车时的温度多集中在-0.64~27.96摄氏度这个区间内。
5. 湿度分布直方图
利用直方图组件查看湿度分布直方图,分箱数量默认为10。
租车时的湿度多集中在29.4%~88.2%这个区间内。
6. 风速分布直方图
利用直方图组件查看风速分布直方图,分箱数量默认为10。
风速达到2.22m/s时,租车数量开始明显减少。
7. 温度与单车使用量散点图
利用散点图探索温度与单车使用量之间的关系。
从整体上看,随着温度的升高,租车数量有增加的趋势。
8. 湿度与单车使用量散点图
利用散点图探索湿度与单车使用量之间的关系。
随着湿度的上升或下降,单车租用数量没有明显的变化趋势。
9. 风速与单车使用量散点图
利用散点图探索风速与单车使用量之间的关系。
在风速达到5m/s之前,随着风速的增加,租车数量有着先增加后减少的趋势,但是当风速达到5m/s后,租车数量急剧减少。
10. 假期分布情况
利用柱状图查看假期分布情况。
非节假日的时候共享单车的使用量明显高于节假日,可初步判断共享单车的适用人群多为工作者。
11. 季节分布情况
利用柱状图查看季节分布情况。
由图可以得知共享单车的使用总量几乎不受季节的影响。
12. 假期与单车使用量箱线图
利用箱线图探究假期与单车使用量的关系。特征列选择Rented Bike Count,分组列选择Holiday。
由图可知,无假期的时候的使用量趋于500左右,而假期的使用量趋于250左右。
13. 季节与单车使用量箱线图
利用箱线图探究季节与单车使用量的关系。特征列选择Rented Bike Count,分组列选择Seasons。
冬季的时候共享单车使用量大多在200左右,而夏季则达到900左右,春季和秋季单车使用数量分别为580和760左右。
14. 功能日分布饼状图
利用饼状图查看功能日的占比情况
饼状图显示在所有的数据当中,功能日占据了绝大多数,而非功能日只占据了一小部分。
15. 数据分组聚合
由于每一个时段对应着非常多的租车数量,如果想要查看时段与租车数量之间的关系,使用原数据绘制折线图的话,不能够很好的展现时段与租车数量之间的关系,我们可以用每一个时段租车数量的平均值来代替这一时段租车数量的平均水平,这里利用数据分组聚合组件计算出每一个时段租车数量的平均值。分组列选择Hour
,聚合列选择Rented Bike Count_mean
,聚合函数选择平均值
。
节点报告展示了数据分组聚合之后的结果,字段Hour是由0开始按照顺序依次排列的,可以直接绘制折现图。Rented Bike Count_mean就是每一个时段的平均租车数量。
16. 时段与租车数量折线图
利用分组聚合之后的数据绘制时段与租车数量的折线图。x轴选择Hour
,y轴选择Rented Bike Count_mean
。
根据折线图,可以看到一天当中,存在着两个峰值,分别是早上的8点和下午的6点,这是由于上班的早高峰和下班的晚高峰,并且下午6点的峰值要高于早上8点的峰值。
爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。登录网址 www.idatascience.cn