下载数据集请登录爱数科(www.idatascience.cn)
本案例主要用于熟悉数据预处理中字符串分割组件的操作和运用。
1. FordGoBike共享单车数据集
首先,读取数据集FordGoBike共享单车数据集,FordGoBike是湾区的共享单车项目,本数据集包含该项目的单车行程和基本用户信息。
2. 字段基本统计信息
使用字段基本统计信息查看字段的基本统计信息。
对于字符型数据,在这里我们可以看到它的不同取值个数和众数等信息;对于数值型数据,在这里我们可以看到它的均值、四分位数以及最大值等信息,同时也可以从样本数初步观察数据集是否存在缺失值的问题。在这里,有的字段样本数为183412,有的为183215,还有的为175147,所以我们推断存在样本缺失值,在对数据进行建模分析和可视化分析之前,我们应当对其作出相应的处理。
3. start_time列时间日期分割
采用字符串分割组件,将start_time列的日期和时间分割成两列。面板参数中,转换列选择start_time列,分隔符为一个空格,拆分多列,选择是。
结果展示,start_time
已经被拆分为start_time_split_0
和start_time_split_1
两列,第一列为日期,第二列为时间。
4. start_time年月日分割
采用字符串分割组件,将start_time_split_0
列继续分割,从而拆分出其中的年份、月份、日期。面板参数中,转换列选择start_time_split_0
列,分隔符为一个-
,拆分多列,选择是。
结果展示,start_time_split_0
已经被拆分成start_time_split_0_split_0
、start_time_split_0_split_1
和start_time_split_0_split_2
三列,分别代表年份、月份、日期。
5. start_time时间分割
采用字符串分割组件,将start_time_split_1
列继续分割,从而拆分出其中的时、分、秒。面板参数中,转换列选择start_time_split_1
列,分隔符为一个:
,拆分多列,选择是。
结果展示,start_time_split_1
已经被拆分成start_time_split_1_split_0
、start_time_split_1_split_1
和start_time_split_1_split_2
三列。分别代表时、分、秒。
6. 删除冗余数据列
我们已经对start_time
、start_time_split_0
和start_time_split_1
三列作出了相应的处理,原列我们后面就不需要了,所以删除这些冗余的列。使用删除数据列组件,选择以上三列。
结果中,start_time
、start_time_split_0
和start_time_split_1
三列已经被删除。
7. 数据字段重命名
因为新拆分出来的数据列,其字段名称都有split
,所以需要对其进行重命名,更能概括字段内容。这里分别将其命名为start_time_year
、start_time_month
、start_time_day
、start_time_hour
、start_time_minute
、start_time_second
。
结果显示,新分割出来的六列,已经都被我们重命名了。
8. start_time_hour直方图
使用数据可视化中的直方图组件作start_time_hour
列的直方图,分箱数量默认为10。
可以看到一天中,上午的7点到9点以及下午的4到6点,这两个时段,开始租用共享单车的人数最多。
爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。登录网址 www.idatascience.cn