爱数科案例 | 数据预处理——字符串分割

标签：分割 start split 拆分 time 字符串爱数科数据预处理

下载数据集请登录爱数科(www.idatascience.cn)

本案例主要用于熟悉数据预处理中字符串分割组件的操作和运用。

爱数科案例 | 数据预处理——字符串分割_数据

1. FordGoBike共享单车数据集

首先，读取数据集FordGoBike共享单车数据集，FordGoBike是湾区的共享单车项目，本数据集包含该项目的单车行程和基本用户信息。

爱数科案例 | 数据预处理——字符串分割_数据_02

2. 字段基本统计信息

使用字段基本统计信息查看字段的基本统计信息。

爱数科案例 | 数据预处理——字符串分割_数据_03

对于字符型数据，在这里我们可以看到它的不同取值个数和众数等信息；对于数值型数据，在这里我们可以看到它的均值、四分位数以及最大值等信息，同时也可以从样本数初步观察数据集是否存在缺失值的问题。在这里，有的字段样本数为183412，有的为183215，还有的为175147，所以我们推断存在样本缺失值，在对数据进行建模分析和可视化分析之前，我们应当对其作出相应的处理。

3. start_time列时间日期分割

采用字符串分割组件，将start_time列的日期和时间分割成两列。面板参数中，转换列选择start_time列，分隔符为一个空格，拆分多列，选择是。

爱数科案例 | 数据预处理——字符串分割_字段_04

结果展示，start_time已经被拆分为start_time_split_0和start_time_split_1两列，第一列为日期，第二列为时间。

4. start_time年月日分割

采用字符串分割组件，将start_time_split_0列继续分割，从而拆分出其中的年份、月份、日期。面板参数中，转换列选择start_time_split_0列，分隔符为一个-，拆分多列，选择是。

爱数科案例 | 数据预处理——字符串分割_字段_05

结果展示，start_time_split_0已经被拆分成start_time_split_0_split_0、start_time_split_0_split_1和start_time_split_0_split_2三列，分别代表年份、月份、日期。

5. start_time时间分割

采用字符串分割组件，将start_time_split_1列继续分割，从而拆分出其中的时、分、秒。面板参数中，转换列选择start_time_split_1列，分隔符为一个:，拆分多列，选择是。

爱数科案例 | 数据预处理——字符串分割_数据_06

结果展示，start_time_split_1已经被拆分成start_time_split_1_split_0、start_time_split_1_split_1 和start_time_split_1_split_2三列。分别代表时、分、秒。

6. 删除冗余数据列

我们已经对start_time、start_time_split_0和start_time_split_1三列作出了相应的处理，原列我们后面就不需要了，所以删除这些冗余的列。使用删除数据列组件，选择以上三列。

爱数科案例 | 数据预处理——字符串分割_数据集_07

结果中，start_time、start_time_split_0和start_time_split_1三列已经被删除。

7. 数据字段重命名

因为新拆分出来的数据列，其字段名称都有split，所以需要对其进行重命名，更能概括字段内容。这里分别将其命名为start_time_year、start_time_month、start_time_day、start_time_hour、start_time_minute、start_time_second。

爱数科案例 | 数据预处理——字符串分割_数据集_08

结果显示，新分割出来的六列，已经都被我们重命名了。

8. start_time_hour直方图

使用数据可视化中的直方图组件作start_time_hour列的直方图，分箱数量默认为10。

爱数科案例 | 数据预处理——字符串分割_数据_09

可以看到一天中，上午的7点到9点以及下午的4到6点，这两个时段，开始租用共享单车的人数最多。

爱数科（iDataScience）平台是一款数据科学科研和教学一体化平台，集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。登录网址 www.idatascience.cn

标签：分割,start,split,拆分,time,字符串,爱数科,数据,预处理
From： https://blog.51cto.com/u_15622928/5762625