首页 > 其他分享 >爱数科案例 | 数据预处理——字符串分割

爱数科案例 | 数据预处理——字符串分割

时间:2022-10-17 14:04:02浏览次数:61  
标签:分割 start split 拆分 time 字符串 爱数科 数据 预处理


下载数据集请登录爱数科(www.idatascience.cn)


本案例主要用于熟悉数据预处理中字符串分割组件的操作和运用。

爱数科案例 | 数据预处理——字符串分割_数据


1. FordGoBike共享单车数据集

首先,读取数据集FordGoBike共享单车数据集,FordGoBike是湾区的共享单车项目,本数据集包含该项目的单车行程和基本用户信息。

爱数科案例 | 数据预处理——字符串分割_数据_02


2. 字段基本统计信息

使用字段基本统计信息查看字段的基本统计信息。

爱数科案例 | 数据预处理——字符串分割_数据_03

对于字符型数据,在这里我们可以看到它的不同取值个数和众数等信息;对于数值型数据,在这里我们可以看到它的均值、四分位数以及最大值等信息,同时也可以从样本数初步观察数据集是否存在缺失值的问题。在这里,有的字段样本数为183412,有的为183215,还有的为175147,所以我们推断存在样本缺失值,在对数据进行建模分析和可视化分析之前,我们应当对其作出相应的处理。

3. start_time列时间日期分割

采用字符串分割组件,将start_time列的日期和时间分割成两列。面板参数中,转换列选择start_time列,分隔符为一个空格,拆分多列,选择是。

爱数科案例 | 数据预处理——字符串分割_字段_04

​结果展示,​​start_time​​已经被拆分为​​start_time_split_0​​和​​start_time_split_1​​两列,第一列为日期,第二列为时间。

4. start_time年月日分割

采用字符串分割组件,将​​start_time_split_0​​列继续分割,从而拆分出其中的年份、月份、日期。面板参数中,转换列选择​​start_time_split_0​​列,分隔符为一个​​-​​,拆分多列,选择是。

爱数科案例 | 数据预处理——字符串分割_字段_05

结果展示,​​start_time_split_0​​已经被拆分成​​start_time_split_0_split_0​​、​​start_time_split_0_split_1​​​和​​start_time_split_0_split_2​​三列,分别代表年份、月份、日期。


5. start_time时间分割

采用字符串分割组件,将​​start_time_split_1​​列继续分割,从而拆分出其中的时、分、秒。面板参数中,转换列选择​​start_time_split_1​​列,分隔符为一个​​:​​,拆分多列,选择是。

爱数科案例 | 数据预处理——字符串分割_数据_06

结果展示,​​start_time_split_1​​已经被拆分成​​start_time_split_1_split_0​​、​​start_time_split_1_split_1 ​​和​​start_time_split_1_split_2​​三列。分别代表时、分、秒。

6. 删除冗余数据列

我们已经对​​start_time​​、​​start_time_split_0​​和​​start_time_split_1​​三列作出了相应的处理,原列我们后面就不需要了,所以删除这些冗余的列。使用删除数据列组件,选择以上三列。

爱数科案例 | 数据预处理——字符串分割_数据集_07


结果中,​​start_time​​、​​start_time_split_0​​和​​start_time_split_1​​三列已经被删除。

7. 数据字段重命名

因为新拆分出来的数据列,其字段名称都有​​split​​,所以需要对其进行重命名,更能概括字段内容。这里分别将其命名为​​start_time_year​​、​​start_time_month​​、​​start_time_day​​、​​start_time_hour​​、​​start_time_minute​​、​​start_time_second​​。

爱数科案例 | 数据预处理——字符串分割_数据集_08


结果显示,新分割出来的六列,已经都被我们重命名了。


8. start_time_hour直方图

使用数据可视化中的直方图组件作​​start_time_hour​​列的直方图,分箱数量默认为10。

爱数科案例 | 数据预处理——字符串分割_数据_09

可以看到一天中,上午的7点到9点以及下午的4到6点,这两个时段,开始租用共享单车的人数最多。



爱数科(iDataScience)平台是一款数据科学科研和教学一体化平台,集成数十行业数千数据集、科研案例模板。帮助科研人员快速使用大数据和人工智能技术开展研究。支持高校开展大数据通识课程教学。帮助非专业人员进行数据分析和生成数据分析报告。登录网址 www.idatascience.cn




标签:分割,start,split,拆分,time,字符串,爱数科,数据,预处理
From: https://blog.51cto.com/u_15622928/5762625

相关文章

  • 【ES6】模板字符串、简化对象写法、箭头函数
    ......
  • java String字符串split分割【/n】无效
    记录仅以此来记录一下,整整耽误了两个小时,单个\需要转变成四个-【\\】才可以转换成功;List<String>arrays=Arrays.asList(stringContent.split("\\\\n"));for(Strin......
  • PHP 字符串限制字数和获取字符串字数
    一、截取限制字数:mb_substr()mb_substr($str,$start,$length,$encoding)$str,需要截断的字符串$start,截断开始处,起始处为0$length,要截取的字数$encoding,网页编......
  • 案例题:计算一个字符串中每个字符出现的次数
    案例分析图: 代码:publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);System.out.println("输入一个字符串");......
  • java实现计算字符串表达式
    引言在java后端中,偶尔存在需要将一个字符串当成表单式来计算。本文中,实现了java后端如何执行字符串的表单式实现ScriptEngineManagermanager=newScriptEngineManage......
  • 字符串及正则表达式
    一、使用字符串拼接输出一个关于程序员的笑话    二、截取身份证号码中的出生日期    三、输出被@的好友名称    四、通过好友列表生成全部被@......
  • Redis数据结构之字符串
    目录Redis数据结构之字符串添加获取修改删除判断一个key是否存在查看过期时间设置过期时间合并set和ex合并set和px判断一个key是否存在,存在则忽略,不存在则创建合并set和nx......
  • 768. 忽略大小写比较字符串大小
    文章目录​​Question​​​​Ideas​​​​Code​​Question一般我们用strcmp可比较两个字符串的大小,比较方法为对两个字符串从前往后逐个字符相比较(按ASCII码值大小比......
  • 两个字符串的相同字串个数
     #include<iostream>#include<set>#include<climits>#include<cstring>usingnamespacestd;boolisSubString(stringsubString,stringstr){intsubL......
  • python基础-字符串常用方法
    1.字符串capitalize函数  (capitalizevt.资本化,用大写字母书写(或印刷);把…首字母大写;)  将字符串的首字母大写,其它字母小写;  用法:newstr=string.capitalize......