首页 > 数据库 >SQL数据分析,数据清洗

SQL数据分析,数据清洗

时间:2022-11-10 10:11:04浏览次数:42  
标签:数据分析 分列 UPDATE Cname course score SQL 清洗 数据

SQL数据分析,数据清洗_数据

SQL数据分析,数据清洗_字段_02

获取数据后,对数据的清洗工作必不可少,常用的数据清洗方法主要有缺失值填充、数值替换、数据类型转换、数据分列、重复值处理等,清洗的数据结果直接影响最后数据分析的结果,一个成熟的数据分析师,在日常工作中绝大多数时间都在数据清洗,下面一起学习。

SQL数据分析,数据清洗_数据_03


缺失值填充

缺失值处理,可以使用均值、线性插值等方法进行填充,这里使用均值来作为填充值填充,首先计算分数的平均值,然后筛选分数为空的行,使用UPDATE函数将空值填充为平均值。

#计算score列的均值
SELECT AVG(score) AS avg_score
FROM score;
#使用均值填充空值
UPDATE score SET score=74
WHERE score is null;
select * from score;

SQL数据分析,数据清洗_字段_04

清理空格

清理字符中的空格,使用的是TRIM函数,并且用UPDATE函数更新表格。

#清理字符中的空格
UPDATE course SET Cname=TRIM(Cname);
select * from course;

SQL数据分析,数据清洗_数据_05

数值替换

REPLACE函数可以对字符进行替换,类似于EXCEL的替换功能。

#修改和替换
UPDATE course
SET Cname=REPLACE(Cname,'语文','语文-A');
select * from course;

SQL数据分析,数据清洗_字段_06

大小写转换

小写转换可以用LOWER函数,大写转换可以用UPER函数,这里使用LOWER函数将大写A转换为小写a。

#大小写转换
UPDATE course
SET Cname=LOWER(Cname);
select * from course;

SQL数据分析,数据清洗_字段_07

数据类型转换

数据类型转换用CONVERT函数,括号中第一个写要转换类型的值,第二个写要转换成的数据类型,此处将出生日期转换为日期类型。

SELECT Sname,CONVERT(Sage,date) as '出生日期' 
FROM student;


SQL数据分析,数据清洗_数据_08

mySQL常用的数据类型如下:

SQL数据分析,数据清洗_数据_09

数据分列

数据分列与EXCEL的功能相似,这里使用到的函数是SUBSTRING_INDEX,这里将"语文-A",分列成科目 语文 与评级为 两部分。

#数据分列
SELECT
SUBSTRING_INDEX(cname,'-',1) AS '科目',
SUBSTRING_INDEX(cname,'-',-1) AS '评级'
FROM course;

SQL数据分析,数据清洗_字段_10

分列后的数据可以通过更新增加在原数据表中,下面是具体的代码。

#数据分列(改表),添加两个空字段
ALTER TABLE course
ADD (col1 VARCHAR(255),col2 VARCHAR(255));
SELECT * FROM course;

SQL数据分析,数据清洗_数据_11

#更新分列后的字段内容
UPDATE course SET col1 = SUBSTRING_INDEX(cname,'-',1),
col2 =SUBSTRING_INDEX(cname,'-',-1);
SELECT * FROM course;

SQL数据分析,数据清洗_字段_12

重复值处理

重复值的处理使用到DISTINCT函数,也可以使用数据分组功能,实现将某个字段去除重复值的功能。

#重复值
SELECT DISTINCT CId,Cname
FROM course;

SQL数据分析,数据清洗_字段_13


标签:数据分析,分列,UPDATE,Cname,course,score,SQL,清洗,数据
From: https://blog.51cto.com/u_15828536/5839634

相关文章

  • SQL数据分析,数据表检查
    拿到一张数据表时,通常要预览数据表的整体情况,不能盲目地做分析,首先查看数据表的数据量大小,包含行数、列数,空白数据有多少、异常数据有多少,查看某列数据的唯一值等,下面一起来......
  • SQL数据分析,生成数据表
    在日常数据分析中,大多数情况都是需要数据查询,有时候也需要数据表的创建,对于数据表内容增、删、改,学习数据表的创建也是学习SQL的第一步,本文分别创建了学生表、教师表、科目......
  • Python数据分析,办公自动化,数据可视化
    数据可视化是为了使得数据更高效的反应数据情况,便于让读者更高效阅读,而不单是自己使用,通过数据可视化突出数据背后的规律,以此突出数据中的重要因素,并且,数据可视化可以将数据......
  • Python数据分析,办公自动化,时间序列
    时间序列数据是一种重要的结构化数据形式,在多个时间点观察或测量到的任何事物都可以形成一段时间序列。时间序列可以是固定频率的,也可以是不定期的。时间序列数据的意义取决......
  • Python数据分析,办公自动化,数据导入和导出
    写在文章的最前面,Python办公自动化有什么用?使用Python代码脚本取代繁复的手工操作,自动化,流程化处理数据。本文借助Python中的Pandas库进行数据导入,关于如何学习Pandas,我们可......
  • SQL数据分析|春节档电影豆瓣影评数据分析
    今年贺岁档上映了众多电影,其中有喜剧片代表唐探3、你好,李焕英,奇幻冒险片代表刺杀小说家、侍神令,犯罪片人潮汹涌等,众多电影中,我最喜欢看唐探3,因为之前看过唐探1和2系列,再加之......
  • Python数据分析,批量合并表格
    日常在处理数据时,数据表格常常以固定的格式,这些表格都具有相同的列名,通过对数据表进行整合,可以极大的提高我们的工作效率。本节使用两种方法对于表格批量处理,一种是常规的菜......
  • EXCEL数据分析,用户过程转化漏斗图制作
    漏斗图漏斗图适用于业务流程比较规范、周期长、环节多的单流程单向分析,通过漏斗各环节业务数据的比较能够直观地发现和说明问题所在的环节,进而做出决策。漏斗图用梯形面积表......
  • R数据分析,模型分析与检验
    R语言最重要的功能就是用于做模型,包含有大量的函数包,调用R函数包即可做模型检验与分析,例如常见的相关分析、回归分析、假设检验等等,除了做数据分析,R语言还可以做经典的数据......
  • R数据分析,数据预处理
    上一节讲到R数据清洗内容,主要包括缺失值处理、特殊字符处理、大小写转换、数据格式转化、重复值处理、数值替换,本节在R数据清洗的内容上继续学习R数据预处理,内容包括数据合......