首页 > 编程语言 >用于数据准备的 Python — 探索和清理数据集

用于数据准备的 Python — 探索和清理数据集

时间:2022-09-21 11:36:19浏览次数:93  
标签:分析 格式化 探索 Python 清理 准备 数据

用于数据准备的 Python — 探索和清理数据集

什么是数据准备?

数据准备是收集、组合、结构化和组织数据的过程,以便将其用于商业智能 (BI) 应用程序、分析和数据可视化。此过程有时也称为数据整理。

在数据科学家开始使用分析工具和报告探索数据之前,必须首先完成数据准备作为第一步。简而言之,数据准备是获取原始数据并准备将其引入分析平台的过程。为了达到准备的最后阶段,必须对数据进行清理、格式化并转换为分析工具可以消化的东西。

一般数据准备步骤

  1. 数据采集
    相关数据是从操作系统、数据仓库、数据湖和其他数据源收集的。
  2. 数据发现和分析
    数据发现和分析对于探索收集的数据很有用。通过这种探索,数据中包含的内容将更容易理解。还可以确定根据其预期用途准备数据所需采取的步骤。
  3. 数据清理
    数据清洗是纠正已识别的数据错误和问题的过程,以创建完整和准确的数据集。例如,作为数据清洗的一部分,错误的数据将被删除或更正,缺失的值将被填充,不一致的条目将被对齐。
  4. 数据格式化
    数据集清洗后,需要对数据进行格式化。此步骤包括解决数据中的多种日期格式或不一致的缩写等问题。也有可能某些数据变量不是分析所必需的,因此应该从分析数据集中删除。
  5. 数据组合与分析
    当数据集被清理和格式化后,可以通过与输入集合并来修改数据。分析开始后,对数据集的更改应极其谨慎。
  6. 数据验证和发布
    然后将准备好的数据存储在数据仓库、数据湖或其他存储库中,并由准备数据的人直接使用。它也可以供其他用户访问。

使用 Python 进行数据准备示例

使用的数据集是从电子商务获得的原始数据。在将数据用于数据可视化、数据分析和发现洞察之前,需要首先对数据进行处理和探索,使其成为可供分析的干净数据。

谷歌实验室可以在这里访问: https://colab.research.google.com/drive/1rrhhveIOwDYBnJaleeEQL5Yn3uUCQE8L?usp=sharing

可以在此处访问要使用的原始数据: https://drive.google.com/file/d/1eFqyQEx_ARsCdv05d9ZNqVEvY-83mswB/view?usp=sharing

问题:
1. 部分记录仍包含标题行
2. 部分记录仍包含重复
3.日期时间仍然包含2种日期时间格式

基于这个问题,那么数据探索过程将是:

  1. 阅读和理解数据
  2. 删除包含标题行的行
  3. 检查重复记录,然后删除重复记录中的 1 个
  4. 格式化日期时间

更多详细信息,您可以直接访问 Google Collaboratory,您可以立即尝试进行数据准备。

致谢

特别感谢 MySkill 在“Intensive Data Science Bootcamp Batch 2”计划中教我有关 Python 和数据科学数据可视化的知识。我还要感谢我的导师和导师在训练营期间对我的指导。

跟着我们

我的技能(领英)
MySkill 导师(LinkedIn):Kak Yosi
MySkill 导师(LinkedIn):Kak Riza
MySkill 管理员 (LinkedIn): Kak Elsa
我的领英

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/38326/20162111

标签:分析,格式化,探索,Python,清理,准备,数据
From: https://www.cnblogs.com/amboke/p/16714991.html

相关文章

  • 你应该知道的 Python F 字符串技巧
    Python你应该知道的PythonF字符串技巧停止打印(f”variable={variable}”)Photoby约尔格·安杰利on不飞溅早在2016年,Python3.6就引入了一种新的字符串格......
  • 第二章 ES数据操作与集群
    一、回顾1.介绍ES2.ES原理3.ES功能4.ES使用场景5.ES安装1)ES配置文件(单点配置)[root@es01~]#grep'^[a-z]'/etc/elasticsearch/elasticsearch.ymlnode.name:es-1......
  • 力扣2(java&python)-两数相加(中等)
    题目:给你两个 非空的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。请你将两个数相加,并以相同形式返回一个表......
  • 因担心漏洞、数据暴露风险,企业放缓开源软件使用速度
    Anaconda发布了年度2022年数据科学现状报告,揭示了数据科学,机器学习(ML)和人工智能(AI)行业面临的广泛趋势,机遇和感知障碍。虽然开源软件是由开发人员创建的,也是为开发人员创......
  • oracle 数据回滚
    selectto_char(sysdate,'yyyy-mm-ddhh24:mi:ss')fromdual;select*fromt_payment_detail_cjasoftimestampto_timestamp('2022-09-2016:30:12','yyyy-mm-ddhh2......
  • 数据结构
    设计并编程实现一个应用单链表存储结构的通信录管理系统。定义适当数据类型,设计并编写完成下列8项基本功能的C语言程序:[root@huhy~]#cattest.c/*一、功能要求:1.添加......
  • python (),[], {}的含义
    1、python()表示元组,元组是一种不可变序列1)创建如:tuple=(1,2,3)取数据tuple[0]......tuple[0,2].....tuple[1,2]......2)修改元祖:元组是不可修改的3)删除元祖del......
  • webForm 远程连接 MSSQL 数据库
    在配置文件当中,使用密码登录服务器. stringconnStr2="server=101.66.2.210\\WIN-ORJPABRM5O5,1433;uid=sa;pwd=as2020;database=Test(DEV);";//创建SqlConnec......
  • 25. [实例]Python lxml应用
    1.前言本节通过编写一个简单的爬虫程序,进一步熟悉lxml解析库的使用。下面使用lxml库抓取猫眼电影Top100榜(点击访问),编写程序的过程中,注意与《Python爬虫抓取猫眼电......
  • 爬虫实战项目-数据爬取
    1.首先在爬虫之前我们应该理清楚爬虫的步骤(请求数据——获取数据——解析数据——保存数据)其中我认为里面复杂一点的就是解析数据,因为不同的数据我们需要的解析方法可能不......