首页 > 其他分享 >数据清理在数据科学中的重要性

数据清理在数据科学中的重要性

时间:2023-08-09 17:48:13浏览次数:134  
标签:数据分析 错误 删除 重复 清理 重要性 数据

什么是数据清理?

推荐:使用NSDT场景编辑器助你快速搭建可编辑的3D应用场景

在数据科学中,数据清理是识别不正确数据并修复错误的过程,以便最终数据集可供使用。错误可能包括重复字段、格式不正确、字段不完整、数据不相关或不准确以及数据损坏。

数据清理在数据科学中的重要性


在数据科学项目中,清理阶段在数据管道中的验证之前。在管道中,每个阶段引入输入并创建输出,从而改进每一步的数据。数据管道的好处是每个步骤都有特定的用途并且是独立的,这意味着数据经过彻底检查。

数据清理在数据科学中的重要性

数据很少以现成的形式到达;事实上,可以自信地说,数据永远不会完美无缺。当从不同的来源和现实世界的环境中收集数据时,数据必然包含大量错误并采用不同的格式。因此,数据清理的意义就出现了——使数据无错误、相关且易于被模型吸收。

处理来自多个来源的大量数据集时,可能会发生错误,包括重复或错误分类。这些错误极大地影响了算法的准确性。值得注意的是,数据清理和组织可能会消耗数据科学家 80% 的时间,这凸显了其在数据管道中的关键作用。

数据清理示例

下面是数据清理如何修复数据集中的错误的三个示例。

数据格式化

数据格式设置涉及将数据转换为特定格式或修改数据集的结构。确保一致性和结构良好的数据集对于避免数据分析过程中的错误至关重要。因此,在清洁过程中采用各种技术是必要的,以保证准确的数据格式。这可能包括将分类数据转换为数值,并将多个数据源合并为一个统一的数据集。

空值/缺失值

数据清理技术在解决数据问题(如缺失值或空值)方面起着至关重要的作用。这些技术涉及使用相关信息估计和填补数据集中的空白。

例如,考虑位置字段。如果字段为空,科学家可以使用数据集或类似数据集中的平均位置数据填充该字段。虽然不是完美无缺的,但拥有最可能的位置比根本没有位置信息更可取。这种方法可确保提高数据质量并增强数据集的整体可靠性。

识别异常值

在数据集中,某些数据点可能与其他数据点缺乏任何实质性联系(例如,在价值或行为方面)。因此,在数据分析过程中,这些异常值具有显着扭曲结果的能力,导致误导的预测和有缺陷的决策。但是,通过实施各种数据清理技术,可以识别和消除这些异常值,最终确保数据集的完整性和相关性。

数据清理在数据科学中的重要性


数据清理的好处

数据清理提供了一系列好处,这些好处对数据的准确性、相关性、可用性和分析有重大影响。

  • 准确性 - 使用数据清理工具和技术可显著减少数据集中包含的错误和不准确性。这对于数据分析非常重要,有助于创建做出准确预测的模型。
  • 可用性 - 一旦清理并正确格式化,数据就可以应用于许多用例,使其更易于访问,因此可以在一系列项目类型中使用。
  • 分析 - 干净的数据使分析阶段更加有效,使分析师能够获得更深入的见解并提供更可靠的结果。
  • 高效的数据存储 - 通过删除不必要和重复的数据,存储成本得以降低,因为只需要保留相关的、有价值的数据,无论是在现场服务器还是云数据仓库上。
  • 治理 - 数据清理可以帮助组织遵守严格的法规和数据治理,保护个人隐私并避免任何处罚。最近几个月颁布了更多的数据合规法律。一个例子是最近的德克萨斯州消费者隐私法(TDPSA),该法禁止某些数据做法,例如收集出于收集目的而不合理必要的个人客户数据。

数据清理过程:8 个步骤

数据管道的数据清理阶段由八个常见步骤组成:

  • 删除重复项
  • 删除不相关的数据
  • 资本化的标准化
  • 数据类型转换
  • 异常值的处理
  • 错误的修复
  • 语言翻译
  • 任何缺失值的处理

1. 删除重复项

利用多个数据源的大型数据集极有可能出现错误,包括重复项,尤其是在新条目未经过质量检查时。重复数据是冗余的,会占用不必要的存储空间,因此需要进行数据清理以提高效率。重复数据的常见实例包括重复的电子邮件地址和电话号码。

2. 删除不相关的数据

要优化数据集,删除不相关的数据字段至关重要。这将导致更快的模型处理,并实现更集中的方法来实现特定目标。在数据清理阶段,任何与项目范围不一致的数据都将被删除,仅保留完成任务所需的必要信息。

3. 资本化的标准化

标准化数据集中的文本对于确保一致性和促进轻松分析至关重要。更正大小写尤其重要,因为它可以防止创建可能导致混乱和混乱数据的虚假类别。

4. 数据类型转换

当使用Python处理CSV数据时,分析师通常依赖Pandas,这是首选的数据分析库。但是,在某些情况下,Pandas 在有效处理数据类型方面存在不足。为了保证准确的数据转换,分析人员采用清洁技术。这可确保在应用于实际项目时可以轻松识别正确的数据。

5. 异常值的处理

异常值是与其他点缺乏相关性的数据点,与数据集的整体上下文有很大偏差。虽然异常值偶尔可以提供有趣的见解,但它们通常被视为应删除的错误。

6. 错误的修复

确保模型的有效性至关重要,在数据分析阶段之前纠正错误至关重要。此类错误通常是由于没有适当检查程序的手动数据输入造成的。示例包括数字不正确的电话号码、没有“@”符号的电子邮件地址或未标点的用户反馈。

7. 语言翻译

数据集可以从以不同语言编写的各种来源收集。但是,当使用此类数据进行机器翻译时,评估工具通常依赖于单语自然语言处理(NLP)模型,该模型一次只能处理一种语言。值得庆幸的是,在数据清理阶段,人工智能工具可以通过将所有数据转换为统一的语言来拯救。这确保了整个翻译过程中更大的一致性和兼容性。

8. 任何缺失值的处理

数据清理的最后步骤之一是解决缺失值。这可以通过删除具有缺失值的记录或采用统计技术来填补空白来实现。全面了解数据集对于做出这些决策至关重要。

总结

数据清理在数据科学中的重要性永远不能被低估,因为它可以显着影响数据模型的准确性和整体成功。通过彻底的数据清理,数据分析阶段可能会输出有缺陷的结果和不正确的预测。

在数据清理阶段需要纠正的常见错误是重复数据、缺失值、不相关的数据、异常值以及将多种数据类型或语言转换为单一形式。

原文链接:数据清理在数据科学中的重要性 (mvrlink.com)

标签:数据分析,错误,删除,重复,清理,重要性,数据
From: https://www.cnblogs.com/mvrlink/p/17617505.html

相关文章

  • CDC 数据复制:技术、权衡、见解
    推荐:使用NSDT场景编辑器助你快速搭建可编辑的3D应用场景在本文中,我将定义CDC数据复制,简要讨论最常见的用例,然后讨论常见技术及其权衡。最后,我将提供一些我作为数据集成公司Dataddo的首席执行官和创始人所学到的一般实现见解。什么是变更数据捕获(CDC)数据复制?CDC数据复制是......
  • 【校招VIP】java语言考点之基本数据类型
    考点介绍:基本数据类型的长度、自动升级、JVM存储和封装类的相关考点,是校招常见考点。基础考点不能出错一、考点题目1、JAVA中的几种基本数据类型是什么,各自占用多少字节解答:先了解2个单词先:1、bit--位:位是计算机中......2、byte--字节:字节是......2、JAVA是不是完全的面向......
  • 面向数据科学家和分析师的统计基础
    推荐:使用NSDT场景编辑器助你快速搭建可编辑的3D应用场景“统计学是科学的语法。卡尔·皮尔逊统计学在数据科学和数据分析中的重要性不容低估。统计提供了查找结构和提供更深入数据见解的工具和方法。统计学和数学都喜欢事实,讨厌猜测。了解这两个重要主题的基础知识将使您能够批......
  • 利用 3D 地理空间数据实现Cesium的沉浸式环境
    推荐:使用NSDT场景编辑器助你快速搭建可编辑的3D应用场景为了将大量异构3D地理空间数据处理和分散到各行各业的地理空间应用程序和运行时引擎,Cesium创建了3DTiles,这是一种用于高效流式传输和渲染大量异构数据集的开放标准。3DTiles是一种可流式传输的优化格式,旨在支持最苛刻......
  • Modbus通信协议实践(1)-通过modbusRTU实现TPC7022kt对电流表数据的读取
    需求:1.昆仑通泰TPC7022kt触摸屏2.安装了MCGSpro的PC一台3.能使用RS485通讯协议的数显直流电流表一个 操作步骤:1.以常规1mm电线和双绞线连接电流表和昆仑通泰触摸屏,网线连接触摸屏和pc。2.根据数显直流表的说明书,设置该表的通讯地址为01,波特率为9600,N81无校验位,8个数据位,1......
  • 前端shp文件写到本地时,原生的shp-write存在的不能写入多条数据及中文乱码问题
    shp-write·Doraemon22333/前端-码云-开源中国(gitee.com)参考(1)https://github.com/hwbllmnn/shp-write/tree/maintenance(2)https://blog.csdn.net/qq_37748236/article/details/131804606......
  • whistle修改接口返回步骤(只影响前端展示,不会插入数据到数据库)
    一、安装node、whistle安装教程:http://wproxy.org/whistle/install.html二、抓包/修改接口返回手机端抓包/修改接口返回步骤与web端类似。Web端抓包/修改接口返回1、下载证书启动whistle:在控制台中输入w2start即可启动whistle。点击whistle页面菜单中的HTTPS,点击二维码,即可下载......
  • MRS大企业ERP流程实时数据湖加工最佳实践
    本文分享自华为云社区《MRS大企业ERP流程实时数据湖加工最佳实践》,作者:晋红轻。本文将以ERP流程实践为例介绍MRS实时数据湖方案的演进案例实践需求解析:业务描述AE表:会计分录表,主要记录财务相关信息,可用于成本核算等业务计算。为业务最主要的表,称驱动表。四通道表:实际为四个......
  • 在使用时序数据库 TDengine 进行 SQL 查询时,这些问题需要注意
    小T导读:尽管时序数据处理的特点是以写操作为主,读操作为辅,但查询需求也不容忽视。为方便用户上手,时序数据库(TimeSeriesDatabase)TDengine 采用SQL作为查询语言,主要查询功能包括单列及多列数据查询、数值列及聚合结果的四则运算、时间戳对齐的连接查询操作等,本文将就部分查询......
  • Django博客开发教程:使用富文本编辑器添加数据
    在Djangoadmin后台添加数据的时候,文章内容文本框想发布一篇图文并茂的文章需就得手写Html代码,这十分吃力,也没法上传图片和文件。这显然不是我等高大上程序猿想要的。为提升效率,我们可以使用富文本编辑器添加数据。支持Django的富文本编辑器很多,这里我推荐使用DjangoUeditor,Uedi......