首页 > 其他分享 >什么是数据分析

什么是数据分析

时间:2024-08-28 12:22:30浏览次数:6  
标签:数据分析 EDA 探索性 数据 什么 data 原始数据

什么是数据分析?


数据分析检查、清理、转换和建模数据,以提取见解并支持决策。作为数据分析师,您的角色包括剖析大量数据集、挖掘隐藏的模式以及将数字转换为可操作的信息。

数据分析流程是怎样的?


数据分析过程是一个结构化的步骤序列,从原始数据到可操作的见解。以下是什么是数据分析的答案:

原始数据收集(raw data collection):从各种来源收集相关数据,确保数据质量和完整性。
数据清理(data cleansing):识别并纠正数据集中的错误、缺失值和不一致。干净的数据对于准确分析至关重要。
探索性数据分析 (EDA):进行初步分析以了解数据的特征、分布和关系。这里经常使用可视化技术。

数据转换:如有必要,通过对分类变量进行编码、缩放特征和处理异常值来准备数据以进行分析。
模型构建:根据目标,应用适当的数据分析方法,例如回归、聚类或深度学习。
模型评估:根据问题类型,使用平均绝对误差、均方根误差等指标评估模型的性能。
解释和可视化:将模型的结果转化为可操作的见解。可视化、表格和摘要统计数据有助于有效地传达调查结果。
现场部署:实施对实际解决方案或策略的见解,确保实施数据驱动的建议。

原始数据收集\rightarrow 数据清理\rightarrow 探索性数据分析 (EDA)\rightarrow数据转换\rightarrow 模型构建\rightarrow 模型评估\rightarrow 解释和可视化\rightarrow 现场部署


接下来将一步一步用代码和图文解释各个流程

原始数据收集(raw data collection)

原始数据(raw data)定义

原始数据,也称为主数据、源数据或原子数据,是直接从源收集和记录的未处理数据,无需任何操作、组织或分析。它可以采用多种形式,包括文本、数字、图像、音频或任何其他数据类型。

文本:这可能是来自书籍、文档、电子邮件等的原始数据。它是非结构化的,需要处理以提取有意义的信息。
数字:数字原始数据可以来自各种来源,如调查、实验等。它可以是定量的或定性的。
图像:图像可以是机器学习、计算机视觉等领域使用的原始数据。它们需要处理以提取特征。
音频:音频数据用于语音识别、音乐信息检索等领域。它是一种需要处理以提取相关信息的原始数据。

简易样例代码的展示

raw_data <- GET(API_URL)

在编译器下原始数据长什么样子

(这只是其中一个小例子)

数据清理(data cleansing)

数据清洗的定义

数据清理涉及发现和解决潜在的数据不一致或错误,以提高数据质量。误差是指任何值(例如,记录的重量)不能反映所测量物体的真实值(例如,实际重量)。

在此过程中,您可以查看、分析、检测、修改或删除“脏”数据,以使您的数据集“干净”。数据清理也称为数据清理或数据清理。

常用R方法清洗数据样本

方法 1:删除具有缺失值的行
library(dplyr)

#remove rows with any missing values
df %>% na.omit()
方法 2:将缺失值替换为其他值
library(dplyr)
library(tidyr)

#replace missing values in each numeric column with median value of column
df %>% mutate(across(where(is.numeric), ~replace_na(., median(., na.rm=TRUE))))
方法 3:删除重复的行
library(dplyr)

df %>% distinct(.keep_all=TRUE)

其余常用方式不在本文中列举

探索性数据分析 (EDA)(exploratory data analysis)

探索性数据分析(EDA)定义

探索性数据分析 (EDA) 是数据科学项目中至关重要的初始步骤。它涉及分析和可视化数据以了解其关键特征、发现模式和识别变量之间的关系,是指研究和探索记录集以理解其主要特征、发现模式、定位异常值和识别变量之间关系的方法。EDA 通常作为进行额外正式统计分析或建模之前的初步步骤进行。

探索性数据分析(EDA)图解

标签:数据分析,EDA,探索性,数据,什么,data,原始数据
From: https://blog.csdn.net/luiscoder/article/details/141622806

相关文章

  • 电商API接口能解决什么问题?
    电商API接口能帮您解决多种与电商业务相关的问题,主要包括:商品信息获取:获取商品的详细信息,包括价格、库存、规格、描述、图片等。订单管理:创建、查询、修改订单,处理订单状态,包括发货、取消、退货等。库存管理:实时更新库存信息,确保库存数据的准确性。用户管理:获取用户信息,管理用......
  • 面试官:Kafka中的key有什么用?
    我们在使用Kafka时,最简单、最常用的方式是只设置topic(主题)和value(消息体),如下所示:这样的话获取消息的代码也很简单,如下所示:@KafkaListener(topics="mytopic",groupId="my-group")publicvoidlisten(Stringdata){System.out.println("监听到消息:"+data);}......
  • 白帽子和黑客的区别是什么?如何成为一名白客?
    什么是白帽子?白帽子指的是一类计算机安全领域的专业人士,他们利用自己的技术和知识来帮助保护计算机系统和网络的安全,以防止黑客攻击和其他恶意行为。白帽子通常是受聘于企业或组织,通过渗透测试和漏洞分析等手段来发现系统和网络中的漏洞,并提供相关建议和解决方案来加强安全......
  • 为什么我们需要收集URL?
    原创M09icChainReactorNextGenerationHTTPDir/FileFuzzTool:https://github.com/chainreactors/sprayFastpassiveURLenumerationTool:https://github.com/chainreactors/urlfounder为什么我们需要收集URL?这个问题似乎在最基础的安全岗面试中都不太可能出现,但......
  • C++学习随笔——什么是迭代器
    迭代器是C++标准模板库(STL)中用于遍历容器元素的对象或概念。它们提供了一种通用的方式来访问容器中的元素,而不需要了解容器的底层实现。迭代器在设计上类似于指针,但功能更为强大和灵活。 1.迭代器是什么?迭代器是一个抽象概念,它为容器(如vector、list等)提供了一种统......
  • BuildContext 是什么
    在 Flutter 中 BuildContext 可太常见了,不管是 StatelessWidget 还是 StatefulWidget 的 build() 函数参数都会带有 BuildContext,好像随处可见,就像我们的一位老朋友,但似乎又对其知之甚少(熟悉的陌生人),今天我们再来了解一下这位老朋友 BuildContext,看看它在 Flutter ......
  • 文献翻译什么软件好?推荐5个文献翻译软件给你
    在学术研究的海洋中,文献翻译无疑是探索知识宝库的一把钥匙。面对海量的外文资料,不少学者和研究人员都渴望拥有一款既精准又便捷的翻译工具。然而市场上,虽然翻译软件众多,但真正免费且高效的却屈指可数。今天,就让我们一起探讨文献翻译软件推荐免费有哪些吧,让它们帮助我们快速跨......
  • Kafka Topic 中明明有可拉取的消息,为什么 poll 不到
    开心一刻今天小学女同学给我发消息她:你现在是毕业了吗我:嗯,今年刚毕业她给我发了一张照片,怀里抱着一只大橘猫她:我的眯眯长这么大了,好看吗我:你把猫挪开点,它挡住了,我看不到她:你是sb吗,滚我解释道:你说的是猫呀可消息刚发出,就出现了红色感叹号,并提示:消息已发出,但被对方拒收了kafka......
  • 数据分析1
     数据分析:是把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律数据分析三剑客:Numpy,Pandas,MatplotlibNumPy(NumericalPython)是Python语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库......
  • 模拟版图设计工程师要学些什么?从入门到入行,你想知道的都在这里了
    IC模拟版图设计是门槛最低的IC设计方向,最低专科学历即可,其他IC设计大多要求本科以上,研究生学历,0基础小白经过几个月的学习也可以入行。那么,待遇还不低的模拟版图设计工程师入行都要学一些什么?下面我们来聊一聊 版图学习最好有一些工艺的基础,了解MOS的基本工作原理,比如PN结......