首页 > 其他分享 >什么是数据分析

什么是数据分析

时间:2024-08-28 12:22:30浏览次数:20  
标签:数据分析 EDA 探索性 数据 什么 data 原始数据

什么是数据分析?


数据分析检查、清理、转换和建模数据,以提取见解并支持决策。作为数据分析师,您的角色包括剖析大量数据集、挖掘隐藏的模式以及将数字转换为可操作的信息。

数据分析流程是怎样的?


数据分析过程是一个结构化的步骤序列,从原始数据到可操作的见解。以下是什么是数据分析的答案:

原始数据收集(raw data collection):从各种来源收集相关数据,确保数据质量和完整性。
数据清理(data cleansing):识别并纠正数据集中的错误、缺失值和不一致。干净的数据对于准确分析至关重要。
探索性数据分析 (EDA):进行初步分析以了解数据的特征、分布和关系。这里经常使用可视化技术。

数据转换:如有必要,通过对分类变量进行编码、缩放特征和处理异常值来准备数据以进行分析。
模型构建:根据目标,应用适当的数据分析方法,例如回归、聚类或深度学习。
模型评估:根据问题类型,使用平均绝对误差、均方根误差等指标评估模型的性能。
解释和可视化:将模型的结果转化为可操作的见解。可视化、表格和摘要统计数据有助于有效地传达调查结果。
现场部署:实施对实际解决方案或策略的见解,确保实施数据驱动的建议。

原始数据收集\rightarrow 数据清理\rightarrow 探索性数据分析 (EDA)\rightarrow数据转换\rightarrow 模型构建\rightarrow 模型评估\rightarrow 解释和可视化\rightarrow 现场部署


接下来将一步一步用代码和图文解释各个流程

原始数据收集(raw data collection)

原始数据(raw data)定义

原始数据,也称为主数据、源数据或原子数据,是直接从源收集和记录的未处理数据,无需任何操作、组织或分析。它可以采用多种形式,包括文本、数字、图像、音频或任何其他数据类型。

文本:这可能是来自书籍、文档、电子邮件等的原始数据。它是非结构化的,需要处理以提取有意义的信息。
数字:数字原始数据可以来自各种来源,如调查、实验等。它可以是定量的或定性的。
图像:图像可以是机器学习、计算机视觉等领域使用的原始数据。它们需要处理以提取特征。
音频:音频数据用于语音识别、音乐信息检索等领域。它是一种需要处理以提取相关信息的原始数据。

简易样例代码的展示

raw_data <- GET(API_URL)

在编译器下原始数据长什么样子

(这只是其中一个小例子)

数据清理(data cleansing)

数据清洗的定义

数据清理涉及发现和解决潜在的数据不一致或错误,以提高数据质量。误差是指任何值(例如,记录的重量)不能反映所测量物体的真实值(例如,实际重量)。

在此过程中,您可以查看、分析、检测、修改或删除“脏”数据,以使您的数据集“干净”。数据清理也称为数据清理或数据清理。

常用R方法清洗数据样本

方法 1:删除具有缺失值的行
library(dplyr)

#remove rows with any missing values
df %>% na.omit()
方法 2:将缺失值替换为其他值
library(dplyr)
library(tidyr)

#replace missing values in each numeric column with median value of column
df %>% mutate(across(where(is.numeric), ~replace_na(., median(., na.rm=TRUE))))
方法 3:删除重复的行
library(dplyr)

df %>% distinct(.keep_all=TRUE)

其余常用方式不在本文中列举

探索性数据分析 (EDA)(exploratory data analysis)

探索性数据分析(EDA)定义

探索性数据分析 (EDA) 是数据科学项目中至关重要的初始步骤。它涉及分析和可视化数据以了解其关键特征、发现模式和识别变量之间的关系,是指研究和探索记录集以理解其主要特征、发现模式、定位异常值和识别变量之间关系的方法。EDA 通常作为进行额外正式统计分析或建模之前的初步步骤进行。

探索性数据分析(EDA)图解

标签:数据分析,EDA,探索性,数据,什么,data,原始数据
From: https://blog.csdn.net/luiscoder/article/details/141622806

相关文章

  • 白帽子和黑客的区别是什么?如何成为一名白客?
    什么是白帽子?白帽子指的是一类计算机安全领域的专业人士,他们利用自己的技术和知识来帮助保护计算机系统和网络的安全,以防止黑客攻击和其他恶意行为。白帽子通常是受聘于企业或组织,通过渗透测试和漏洞分析等手段来发现系统和网络中的漏洞,并提供相关建议和解决方案来加强安全......
  • C++学习随笔——什么是迭代器
    迭代器是C++标准模板库(STL)中用于遍历容器元素的对象或概念。它们提供了一种通用的方式来访问容器中的元素,而不需要了解容器的底层实现。迭代器在设计上类似于指针,但功能更为强大和灵活。 1.迭代器是什么?迭代器是一个抽象概念,它为容器(如vector、list等)提供了一种统......
  • BuildContext 是什么
    在 Flutter 中 BuildContext 可太常见了,不管是 StatelessWidget 还是 StatefulWidget 的 build() 函数参数都会带有 BuildContext,好像随处可见,就像我们的一位老朋友,但似乎又对其知之甚少(熟悉的陌生人),今天我们再来了解一下这位老朋友 BuildContext,看看它在 Flutter ......
  • Kafka Topic 中明明有可拉取的消息,为什么 poll 不到
    开心一刻今天小学女同学给我发消息她:你现在是毕业了吗我:嗯,今年刚毕业她给我发了一张照片,怀里抱着一只大橘猫她:我的眯眯长这么大了,好看吗我:你把猫挪开点,它挡住了,我看不到她:你是sb吗,滚我解释道:你说的是猫呀可消息刚发出,就出现了红色感叹号,并提示:消息已发出,但被对方拒收了kafka......