什么是数据分析?
数据分析检查、清理、转换和建模数据,以提取见解并支持决策。作为数据分析师,您的角色包括剖析大量数据集、挖掘隐藏的模式以及将数字转换为可操作的信息。
数据分析流程是怎样的?
数据分析过程是一个结构化的步骤序列,从原始数据到可操作的见解。以下是什么是数据分析的答案:
原始数据收集(raw data collection):从各种来源收集相关数据,确保数据质量和完整性。
数据清理(data cleansing):识别并纠正数据集中的错误、缺失值和不一致。干净的数据对于准确分析至关重要。
探索性数据分析 (EDA):进行初步分析以了解数据的特征、分布和关系。这里经常使用可视化技术。
数据转换:如有必要,通过对分类变量进行编码、缩放特征和处理异常值来准备数据以进行分析。
模型构建:根据目标,应用适当的数据分析方法,例如回归、聚类或深度学习。
模型评估:根据问题类型,使用平均绝对误差、均方根误差等指标评估模型的性能。
解释和可视化:将模型的结果转化为可操作的见解。可视化、表格和摘要统计数据有助于有效地传达调查结果。
现场部署:实施对实际解决方案或策略的见解,确保实施数据驱动的建议。
原始数据收集 数据清理 探索性数据分析 (EDA)数据转换 模型构建 模型评估 解释和可视化 现场部署
接下来将一步一步用代码和图文解释各个流程
原始数据收集(raw data collection)
原始数据(raw data)定义
原始数据,也称为主数据、源数据或原子数据,是直接从源收集和记录的未处理数据,无需任何操作、组织或分析。它可以采用多种形式,包括文本、数字、图像、音频或任何其他数据类型。
文本:这可能是来自书籍、文档、电子邮件等的原始数据。它是非结构化的,需要处理以提取有意义的信息。
数字:数字原始数据可以来自各种来源,如调查、实验等。它可以是定量的或定性的。
图像:图像可以是机器学习、计算机视觉等领域使用的原始数据。它们需要处理以提取特征。
音频:音频数据用于语音识别、音乐信息检索等领域。它是一种需要处理以提取相关信息的原始数据。
简易样例代码的展示
raw_data <- GET(API_URL)
在编译器下原始数据长什么样子
(这只是其中一个小例子)
数据清理(data cleansing)
数据清洗的定义
数据清理涉及发现和解决潜在的数据不一致或错误,以提高数据质量。误差是指任何值(例如,记录的重量)不能反映所测量物体的真实值(例如,实际重量)。
在此过程中,您可以查看、分析、检测、修改或删除“脏”数据,以使您的数据集“干净”。数据清理也称为数据清理或数据清理。
常用R方法清洗数据样本
方法 1:删除具有缺失值的行
library(dplyr)
#remove rows with any missing values
df %>% na.omit()
方法 2:将缺失值替换为其他值
library(dplyr)
library(tidyr)
#replace missing values in each numeric column with median value of column
df %>% mutate(across(where(is.numeric), ~replace_na(., median(., na.rm=TRUE))))
方法 3:删除重复的行
library(dplyr)
df %>% distinct(.keep_all=TRUE)
其余常用方式不在本文中列举
探索性数据分析 (EDA)(exploratory data analysis)
探索性数据分析(EDA)定义
探索性数据分析 (EDA) 是数据科学项目中至关重要的初始步骤。它涉及分析和可视化数据以了解其关键特征、发现模式和识别变量之间的关系,是指研究和探索记录集以理解其主要特征、发现模式、定位异常值和识别变量之间关系的方法。EDA 通常作为进行额外正式统计分析或建模之前的初步步骤进行。
探索性数据分析(EDA)图解
标签:数据分析,EDA,探索性,数据,什么,data,原始数据 From: https://blog.csdn.net/luiscoder/article/details/141622806