数据清理

缺失值处理

常见方法分为三类：数据删除，数据插补，不处理

数据插补：最为常见的是数据插补。

插补方法
取均值/中位数/众数插补
使用固定值（政府等发布的可信数值）
最近邻插补（根据相近数值取平均或者时间序列预测缺失数据）
回归分析（工作量大）
插值法（高端，可以使用）

数据删除：删除即将含有缺失部分的数据整条删除。
不处理：某些算法会将缺失值作为特征考虑

异常值处理

异常值确定方法：

正态分布方法：平均值$\pm 3\sigma$范围内的是正常值
箱型图法：确定上四分位数和下四分位数.

$Let\ \ IQR=上四分位数-下四分位数$

正常数据的范围是：$(下四分位数-1.5*IQR , 上四分位数+1.5*IQR).$

函数plotbox : 用箱线图可视化摘要统计量 - MATLAB boxplot - MathWorks 中国

主成分分析

主成分分析 (PCA) - MATLAB & Simulink - MathWorks 中国

构建相关系数矩阵或协方差矩阵

两个变量的协方差$cov(x,y)=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$

协方差矩阵$C= \begin{bmatrix} cov(x,x) & cov(x,y) \\ cov(x,y) & cov(y,y) \end{bmatrix}$
再求协方差矩阵的特征向量、特征值。
每一个新变量就是用对应的特征向量乘旧变量构成的向量。

例如对矩阵C，$Z_1=\vec{v}\cdot \vec x$ .
得到了新变量后，可以按特征值占比大小给变量排序，让后累加取到>85%时的新变量，其它变量剔除，从而实现降维。

每个特征向量特征值占比：$\frac{\lambda_i}{\sum\lambda}$

如果，前三个新变量的占比总和>85%则就取前三个变量分析。

Matlab求特征值占比比例

data =  %数据读入
data = zscore(data);%数据标准化很重要
CorrCoefMatrix = corrcoef(data);%matlab自带函数计算相关系数矩阵，列表示随机变量，行表示观测值
[coeff latent explained] = pcacov(CorrCoefMatrix)
%coeff: 特征向量(注意与pca函数的变量score进行区分）.
%latent: 特征值.
%explained：每个特征值占比，字面上即每个特征值对系统有多少解释，用百分比表示。explained=100*latent/sum(latent);

主成分分析降维

如果数据的维数过高可以用主成分分析降维。

原始数据的主成分分析 - MATLAB pca - MathWorks 中国

data_1 = pca(data);

TSNE降维

data_1 = tsne(data,'NumDimensions','2');%TSNE降维

标签：特征值,变量,cov,数据,插补,data,预处理
From： https://www.cnblogs.com/cxy1114blog/p/18459121

数据结构：快排
注：所有的快排针对无重复大量数据是很快的，但是针对有重复大量数据的排序是很慢的；1.霍尔(hoare)版本时间复杂度:O（N*logN）稳定性：不稳定；在fun()函数while判断时一不小心就会存在越界和和死循环问题；霍尔版本的快排，代码如下：主要实现再func()和quick()函数中intfunc(intarr[],in......
使用DrissionPage自动化抓取Boss直聘网站数据
简介在大数据时代，信息的获取和处理变得越来越重要。对于求职者而言，能够快速准确地获取招聘信息是至关重要的。本文将介绍如何使用DrissionPage库来自动化浏览并抓取招聘网站上的职位信息。我们将以Boss直聘为例，展示如何抓取与Python爬虫工程师相关的职位列表。准备工作在......
【Flink】基于 Flink 的流式数据实时去重
【Flink】基于Flink的流式数据实时去重-腾讯云开发者社区-腾讯云https://cloud.tencent.com/developer/article/1707045我们不能将状态仅交由内存管理，因为内存的容量是有限制的，当状态数据稍微大一些时，就会出现内存不够的问题。由于Flink本身提供了有状态的计算，并且封装了一......
07-数据表创建方式（Database First、Model First、Code First）
常见的创建数据表结构的三种方式:DatabaseFirstModelFirst DBA经常使用这个方式CodeFirst 推荐程序员使用,此方法专注于业务模型的设计,而不是专注数据库设计 Flask-SQLAlchemy介绍SQLALchemy实际上是对数据库的抽象，让开发者不用直接和SQL语句打交道，而是......
闪迪U盘误删的数据该怎么恢复呢？3个方法轻松解决
闪迪是一家全球知名的美国公司，也是全球最大的闪存数据存储卡产品供应商，其中，闪迪U盘作为其主要产品之一，因其便携性、大容量和高速传输能力而深受用户喜爱。然而，在平时存储重要数据的时候，会因为我们一系列误删等原因，导致原本存储好好地数据出现丢失的问题。那么，闪迪U盘误删的数据......
基于yolov8、yolov5的果蔬检测系统（含UI界面、数据集、训练好的模型、Python代码）
项目介绍项目中所用到的算法模型和数据集等信息如下：算法模型： yolov8、yolov8+SE注意力机制或yolov5、yolov5+SE注意力机制，直接提供最少两个训练好的模型。模型十分重要，因为有些同学的电脑没有GPU，无法自行训练。数据集：网上下载的数据集，格式都已......
【数据结构】深度解析堆排序
目录......
数据仓库题库（附答案）
Q1||数据仓库的主要功能是什么？答：数据仓库主要用于存储历史数据，并支持复杂的查询和分析操作，帮助企业做出更明智的决策。 Q2||什么是ETL过程？答：ETL代表Extract（抽取）、Transform（转换）和Load（加载）。它是指从源系统中提取数据，对其进行清洗和格式化，然后加载到目标数据库的......
datatables使用ajax获取数据
前端：//初始化datatablevartable3=$('.jiaoshi_lst').DataTable({"processing":true,"serverSide":true,"paging":true,"ordering":false,"searching":false......
自动化分析背后，一站式数据分析平台！
自动化分析背后，一站式数据分析平台！前言一站式数据分析平台前言在如今的企业管理中，数据已经不再是简单的存储和备份，而是成为了决策的核心驱动力。尤其是在面对海量数据的情况下，企业急需一个能够高效处理、分析、整合和呈现数据的工具。而这正是一站式数据分析平台应......

数据预处理

数据清理

缺失值处理

异常值处理

主成分分析

主成分分析降维

TSNE降维

相关文章

赞助商

阅读排行