首页 > 其他分享 >数据预处理

数据预处理

时间:2024-10-11 19:33:20浏览次数:1  
标签:特征值 变量 cov 数据 插补 data 预处理

数据清理

缺失值处理

常见方法分为三类:数据删除,数据插补,不处理

  1. 数据插补:最为常见的是数据插补。
插补方法
取均值/中位数/众数插补
使用固定值(政府等发布的可信数值)
最近邻插补(根据相近数值取平均或者时间序列预测缺失数据)
回归分析(工作量大)
插值法(高端,可以使用)
  1. 数据删除:删除即将含有缺失部分的数据整条删除。
  2. 不处理:某些算法会将缺失值作为特征考虑

异常值处理

异常值确定方法:

  1. 正态分布方法:平均值\(\pm 3\sigma\)范围内的是正常值

  2. 箱型图法:确定上四分位数下四分位数.

    \(Let\ \ IQR=上四分位数-下四分位数\)

    正常数据的范围是:\((下四分位数-1.5*IQR , 上四分位数+1.5*IQR).\)

    函数plotbox : 用箱线图可视化摘要统计量 - MATLAB boxplot - MathWorks 中国

主成分分析

主成分分析 (PCA) - MATLAB & Simulink - MathWorks 中国

  1. 构建相关系数矩阵或协方差矩阵

    两个变量的协方差\(cov(x,y)=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}\)

    协方差矩阵\(C= \begin{bmatrix} cov(x,x) & cov(x,y) \\ cov(x,y) & cov(y,y) \end{bmatrix}\)

  2. 再求协方差矩阵的特征向量、特征值。

  3. 每一个新变量就是用对应的特征向量乘旧变量构成的向量。

    例如对矩阵C,\(Z_1=\vec{v}\cdot \vec x\) .

  4. 得到了新变量后,可以按特征值占比大小给变量排序,让后累加取到>85%时的新变量,其它变量剔除,从而实现降维。

    每个特征向量特征值占比:\(\frac{\lambda_i}{\sum\lambda}\)

    如果,前三个新变量的占比总和>85%则就取前三个变量分析。

Matlab求特征值占比比例

data =  %数据读入
data = zscore(data);%数据标准化很重要
CorrCoefMatrix = corrcoef(data);%matlab自带函数计算相关系数矩阵,列表示随机变量,行表示观测值
[coeff latent explained] = pcacov(CorrCoefMatrix)
%coeff: 特征向量(注意与pca函数的变量score进行区分).
%latent: 特征值.
%explained:每个特征值占比,字面上即每个特征值对系统有多少解释,用百分比表示。explained=100*latent/sum(latent);

主成分分析降维

如果数据的维数过高可以用主成分分析降维。

原始数据的主成分分析 - MATLAB pca - MathWorks 中国

data_1 = pca(data);

TSNE降维

data_1 = tsne(data,'NumDimensions','2');%TSNE降维

标签:特征值,变量,cov,数据,插补,data,预处理
From: https://www.cnblogs.com/cxy1114blog/p/18459121

相关文章

  • 数据结构:快排
    注:所有的快排针对无重复大量数据是很快的,但是针对有重复大量数据的排序是很慢的;1.霍尔(hoare)版本时间复杂度:O(N*logN)稳定性:不稳定;在fun()函数while判断时一不小心就会存在越界和和死循环问题;霍尔版本的快排,代码如下:主要实现再func()和quick()函数中intfunc(intarr[],in......
  • 使用DrissionPage自动化抓取Boss直聘网站数据
    简介在大数据时代,信息的获取和处理变得越来越重要。对于求职者而言,能够快速准确地获取招聘信息是至关重要的。本文将介绍如何使用DrissionPage库来自动化浏览并抓取招聘网站上的职位信息。我们将以Boss直聘为例,展示如何抓取与Python爬虫工程师相关的职位列表。准备工作在......
  • 【Flink】基于 Flink 的流式数据实时去重
    【Flink】基于Flink的流式数据实时去重-腾讯云开发者社区-腾讯云https://cloud.tencent.com/developer/article/1707045我们不能将状态仅交由内存管理,因为内存的容量是有限制的,当状态数据稍微大一些时,就会出现内存不够的问题。由于Flink本身提供了有状态的计算,并且封装了一......
  • 07-数据表创建方式(Database First、Model First、Code First)
    常见的创建数据表结构的三种方式:DatabaseFirstModelFirst  DBA经常使用这个方式CodeFirst   推荐程序员使用,此方法专注于业务模型的设计,而不是专注数据库设计 Flask-SQLAlchemy介绍SQLALchemy实际上是对数据库的抽象,让开发者不用直接和SQL语句打交道,而是......
  • 闪迪U盘误删的数据该怎么恢复呢?3个方法轻松解决
    闪迪是一家全球知名的美国公司,也是全球最大的闪存数据存储卡产品供应商,其中,闪迪U盘作为其主要产品之一,因其便携性、大容量和高速传输能力而深受用户喜爱。然而,在平时存储重要数据的时候,会因为我们一系列误删等原因,导致原本存储好好地数据出现丢失的问题。那么,闪迪U盘误删的数据......
  • 基于yolov8、yolov5的果蔬检测系统(含UI界面、数据集、训练好的模型、Python代码)
    项目介绍项目中所用到的算法模型和数据集等信息如下:算法模型:  yolov8、yolov8+SE注意力机制或yolov5、yolov5+SE注意力机制,直接提供最少两个训练好的模型。模型十分重要,因为有些同学的电脑没有GPU,无法自行训练。数据集:  网上下载的数据集,格式都已......
  • 【数据结构】深度解析堆排序
    目录......
  • 数据仓库题库(附答案)
      Q1||数据仓库的主要功能是什么?答:数据仓库主要用于存储历史数据,并支持复杂的查询和分析操作,帮助企业做出更明智的决策。 Q2||什么是ETL过程?答:ETL代表Extract(抽取)、Transform(转换)和Load(加载)。它是指从源系统中提取数据,对其进行清洗和格式化,然后加载到目标数据库的......
  • datatables使用ajax获取数据
    前端://初始化datatablevartable3=$('.jiaoshi_lst').DataTable({"processing":true,"serverSide":true,"paging":true,"ordering":false,"searching":false......
  • 自动化分析背后,一站式数据分析平台!
    自动化分析背后,一站式数据分析平台!前言一站式数据分析平台前言在如今的企业管理中,数据已经不再是简单的存储和备份,而是成为了决策的核心驱动力。尤其是在面对海量数据的情况下,企业急需一个能够高效处理、分析、整合和呈现数据的工具。而这正是一站式数据分析平台应......