首页 > 其他分享 >机器学习—无量纲化和降维(四)

机器学习—无量纲化和降维(四)

时间:2024-04-11 12:29:21浏览次数:17  
标签:纲化 方差 特征 data 无量 降维 pd 数据 id

什么是特征预处理?

在这里插入图片描述
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

1包含内容

  • 数值型数据的无量纲化:
    • 归一化
    • 标准化

2特征预处理API

sklearn. preprocessing

为什么要进行归一化 or 标准化?
特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征。

归一化

1定义
通过对原始数据进行变换把数据映射到(默认为[0,1])之间

2公式
在这里插入图片描述

作用于每一列,max为一列的最大值,min为一列的最小值,那么X"为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0

在这里插入图片描述
3API

  • sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)…)
    • MinMaxScalar.fit_transform(X)
      • X:numpy array格式的数据[n_samples,n_features]
    • 返回值:转换后的形状相同的array

4数据计算
我们对以下数据进行运算:

milage,Liters, consumtime,target
40920,8.326976,0.953952,3
14488,7.153469,1.673904,2
26052,1.441871,0.805124,1
75136,13.147394,0.428964,1
38344,1.669788,0.134296,1
  • 分析
    • 1、实例化MinMaxScalar
    • 2、通过fit_transform转换
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

在这里插入图片描述
在这里插入图片描述

问题:如果数据中异常点较多,会有什么影响?
异常值

5归一化总结
注意最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法篆棒性较差,只适合传统精确小数据场景。

标准化

1定义
通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

2公式
在这里插入图片描述

作用于每一列,平均值为mean,标准差为σ

在这里插入图片描述

  • 对于归一化︰如果出现异常点,影响了最大值和最小值,那么结果显然会发生改变
  • 对于标准化:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小。

3API

  • sklearn.preprocessing.StandardScaler()
    • 处理之后,对每列来说,所有数据都聚集在均值为0附近,标准差为1
    • StandardScaler.fit_transform(X)
      • X:numpy array格式的数据[n_samples,n_features]
    • 返回值:转换后的形状相同的array

4数据计算

在这里插入图片描述
在这里插入图片描述

5标准化总结
在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

降维

降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。

此处的降维:降低特征的个数,使特征与特征之间不相关

  • 降低随机变量的个数
    在这里插入图片描述
  • 相关特征(correlated feature)
    • 相对湿度与降雨量之间的相关
    • 等等

正是因为在进行训练的时候,使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大

降维的两种方式

  • 特征选择
  • 主成分分析(可以理解一种特征提取的方式)

特征选择

1定义
数据中包含冗余或相关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征。

2方法

  • Filter(过滤式):主要探究特征本身特点、特征与特征和目标值之间关联
    • 方差选择法:低方差特征过滤
    • 相关系数:特征与特征之间的相关程度
  • Embedded(嵌入式):算法自动选择特征(特征与目标值之间的关联)
    • 决策树:信息嫡、信息增益
    • 正则化:L1、L2
    • 深度学习:卷积等

3模块

sklearn.feature_selection

4过滤式

4.1低方差特征过滤
删除低方差的一些特征,前面讲过方差的意义。再结合方差的大小来考虑这个方式的角度。

  • 特征方差小:某个特征犬多样本的值比较相近
  • 特征方差大:某个特征很多样本的值都有差别

4.1.1API

  • sklearn.feature_selection.VarianceThreshold(threshold = 0.0)
    • 删除所有低方差特征
    • Variance.fit_transform(X)
      • X:numpy array格式的数据[n_samples,n_features]
      • 返回值:训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。

4.1.2数据计算

1、初始化VarianceThreshold,指定阀值方差
2、调用fit_transform

在这里插入图片描述
在这里插入图片描述

transfer = VarianceThreshold(threshold=10)进行限制阈值,过滤不太重要的特征

4.2相关系数

  • 皮尔逊相关系数(Pearson Correlation Coefficient)
    • 反映变量之间相关关系密切程度的统计指标

4.2.1公式
在这里插入图片描述
列题
在这里插入图片描述

4.2.2特点
相关系数的值介于-1与+1之间,即-1 ≤ r ≤ +1。其性质如下:

  • 当 r>0时,表示两变量正相关,r<0时,两变量为负相关
  • 当 |r|=1时,表示两变量为完全相关,当 r=0时,表示两变量间无相关关系
  • 当 0<|r|<1 时,表示两变量存在一定程度的相关。且 |r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱
  • 一般可按三级划分:|r|<0.4为低度相关;0.4≤|r|<0.7为显著性相关;0.7≤lrl<1为高度线性相关

4.2.3API

  • from scipy.stats import pearsonr
  • ×:(N)array_like
  • y :(N,)array_like Returns:(Pearson’s correlation coefficient, p-value)
#计算某两个变量之间的相关系数
r =pearsonr(data["pe_ratio"], data["pb_ratio"])
print("相关系数: \n", r)
r2 = pearsonr(data['revenue'], data['total_expense'])
print("revenue与total_expense之间的相关性:\n",r2)

在这里插入图片描述

我们也可以通过画图来观察结果

import matplotlib.pyplot as plt
plt.figure(figsize=(20,8),dpi=100)
plt.scatter(data['revenue'], data['total_expense '])
plt.show ( )

在这里插入图片描述

若特征与特征之间相关性很高:①选取其中一个②加权求和③主成分分析

主成分分析

  • 定义:高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量。
  • 作用:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息。
  • 应用:回归分析或者聚类分析当中。

1例子
在这里插入图片描述
找到一个合适的直线,通过一个矩阵运算得出主成分分析的结果

在这里插入图片描述

2API

  • sklearn.decomposition.PCA(n_components=None)
    • 将数据分解为较低维数空间
    • n_components:
      • 小数:表示保留百分之多少的信息
      • 整数:减少到多少特征
    • PCA.fit_transform(X)
      • X:numpy array格式的数据[n_samples,n_features]
    • 返回值:转换后指定维度的array

整数:
在这里插入图片描述
在这里插入图片描述
小数:
在这里插入图片描述
在这里插入图片描述

3案例
探究用户对物品类别的喜好细分

用户物品类别
user_idaisle

①需要将user_id和aisle放在同一个表中——合并
②找到user_id和aisle——交叉表和透视表
③特征冗余过多——>PCA降维

import pandas as pd
#1、获取数据
order_products=pd.read_csv("./instacart/order_products_prior.csv")
products=pd.read_csv("./instacart/products.csv")
orders=pd.read_csv("./instacart/orders.csv")
aisles=pd.read_csv("./instacart/aisles.csv")

#2、合并
tab1=pd.merge(aisles,products,on=["aisle_id","aisle_id"])
Lab2=pd.merge(tab1,order_products,on=["product_id","product_id"])
tab3=pd.merge(tab2,orders,on=["order_id","order_id"])

#3、找到user_id和aisle之间的关系
table=pd.crosstab(tab3["user_id"],tab3["aisle"])
data =table[ :10000]#数据过多,取前10000个

#4、PCA降维
from sklearn.decomposition import PCA
#1)实例化一个转换器类
transfer=PCA(n_components=0.95)
#2)调用fit_transform
data_new=transfer.fit_transform(data)

标签:纲化,方差,特征,data,无量,降维,pd,数据,id
From: https://blog.csdn.net/qq_37441377/article/details/137590793

相关文章

  • 鸿蒙生态崛起,人才缺口大!程序员们,换个赛道试试鸿蒙开发,钱途无量!
    前言在当今数字化时代,操作系统不仅是连接硬件和应用软件的桥梁,更是推动技术创新和产业发展的核心力量。华为推出的鸿蒙操作系统(HarmonyOS)凭借其创新的设计理念和技术优势,正在逐步改变这一领域的发展格局,并为程序员们带来了新的职业机遇。鸿蒙发展现状你知道现在有多少应......
  • 降维方法之LASSO
    LASSO(LeastAbsoluteShrinkageandSelectionOperator)是一种流行的特征选择和降维方法,由RobertTibshirani在1996年提出。它是统计学习中的一种方法,用于解决线性回归问题中的变量选择和正则化。LASSO通过在损失函数中添加L1正则化项,使得一些特征的系数变为零,从而实现特征选......
  • 【故障诊断】基于 KPCA 进行降维、故障检测和故障诊断研究(Matlab代码实现)
    ......
  • 爬虫工作量由小到大的思维转变---<第五十四章 Scrapy 降维挖掘---中间件系列(3)>
    前言:继续上一章:https://hsnd-91.blog.csdn.net/article/details/136977606本章主要介绍:UrlLengthMiddleware和DepthMiddleware是Scrapy框架中的关键Spider中间件,自此,爬虫中间件部分,一共5个算是全部介绍完毕!UrlLengthMiddleware的功能主要是设置和限制请求的URL长度......
  • 爬虫工作量由小到大的思维转变---<第五十五章 Scrapy 降维挖掘---中间件系列(4)>
    前言:爬虫中间件的文章:https://hsnd-91.blog.csdn.net/article/details/136977606https://hsnd-91.blog.csdn.net/article/details/136978069讲完了爬虫中间件(5个),现在就应该归类到下载中间件(11个)!下载器中间件的作用和重要性        下载器中间件是Scrapy......
  • 图解二维完全背包问题——降维打击
    例题例题:518.零钱兑换II概述:给你一个整数数组coins表示不同面额的硬币,另给一个整数amount表示总金额。请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额,返回0。假设每一种面额的硬币有无限个。题目数据保证结果符合32位带符号整数。......
  • 爬虫工作量由小到大的思维转变---<第四十九章 Scrapy 降维挖掘---中间件系列(1)>
    前言:        Scrapy是一个功能强大的网络爬虫框架,但在实际应用过程中,中间件问题可能会成为一个令人头痛的难题。为了彻底解决Scrapy中的各种疑难杂症,我决定进行第四次全面的学习和实践,并将中间件的问题一一拆解,以确保我对中间件的理解和掌握更加全面和深入。正文:爬......
  • 主成成分分析(PCA 数据降维)
    在很多场景中需要对多变量数据进行观测,在一定程度上增加了数据采集的工作量。更重要的是:多变量之间可能存在相关性,从而增加了问题分析的复杂性。主成分分析(PrincipalComponentsAnalysis,PCA)是一种使用最广泛的数据降维算法(非监督的机器学习方法)。旨在降低数据的维数,通过保......
  • 机器学习模型—主成分分析 降维魔法
    机器学习模型—主成分分析降维魔法在许多领域的研究与应用中,我们通常需要对含有多个变量的数据进行观测和分析。然而,多变量大数据集不仅增加了数据采集的工作量,还使问题分析变得复杂。此时,主成分分析(PCA)作为一种降维算法,能够帮助我们从高维数据中提取关键信息,减少维度,同时......
  • Python数据降维之PCA主成分分析【附代码】
    目录1、数据降维(1)PCA主成分分析原理介绍1、二维空间降维2、二维空间降维3、n维空间降维(2)PCA主成分分析代码实现1、二维空间降维Python代码实现2、三维空间降维Python代码实现2、案例 -人脸识别模型(1)背景(2)人脸数据读取、处理与变量提取1、读取人脸照片数据2、人......