首页 > 其他分享 >《机器学习》—— PCA降维

《机器学习》—— PCA降维

时间:2024-09-05 22:51:48浏览次数:11  
标签:PCA 机器 降维 train test pca 数据

文章目录

一、PCA降维简单介绍

  • PCA(主成分分析,Principal Component Analysis)是一种常用的数据降维技术。
  • 它通过线性变换将原始数据转换到新的坐标系统中,使得任何投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依此类推。
  • PCA的主要目的是通过保留数据集中对方差贡献最大的特征来降低数据的维度,同时尽可能保留原始数据的信息。
  • PCA降维的步骤
    • 1、标准化数据
      由于PCA对数据的尺度非常敏感,因此在进行PCA之前,通常需要先将数据标准化(也称为归一化),即每个特征减去其均值并除以其标准差,使得每个特征的均值为0,方差为1。
    • 2、计算协方差矩阵
      协方差矩阵衡量的是数据集中各个特征之间的相关性。对于n维数据,其协方差矩阵是一个n×n的矩阵,其中每个元素C ij是第i个特征和第j个特征的协方差。
    • 3、计算协方差矩阵的特征值和特征向量
      特征值表示了每个主成分在数据集中的方差贡献率,而特征向量则定义了新的坐标轴的方向。
    • 4、选择主成分
      根据特征值的大小,选择前k个最大的特征值对应的特征向量。这些特征向量将构成新的特征空间,其中k是降维后的维度数。
    • 5、将原始数据投影到新的特征空间
      使用选定的特征向量作为基,将原始数据投影到新的特征空间,得到降维后的数据。

二、python中实现PCA降维函数的介绍

  • 在Python中,使用scikit-learn库来进行PCA分析,其中PCA是通过PCA类来实现的

  • PCA类有以下参数(默认值)

    PCA(n_components=None, copy=True, whiten=False, 
    	svd_solver=’auto’, tol=0.0, 
    	iterated_power=’auto’, random_state=None)
    
  • 重要参数的介绍:

  • n_components:这个参数可以帮我们指定希望PCA降维后的特征维度数目。

    • 如果为整数,表示要降维到的目标,比如十维的数据,指定n_components=5,表示将十维数据降维到五维;
    • 如果为小数,表示累计方差百分比。
  • copy : bool类型,True或者False,缺省时默认为True。 表示是否在运行算法时,将原始训练数据复制一份。

    • 若为True,则运行PCA算法后,原始训练数据的值不会有任何改变,因为是在原始数据的副本上进行运算;
    • 若为False,则运行PCA算法后,原始训练数据的值会改,因为是在原始数据上进行降维计算。
  • whiten:判断是否进行白化。

    • 所谓白化,就是对降维后的数据的每个特征进行归一化,让方差都为1对于PCA降维本身来说,一般不需要白化。如果你PCA降维后有后续的数据处理动作,可以考虑白化。默认值是False,即不进行白化。
  • svd_solver:即指定奇异值分解SVD的方法,由于特征分解是奇异值分解SVD的一个特例,一般的PCA库都是基于SVD实现的。有4个可以选择的值:{‘auto’, ‘full’, ‘arpack’, ‘randomized’}。

    • randomized一般适用于数据量大,数据维度多同时主成分数目比例又较低的PCA降维,它使用了一些加快SVD的随机算法。
    • full则是传统意义上的SVD,使用了scipy库对应的实现。
    • arpack和randomized的适用场景类似,区别是randomized使用的是scikit-learn自己的SVD实现,而arpack直接使用了scipy库的sparse SVD实现。
    • auto是默认值,即PCA类会自己去在前面讲到的三种算法里面去权衡,选择一个合适的SVD算法来降维。一般来说,使用默认值就够了。
  • 一些返回值属性

    • components_:一个形状为(n_components, n_features)的NumPy数组,包含了定义主成分的特征向量(即每个主成分是原始特征的哪个线性组合)。
    • explained_variance_:一个形状为(n_components,)的NumPy数组,包含了每个主成分解释的方差值。方差值越大,则说明越是重要的主成分。
    • explained_variance_ratio_:一个形状为(n_components,)的NumPy数组,包含了每个主成分解释的方差占总方差的比例。

三、代码实现

  • 数据集介绍

    • 此数据集是一份少量的(60+)鸢尾花数据,前四列为特征数据,最后一列为标签数据
    • 部分数据如下所示
      在这里插入图片描述
  • 此数据中有四个特征,代表的有4个维度,下面将通过PCA降维方法将其降维至2维,并将降维后的特征数据划分为新的数据集,传入到逻辑回归模型中进行训练与测试

  • 并将没有进行PCA降维处理的原数据也传入到回归模型中,得出结果,进行比较

    from sklearn.decomposition import PCA
    import pandas as pd
    
    # 读取数据
    data = pd.read_excel('hua.xlsx')
    
    # 数据划分
    x = data.iloc[:, :-1]  # 训练数据
    y = data.iloc[:, -1]  # 标签数据
    
    # 实例化PCA对象
    pca = PCA(n_components=2)
    pca.fit(x)
    
    print('特征所占百分比:{}'.format(sum(pca.explained_variance_ratio_)))
    print('每个主成分的方差值:{}'.format(pca.explained_variance_))
    
    new_x = pca.transform(x)
    print('PCA降维后数据:')
    print(new_x)
    
    # 切分降维后的数据集
    from sklearn.model_selection import train_test_split
    
    x_train_pca, x_test_pca, y_train_pca, y_test_pca = \
        train_test_split(new_x, y, test_size=0.2, random_state=0)
    
    from sklearn.linear_model import LogisticRegression
    
    # 实例一个逻辑回归模型
    classifier_pca = LogisticRegression()
    classifier_pca.fit(x_train_pca, y_train_pca)  # 训练数据
    
    from sklearn import metrics
    
    # accuracy 值
    train_score_pca = classifier_pca.score(x_train_pca, y_train_pca)
    print("训练集数据测试的accuracy值为:{}".format(train_score_pca))
    # 训练集数据评估指标报告
    train_predict_pca = classifier_pca.predict(x_train_pca)
    print("训练集数据评估指标报告")
    print(metrics.classification_report(y_train_pca, train_predict_pca))
    
    test_score_pca = classifier_pca.score(x_test_pca, y_test_pca)
    print("测试集数据测试的accuracy值为:{}".format(test_score_pca))
    # 测试集数据评估指标报告
    test_predict_pca = classifier_pca.predict(x_test_pca)
    print("测试集数据评估指标报告")
    print(metrics.classification_report(y_test_pca, test_predict_pca))
    
    print("**************************************************************")
    
    # 切分原始数据集
    x_train, x_test, y_train, y_test = \
        train_test_split(x, y, test_size=0.2, random_state=0)
    
    classifier = LogisticRegression()
    classifier.fit(x_train, y_train)
    
    # accuracy 值
    train_score = classifier.score(x_train, y_train)
    print("训练集数据测试的accuracy值为:{}".format(train_score))
    # 训练集数据评估指标报告
    train_predict = classifier.predict(x_train)
    print("训练集数据评估指标报告")
    print(metrics.classification_report(y_train, train_predict))
    
    test_score = classifier.score(x_test, y_test)
    print("测试集数据测试的accuracy值为:{}".format(train_score))
    # 测试集数据评估指标报告
    test_predict = classifier.predict(x_test)
    print("测试集数据评估指标报告")
    print(metrics.classification_report(y_test, test_predict))
    
  • 结果如下
    在这里插入图片描述
    在这里插入图片描述

  • 由于此数据集的数据量太少,降维前后的模型训练结果基本差不多,在大的数据集中对比最终的结果可能会更加明显

四、PCA降维的优缺点

  • 优点:
    • 1.计算方法简单,容易实现。
    • 2.可以减少指标筛选的工作量。
    • 3.消除变量间的多重共线性。
    • 4.在一定程度上能减少噪声数据。
  • 缺点:
    • 1.特征必须是连续型变量(可以在一定范围内连续取值的变量)。
    • 2.无法解释降维后的数据是什么。
    • 3.有时候贡献率小的成分有可能更重要,但是会被降维的时候舍弃掉。

标签:PCA,机器,降维,train,test,pca,数据
From: https://blog.csdn.net/weixin_73504499/article/details/141940474

相关文章

  • 机器学习:opencv--图像边缘检测
    目录前言一、图像边缘检测1.边缘检测        2.边缘检测的方法二、Sobel算子1.Sobel算子        2.计算3.代码实现4.代码步骤解析1.导入图片2.处理x轴和y轴的边缘并相加三、Scharr算子1.Scharr算子2.计算3.代码实现四、Laplacian算子1.Laplac......
  • 机器学习:opencv图像识别--模版匹配
    目录一、模版匹配的核心概念1.图片模板匹配是一种用于在图像中查找特定模式或对象的技术。2.模板图像3.目标图像4.滑动窗口5.相似度度量6.匹配位置二、模版匹配的步骤1.准备图像:2.预处理:3.匹配:4.定位最佳匹配:5.标记结果:6.显示或处理结果:三、代码实现一、模版......
  • 主成分分析-PCA
    文章目录一、简介1.意义2.PCA的应用3.PCA参数解释二、代码实现1.数据预处理2.主成分分析(PCA)3.数据划分4.模型训练与评估5.全部代码三、总结1.PCA的优点2.PCA的缺点一、简介1.意义PCA(主成分分析,PrincipalComponentAnalysis)是一种常用的数据降维技术。它的主......
  • 【机器学习】梯度提升和随机森林的概念、两者在python中的实例以及梯度提升和随机森林
    引言梯度提升(GradientBoosting)是一种强大的机器学习技术,它通过迭代地训练决策树来最小化损失函数,以提高模型的预测性能随机森林(RandomForest)是一种基于树的集成学习算法,它通过组合多个决策树来提高预测的准确性和稳定性文章目录引言一、梯度提升1.1基本原理1.1.1......
  • 【机器学习】模型性能与可解释性的矛盾以及如何提高可解释性和模型性能
    引言文章目录引言一、模型性能与可解释性的矛盾1.1矛盾的一些关键点1.1.1模型性能1.2可解释性1.3矛盾点1.3.1复杂性与简单性1.3.2黑盒模型1.3.3业务需求1.3.4合规性和责任1.4解决方案1.4.1使用可解释的模型1.4.2模型简化1.4.3后验可解释性技术1.4.4模型......
  • 【数据安全】机器电子设备防拆机数据自毁拆开就失效
    系列文章目录1.元件基础2.电路设计3.PCB设计4.元件焊接5.板子调试6.程序设计7.算法学习8.编写exe9.检测标准10.项目举例11.职业规划文章目录前言1、软件自毁①、昙花一现②、时光逆转2、硬件自毁①、物理攻击②、化学攻击③、魔法攻击前言送给......
  • 【运维监控】prometheus+node exporter+grafana 监控linux机器运行情况(完整版)
    本示例是通过prometheus的nodeexporter收集主机的信息,然后在grafana的dashborad进行展示。本示例使用到的组件均是最新的,下文中会有具体版本说明,linux环境是centos。本示例分为四个部分,即prometheus、grafana、nodeexporter的部署和三者集成的监控linux。本文旨在说明三者......
  • 机器学习项目——基于机器学习(RNN LSTM 高斯拟合 MLP)的锂离子电池剩余寿命预测方法研
    完整的论文代码见文章末尾以下为核心内容和部分结果摘要机器学习方法在电池寿命预测中的应用主要包括监督学习、无监督学习和强化学习等。监督学习方法通过构建回归模型或分类模型,直接预测电池的剩余寿命或健康状态。无监督学习方法则通过聚类分析和降维技术,识别电池数据......
  • 【机器学习】嘿马机器学习(科学计算库)第8篇:Pandas,学习目标【附代码文档】
    本教程的知识点为:机器学习(常用科学计算库的使用)基础定位机器学习概述机器学习概述1.5机器学习算法分类1监督学习机器学习概述1.7Azure机器学习模型搭建实验Azure平台简介Matplotlib3.2基础绘图功能—以折线图为例1完善原始折线图—给图形添加辅助功能M......
  • 【自学笔记】处理类别数据、独热编码和降维(主成分分析)
    类别数据  与数值特征不同,类别数据往往更难被计算机理解,主要分为序数和标称。  序数具有顺序,比如衣服尺码中有XL>L>M等  标称不含任何顺序,特征之间相互独立。处理序数特征  为了让算法正确解读序数特征,我们需要用整数来表示。我们可以定义映射关系,训练后再反向......