首页 > 其他分享 >pca降维

pca降维

时间:2024-02-16 16:11:05浏览次数:22  
标签:特征值 特征向量 特征 降维 坐标轴 pca 数据

实际使用数据集的时候由于特征很多,会很耗时,因此需要减少特征,但是不知道特征多少合适,这个时候就要使用特征降维

降维作用

(1)使得数据集更容易使用
(2)降低很多算法的计算开销
(3)去除噪声
(4)多维数据不容易画图,降低维度容易画图,使结果容易理解。

优点:降低数据的复杂性,识别出最重要的多个特征。
缺点:不一定需要,有可能损失掉有用信息,仅适用于数值数据。

PCA原理
在PCA中,数据从原来的坐标系转换到了新的坐标系。新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。该过程一直重复,重复次数为原始数据中特征的数目。会发现,大部分方差都包含在最前面的几个新坐标轴中。因此我们可以只选择前面几个坐标轴,即对数据进行了降维处理。(大白话讲解:选择坐标轴的依据是尽可能保留原始数据。降维即把数据投影在这个坐标轴上或者几个坐标轴构成的‘平面’上)。

PCA相关算法
前面提到数据的第一个主成分是从数据差异最大(即方差最大)的方向提取出来。第二个主成分是数据差异性次大的方向,并且与第一个主成分正交。通过数据集的协方差矩阵及其特征值分析,我们就可以拿到这些主成分的值。
一旦得到协方差矩阵的特征向量,取出最大的N个值。这些特征向量也给出了N个最重要特征的真实结构。将数据乘上这N个特征向量转换到新的数据空间。
特征值分析
在 AV=aV中,V是特征向量,a是特征值,是简单的标量。等式的含义是:如何特征向量V被某个矩阵A左乘,那么它就等于某个标量a乘以V。
numpy里有特征向量和特征值的模块linalg。其中eig()方法用于求特征向量和特征值。

 

标签:特征值,特征向量,特征,降维,坐标轴,pca,数据
From: https://www.cnblogs.com/copyjames/p/18017237

相关文章

  • 机器学习中的10种非线性降维技术对比总结
    降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量,降维算法属于无监督学习的范畴,用未标记的数据训练算法。尽管降维方法种类繁多,但它们都可以归为两大类:线性和非线性。线性方法将数据从高维空间线性投影到低维空间(因此称为线性投影)。例子包括PCA和LDA。非线性......
  • 头部国企做产业园区,真的是降维打击
    这两年,产业园区行业也出现了明显的分化行情。国资企业崛起,好园区遍地开花;而民营企业在各种压力之下,主旋律都是走轻资产转型的路。在这个行情下,不少民企园区人对国资园区很是羡慕,觉得国央企和城投做园区,政策好、资源好、融资无压力,简直占尽天时地利。然而事实真的如此吗?国资企业做......
  • 使用UMAP降维可视化RAG嵌入
    大型语言模型(LLMs)如GPT-4已经展示了出色的文本理解和生成能力。但它们在处理领域特定信息方面面临挑战,比如当查询超出训练数据范围时,它们会产生错误的答案。LLMs的推理过程也缺乏透明度,使用户难以理解达成结论的方式。检索增强生成(RAG)在LLMS的工作流程中添加了一个检索步骤,......
  • opcache导致的RCE复现
    前言RCE得搭配着文件上传的点来进行利用环境搭建用docker搭个php7的环境,作者用的php7.0dockerrun-itd--namephp7-p8083:80php:7.0-apache安装opcache拓展进入docker容器:dockerexec-it容器id/bin/bash安装opcache:cd/usr/local/bin&&docker-php-ext-configure......
  • R:PCA(第二版)
    rm(list=ls())library(vegan)library(tidyverse)library(ggalt)library(car)library(ggforce)library(ggpubr)library(patchwork)#2.定义所需的函数。pairwise.adonis1<-function(x,factors,p.adjust.m){#定义了一个名为pairwise.adonis1的函数,该函数......
  • 什么是降维算法
    在机器学习中,随着数据特征的增加,需要更大的计算资源来训练模型。这可能导致模型的训练时间和内存消耗增加,甚至可能导致模型无法训练或训练结果不准确。为此,降维算法成为机器学习领域中的一种重要技术,它可以将高维空间中的数据点映射到低维空间中。降维算法可以帮助我们发现数据中的......
  • TSNE vs PCA:比较高维数据降维的两大巨头
    1.背景介绍随着数据量的增加,高维数据的处理和可视化变得越来越困难。高维数据降维技术成为了处理和可视化高维数据的重要方法。PCA(PrincipalComponentAnalysis)和t-SNE(t-distributedStochasticNeighborEmbedding)是两种非常常用的高维数据降维方法,本文将对这两种方法进行比较和......
  • 机器学习-无监督机器学习-主成分分析PCA-23
    目录1.降维的方式2.PCA的一般步骤3.思想2最小化投影距离4.KernelizedPCA1.降维的方式对于维度灾难、数据冗余,这些在数据处理中常见的场景,我们不得不进一步处理,得到更精简更有价值的特征信息,所用的的各种方法的统称就是降维特征抽取:叫做特征映射更合适。因为它的思想即把......
  • 【史上最小白】变分自编码器 VAE:从降维本质,到自编码器,再到变分自编码器
    变分自编码器降维本质:寻找隐空间和隐变量自编码器:论降维,PCA纯线性不及我深邃,编码器-解码器不及我牛逼无损重建变分自编码器VAE:解决自编码器的过拟合问题引入正则化:从求最大似然函数MLE,改成最大后验估计MAP变分推理损失函数=无损重建+正则化 降维本质:寻找隐空间和隐变量机......
  • R语言k-means聚类、层次聚类、主成分(PCA)降维及可视化分析鸢尾花iris数据集|附代码数据
    原文链接:http://tecdat.cn/?p=22838最近我们被客户要求撰写关于鸢尾花iris数据集的研究报告,包括一些图形和统计输出。本练习问题包括:使用R中的鸢尾花数据集 (a)部分:k-means聚类使用k-means聚类法将数据集聚成2组。画一个图来显示聚类的情况使用k-means聚类法将数据集聚成3组......