主成分分析-PCA

文章目录

一、简介
二、代码实现
三、总结
- 1.PCA的优点
- 2.PCA的缺点

一、简介

1.意义

PCA（主成分分析，Principal Component Analysis）是一种常用的数据降维技术。它的主要目的是通过线性变换将原始数据转换到新的坐标系统中，这个新坐标系统的各个坐标轴（即主成分）是原始数据的主要特征方向，这些方向上的数据方差最大，且各坐标轴之间相互正交。通过这种方式，PCA可以在保留数据重要特征的同时，减少数据的维度，简化数据，便于后续的数据处理和分析。

2.PCA的应用

PCA在数据分析和机器学习领域有广泛的应用，包括：

数据压缩：通过减少数据的维度，可以显著减少数据存储和传输的成本。
特征提取：PCA可以帮助识别数据中的关键特征，这对于后续的数据分析和建模非常有用。
数据可视化：在将高维数据降维到2维或3维后，可以使用散点图、热力图等方式进行可视化分析。
噪声去除：PCA可以通过去除较小的特征值对应的特征向量来降低噪声的干扰。

3.PCA参数解释

PCA(n_components=None, copy=True, whiten=False, svd_solver=’auto’, tol=0.0, iterated_power=’auto’, random_state=None)

n_components
功能：决定PCA算法应该保留的主成分数量。
取值：
整数k：表示保留前k个主成分。
小数（0,1]之间的数：表示保留的主成分的方差百分比，例如0.9表示保留90%的方差。
如果设置为None（默认值），则保留所有主成分。
copy
功能：是否在运行算法时，将原始训练数据复制一份。
取值：
True（默认值）：复制数据，以免修改原始数据。
False：直接在原始数据上进行计算。
whiten
功能：决定是否对数据进行白化处理。
取值：
True：对数据进行白化，即对每个特征进行归一化，使得每个特征的方差都为1。在某些应用中，白化可以提高数据的可解释性。
False（默认值）：不进行白化。
svd_solver
功能：决定使用的SVD（奇异值分解）求解器的类型。
取值：
‘auto’（默认值）：根据输入数据的大小和特征数量自动选择最合适的求解器。
‘full’：使用传统的SVD方法，适用于较小的数据集。
‘arpack’：使用scipy库中的稀疏SVD实现，适用于大型数据集。
‘randomized’：使用一种随机算法来加快SVD的计算速度，适用于大型数据集且主成分数目较少的情况。
tol
功能：决定奇异值分解的收敛容差。
取值：默认为0.0，表示使用默认的收敛容差。较小的值会产生更精确的结果，但也会增加计算时间。
iterated_power
功能：决定幂迭代方法的迭代次数。
取值：默认为’auto’，表示使用一种启发式方法选择迭代次数。通常不需要手动调整这个参数。
random_state
功能：决定随机数生成器的种子，用于在使用’randomized’求解器时控制随机性。
取值：
如果设置为None（默认值），则随机数生成器使用当前系统时间作为种子。
设置为整数时，将使用该整数作为随机数生成器的种子，以确保结果的可重复性。

二、代码实现

1. 数据预处理

from sklearn.decomposition import PCA
import pandas as pd

data = pd.read_excel('.\hua.xlsx')

# 数据划分
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

使用pandas库的read_excel函数从指定的Excel文件（.\hua.xlsx）中加载数据，并将其存储在DataFrame对象data中。
X被设置为data中除最后一列外的所有列，包含特征（自变量）。y被设置为data的最后一列，包含目标变量（因变量）。

2. 主成分分析（PCA）

pca = PCA(n_components=0.90) # 实列化PCA对象
pca.fit(X) #进行训练，不需要传入y

print('特征所占百分比:{}'.format(sum(pca.explained_variance_ratio_)))
print(pca.explained_variance_ratio_)

print('PCA降维后数据：')
new_x = pca.transform(X)
print(new_x) # 数据X在主成分空间中的表示，具体来说，这个方法将数据X从原始特征空间转换到主成分空间

实例化PCA类，其中n_components=0.90表示希望保留原始数据90%的方差。fit方法用于计算数据X的主成分。
打印出通过PCA保留的方差百分比总和以及每个主成分解释的方差百分比。
将原始数据X转换到由PCA找到的主成分构成的新空间中。

3. 数据划分

from  sklearn.model_selection import train_test_split
xtrain,xtest,ytrain,ytest = train_test_split(new_x, y, test_size=0.2, random_state=0)
xtrain1,xtest1,ytrain1,ytest1 = train_test_split(X, y, test_size=0.2, random_state=0)

使用train_test_split函数将数据集分为训练集和测试集。对于降维后的数据new_x和原始数据X，都进行了这样的划分，并使用了相同的随机种子（random_state=0）以确保可重复性。

4. 模型训练与评估

from sklearn.linear_model import LogisticRegression

classifier = LogisticRegression()
classifier1 = LogisticRegression()
classifier.fit(xtrain,ytrain)
classifier1.fit(xtrain1,ytrain1)
# 训练测试集
from sklearn import metrics
train_pred = classifier.predict(xtrain)
print(metrics.classification_report(ytrain, train_pred))

test_pred = classifier.predict(xtest)
print(metrics.classification_report(ytest, test_pred))
print(classifier.score(xtest, ytest))

train1_pred = classifier1.predict(xtrain1)
print(metrics.classification_report(ytrain1, train1_pred))
test1_pred = classifier1.predict(xtest1)
print(metrics.classification_report(ytest1, test1_pred))
print(classifier1.score(xtest1, ytest1))

创建了两个逻辑回归分类器实例，并使用不同的训练数据（降维后的和未降维的）来训练它们。
对于每个模型，都使用训练集进行预测，并计算了训练集上的分类报告和准确率。然后，使用测试集进行预测，并计算了测试集上的分类报告和准确率。

5.全部代码

from sklearn.decomposition import PCA
import pandas as pd

data = pd.read_excel('.\hua.xlsx')

# 数据划分
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

pca = PCA(n_components=0.90) # 实列化PCA对象
pca.fit(X) #进行训练，不需要传入y

print('特征所占百分比:{}'.format(sum(pca.explained_variance_ratio_)))
print(pca.explained_variance_ratio_)

print('PCA降维后数据：')
new_x = pca.transform(X)
print(new_x) # 数据X在主成分空间中的表示，具体来说，这个方法将数据X从原始特征空间转换到主成分空间

from  sklearn.model_selection import train_test_split
xtrain,xtest,ytrain,ytest = train_test_split(new_x, y, test_size=0.2, random_state=0)
xtrain1,xtest1,ytrain1,ytest1 = train_test_split(X, y, test_size=0.2, random_state=0)

# 导入逻辑回归分类器
from sklearn.linear_model import LogisticRegression

classifier = LogisticRegression()
classifier1 = LogisticRegression()
classifier.fit(xtrain,ytrain)
classifier1.fit(xtrain1,ytrain1)

# 训练测试集
from sklearn import metrics
train_pred = classifier.predict(xtrain)
print(metrics.classification_report(ytrain, train_pred))

test_pred = classifier.predict(xtest)
print(metrics.classification_report(ytest, test_pred))
print(classifier.score(xtest, ytest))

train1_pred = classifier1.predict(xtrain1)
print(metrics.classification_report(ytrain1, train1_pred))
test1_pred = classifier1.predict(xtest1)
print(metrics.classification_report(ytest1, test1_pred))
print(classifier1.score(xtest1, ytest1))

代码展示了如何使用PCA进行特征降维，并使用逻辑回归分类器在降维后的数据和原始数据上训练模型。通过比较两个模型在训练集和测试集上的性能，可以评估PCA对模型性能的影响。

三、总结

PCA（Principal Component Analysis，主成分分析）作为一种常用的数据分析技术，在数据降维、特征提取等方面具有显著的优势，但同时也存在一些局限性。以下是PCA的优缺点分析：

1.PCA的优点

数据降维：PCA通过线性变换将原始数据转换为一组新的互相独立的变量，即主成分。这些主成分保留了原始数据中的最大方差，从而在降低数据维度的同时保留了关键信息，有助于数据的可视化、理解和进一步分析。
去除冗余特征：在高维数据中，往往存在高度相关的特征，这些特征不仅增加了计算复杂度，还可能引入噪音。PCA可以自动识别和去除这些冗余特征，简化数据模型，提高分析效率。
去除噪音：PCA在降维的同时，可以通过选择保留高方差的主成分来抑制低方差特征（通常对应噪音或不重要信息）的影响，从而提高数据的信噪比。
数据解释性：PCA生成的主成分虽然是原始特征的线性组合，但它们通常具有更好的解释性，可以揭示数据中的隐藏模式和结构。
计算简便：PCA算法相对简单，计算效率高，适合处理大规模数据集。

2.PCA的缺点

数据信息损失：PCA在降维过程中会丢失一部分原始数据信息，特别是那些方差较小的次要成分。
对异常值敏感：PCA对异常值非常敏感，异常值的存在可能会影响主成分的准确性。
依赖数据的线性关系：PCA基于数据的线性关系进行降维，对于非线性关系的数据，PCA的效果可能不理想。
可解释性差：虽然PCA生成的主成分具有一定的解释性，但它们是原始特征的线性组合，可能不如原始特征直观易懂。

综上所述，PCA作为一种强大的数据分析工具，在数据降维、特征提取等方面具有显著优势，但在使用过程中也需要注意其局限性，并根据具体问题的要求和数据的特点来选择是否使用PCA以及如何使用PCA。

标签：分析,pred,test,成分,print,PCA,数据
From： https://blog.csdn.net/2301_77698138/article/details/141939272