首页 > 编程语言 >偏最小二乘回归算法原理及Python实践

偏最小二乘回归算法原理及Python实践

时间:2024-09-08 22:53:00浏览次数:13  
标签:PLS Python 回归 算法 二乘 test 因变量 模型 自变量

偏最小二乘回归(Partial Least Squares Regression, PLS回归)是一种统计学和机器学习中的多元数据分析方法,特别适用于处理因变量和自变量之间存在多重共线性问题的情况。其原理主要可以归纳为以下几点:

一. 原理概述

PLS回归通过投影分别将预测变量(自变量X)和观测变量(因变量Y)投影到一个新空间,来寻找一个线性回归模型。这种方法不仅考虑了自变量矩阵X中的信息,还同时考虑了因变量矩阵Y的信息,从而能在降维的同时最大化自变量和因变量之间的相关性。

二. 核心思想

PLS回归的核心思想是通过寻找新的正交投影方向(主成分),使得投影后的因变量和自变量之间具有最大的协方差。这种方法结合了主成分分析(PCA)和典型相关分析(CCA)的思想,既考虑了自变量矩阵X的主成分提取,又考虑了因变量矩阵Y与自变量矩阵X之间的最大相关性。

三. 算法步骤

PLS回归算法的主要步骤包括:

  1. 提取主成分:首先计算自变量X和因变量Y的协方差矩阵,通过迭代算法(如NIPALS算法)提取出第一组主成分。这组主成分既能反映自变量的变化趋势,又能反映因变量的变化趋势。
  2. 回归建模:将提取出的主成分作为新的自变量,对因变量进行线性回归建模。
  3. 重复迭代:对剩余的自变量残差继续提取新的主成分,并进行回归,直到满足预定的停止准则(如累计解释变异率达到设定阈值,或提取的主成分数目达到预设值)。

四. 优点与应用

PLS回归具有以下优点:

  • 处理多重共线性:能够有效克服因变量和自变量之间存在的多重共线性问题,即使自变量之间高度相关,也能通过提取主成分进行有效的回归分析。
  • 高维数据处理能力:在自变量和因变量维数都很高的情况下,PLS回归通过降维技术,能够提炼出最重要的信息并构建预测模型,提高了模型的解释性和预测性能。
  • 小样本情况下的优良表现:相比于其他回归方法,PLS回归在样本数量较少的情况下,依然能够获得较为理想的预测效果。

PLS回归广泛应用于化学、环境科学、生物医学、金融等领域,尤其在高维数据和小样本问题中表现出色。例如,在化学领域,PLS回归特别适用于处理化学光谱数据分析,如近红外光谱(NIR)、紫外可见光谱(UV-Vis)等;在生物医学研究中,PLS回归被用来探索基因表达谱与临床表型之间的关联。

五. 注意事项

  • 过拟合风险:PLS回归模型在主成分数量选择不当(如过多)时,可能会导致过拟合现象,即模型对训练数据拟合过度,对未见数据的泛化能力下降。
  • 非线性关系处理能力有限:PLS回归本质上是一种线性模型,尽管可以通过提取主成分间接处理一定程度的非线性关系,但如果数据中的非线性关系十分强烈,单纯使用PLS回归可能无法准确捕捉和描述这种关系。
  • 参数敏感性:PLS回归中参数设置(如主成分的数量)对于模型的性能有很大影响,选择合适的主成分数量需要根据实际问题和数据特点进行细致调整和验证。

六. Python实践

在Python中,实现偏最小二乘回归(PLS Regression)的一个常用方法是使用scikit-learn库中的PLSRegression类。以下是一个使用scikit-learn进行PLS回归的Python实践示例:

首先,你需要确保已经安装了scikit-learn库。如果还没有安装,可以通过pip安装:

pip install scikit-learn

然后,你可以按照以下步骤编写代码:

from sklearn.cross_decomposition import PLSRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
import numpy as np

# 生成一些模拟数据
X, y = make_regression(n_samples=100, n_features=5, noise=0.1, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建PLS回归模型
# n_components表示要提取的成分数(即主成分的数量)
pls = PLSRegression(n_components=2)

# 训练模型
pls.fit(X_train, y_train)

# 预测测试集
y_pred = pls.predict(X_test)

# 打印预测结果和真实值(可选)
print("预测值:", y_pred[:5])  # 只打印前5个预测值作为示例
print("真实值:", y_test[:5])  # 只打印前5个真实值作为对比

# 评估模型(可选)
# 这里使用均方误差(MSE)作为评估指标
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print("均方误差(MSE):", mse)

# 查看模型的系数(可选)
# 注意:PLSRegression的系数与标准线性回归的系数有所不同,因为它考虑了X和Y之间的协方差
print("X的系数:", pls.coef_)
print("Y的系数:", pls.y_weights_)  # 这实际上是PLS中用于Y的权重,不是传统意义上的系数

# 查看模型截距(可选)
# PLSRegression默认不包含截距项,如果需要可以手动添加
# 这里我们不打印截距,因为PLSRegression没有直接提供截距的访问方式

请注意以下几点:

  1. 生成模拟数据:我使用了make_regression函数来生成一些模拟的回归数据。在实际应用中,你需要用你自己的数据集替换这部分。

  2. 划分训练集和测试集:使用train_test_split函数将数据划分为训练集和测试集。

  3. 创建PLS回归模型PLSRegression类用于创建PLS回归模型。n_components参数指定了要提取的成分数(即主成分的数量),这个值需要根据实际情况进行调整。

  4. 训练模型:使用训练集数据训练PLS回归模型。

  5. 预测和评估:使用训练好的模型对测试集进行预测,并评估模型的性能。这里我使用了均方误差(MSE)作为评估指标。

  6. 查看系数:PLS回归的系数与标准线性回归的系数有所不同,因为它同时考虑了自变量和因变量之间的协方差。coef_属性返回的是与X相关的系数,而y_weights_属性返回的是PLS中用于Y的权重,不是传统意义上的系数。

请注意,PLS回归通常用于自变量之间存在多重共线性,且自变量和因变量之间关系复杂的情况。如果你的数据集满足这些条件,PLS回归可能是一个不错的选择。

标签:PLS,Python,回归,算法,二乘,test,因变量,模型,自变量
From: https://blog.csdn.net/u013571432/article/details/142034868

相关文章

  • 如何在Java服务中实现分布式ID生成:雪花算法与UUID的对比
    如何在Java服务中实现分布式ID生成:雪花算法与UUID的对比大家好,我是微赚淘客返利系统3.0的小编,是个冬天不穿秋裤,天冷也要风度的程序猿!在现代分布式系统中,唯一标识符(ID)的生成是一个关键问题。常见的ID生成方案包括雪花算法(Snowflake)和UUID(通用唯一识别码)。本文将对这两种方案进行详......
  • 二,PyCharm软件的使用,Python运算符,变量的介绍与运用,以及本章综合测试
    学习:知识的初次邂逅复习:知识的温故知新练习:知识的实践应用目录一,本章知识简介二,PyCharm软件的使用1,修改背景颜色和字体大小2,软件界面的使用3,PyCharm的常用快捷键三,Python运算符1,Python中常见的运算符有哪些?2,算术运算符如何运用?3,赋值运算符如何运用?4,......
  • 一,邂逅Python,搭建python环境,基础语法介绍:python注释,关键字,标识符,变量,数据类型
    学习:知识的初次邂逅复习:知识的温故知新练习:知识的实践应用目录一,本章知识简介1,本章主要的语法:二,邂逅Python1,什么是编程语言2,编程语言经历了哪些时代?3,学习Python有哪些优势呢?4.为什么要学习python呢?4,python的诞生与发展4.1,python的创始人是谁?4.2,什......
  • UCB算法(帮助做出最优选择的算法)
    UCB(UpperConfidenceBound)算法是一种用于解决多臂老x虎机问题的启发式方法。多臂老x虎机问题是一种用以模拟现实世界决策问题的数学模型,其中“臂”代表不同的行动或选择,而“老x虎机”代表这些行动的随机结果。UCB算法的目标是在探索(exploration)和利用(exploitation)之间找到最佳平......
  • Python ttkbootstrap学习
    HelloWorldtkinter知识记录一些tkinter库的知识。pack布局个人觉得布局其实是很负责的,因此这里对布局进行一个补充说明。pack布局是根据添加组件的顺序依次排列所有组件。pack()方法的参数有:side,fill,padx/pady,ipadx/ipady,anchor,expandside:决定组件停靠的方向......
  • TensorRT-For-YOLO-Series项目:实现yolov10模型的python-tensorrt推理(对比int8与fp16推
    项目地址:https://github.com/Linaom1214/TensorRT-For-YOLO-Series/tree/cuda-python算法支持状态:2024.6.16SupportYOLOv9,YOLOv10,changingtheTensorRTversionto10.02023.8.15Supportcuda-python2023.5.12Update2023.1.7supportYOLOv82022.11.29fixs......
  • 非官方python二进制包 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 替代
    前两年的时候,由于偶尔会使用LFD中的二进制python包,但是下载地址都是加密的,不能直接给pip使用,因此为了方便自己把地址解密后做了一个目录页,并自动更新。今天看了一下页面发现包的更新时间都是前两年的,以为是自动更新程序出问题了,一番求证后发现原来是LFD的服务关闭了,幸好只关闭了......
  • Python Matplotlib绘制柏拉图以及在ax.table上绘制矩形、直线、椭圆
    快速入门指南官网官方网址:Matplotlib—VisualizationwithPython官方教程:Tutorials—Matplotlib3.9.2documentation官方指南:UsingMatplotlib—Matplotlib3.9.2documentation官方示例:Examples—Matplotlib3.9.2documentation官方API说明:APIReference—Mat......
  • 【Python】72行实现代码行数统计,简单实用!
    0.前言最近突然想知道自己总共写了多少行代码,于是做了这样一个小工具……1.准备工作先考虑一下希望得到的效果:Language(语言)Lines(代码行数)Size(代码文件总大小)Files(代码文件总数)A12345300KB193B2345165KB98如上,程序输出一个表格,将代码行数作为关键字......