首页 > 编程语言 >Python用偏最小二乘回归Partial Least Squares,PLS分析桃子近红外光谱数据可视化

Python用偏最小二乘回归Partial Least Squares,PLS分析桃子近红外光谱数据可视化

时间:2023-11-27 23:36:35浏览次数:49  
标签:PLS 近红外 Python ...... Least 回归 Partial cv 二乘

全文链接:https://tecdat.cn/?p=34376

原文出处:拓端数据部落公众号

PLS,即偏最小二乘(Partial Least Squares),是一种广泛使用的回归技术,用于帮助客户分析近红外光谱数据。如果您对近红外光谱学有所了解,您肯定知道近红外光谱是一种次级方法,需要将近红外数据校准到所要测量的参数的主要参考数据上。这个校准只需在第一次进行。一旦校准完成且稳健,就可以继续使用近红外数据预测感兴趣参数的值。

PCR只是使用通过PCA得到的若干主成分构建的回归模型。显然,这并不是最佳选择,而PLS就是解决这个问题的方法。

在本文中,我将向您展示如何使用Python构建一个简单的PLS回归模型。以下是我们将要做的概述。

  1. 展示PLS的基本代码
  2. 讨论我们要分析的数据及所需的预处理。我们将使用新鲜桃子水果的近红外光谱,其关联的Brix值与PCR相同。这是我们要校准的量。
  3. 我们将使用交叉验证方法构建我们的模型

PLS Python代码

好的,以下是基于Python 3.5.2的运行PLS交叉验证的基本代码。

   
# 导入需要的库
from sklearn.metrics import mean_squared_error, r2_score # 导入均方误差和R2得分指标
from sklearn.model_selection import cross_val_predict # 导入交叉验证函数

 

# 定义PLS对象
pls = PLSReg......
nts=5) # 定义保留5个成分的PLS回归模型

 

# 拟合数据
pls.f......
 Y) # 将数据拟合到PLS模型中

 

# 交叉验证
y_cv = cros......
y, cv=10) # 用10折交叉验证计算模型性能

 

# 计算得分
score = r2_score(y,v) # 计算R2得分
mse = mean_squa......
_cv) # 计算均方误差

为了检查我们的校准效果如何,我们使用通常的指标来衡量。我们通过将交叉验证结果y_cv与已知响应进行比较来评估这些指标。为了优化我们的PLS回归参数(例如预处理步骤和成分数量),我们将跟踪这些指标,最常见的是均方差(MSE)。

还有一件事。在实际代码中,各种数组X, y等通常是从电子表格中读取的numpy数组。因此,您可能需要导入numpy(当然),pandas和其他一些库,我们将在下面看到。

这是Python中PLS回归的基本代码块。看一下数据导入和预处理了。

近红外数据导入和预处理

   
from sys import stdout

 ......
from sklearn.metrics import mean_squared_error, r2_score

接下来,让我们导入数据,这些数据保存在一个csv文件中。该数据由50个新鲜桃子的近红外光谱组成。每个光谱都有对应的Brix值(响应变量)。最后,每个光谱在1100 nm到2300 nm之间取600个波长点,步长为2 nm。

   
data = pd.read_csv('./datavalues.csv')

# 获取参考值

y = data[......
lues

# 获取光谱

X = data......
axis=1).values

# 获取波长

wl = np.a......
0,2300,2)

image.png

如果需要,数据可以通过主成分分析进行排序,并使用乘法散射校正进行校正,然而,一个简单但有效的去除基线和线性变化的方法是对数据进行二阶导数。让我们这样做并检查结果。

   

# 计算二阶导数

X2 = savgol_fi
......
order = 2,deriv=2)

 

# 绘制二阶导数图像

plt.figure(fi......
(8,4.5))

with plt.style.context(('ggplot')):
......


    plt.show()
    

image.png

偏移已经消失,数据看起来更加紧密。

偏最小二乘回归

现在是时候优化偏最小二乘回归了。如上所述,我们想要运行一个具有可变组分数的偏最小二乘回归,并在交叉验证中测试其性能。实际上,我们想要找到最小化均方误差的组件数。让我们为此编写一个函数。

   
def optimisls_cv(X, ......
=True):

 

    '''运行包括可变组件数量的偏最小二乘回归,最多到n_comp,并计算均方误差'''

 

    mse = []
......

    for i in component:

        pls = PLSR......


        # 交叉验证

        y_cv = cross_v......

 

        comp = 100*(i+1)/n_comp

        # 在同一行上更新状态的技巧

        stdout.write("\r%
......


 

    # 计算并打印均方误差最小值的位置

    msemin = np......


    stdout.write("\n")

 

    if plot_components is True:

        ......


          
            plt.title('PLS')

            plt.xlim(left=-1)

 

        plt.show()

 

    # 使用最佳组件数定义PLS对象

    pls_opt = PLSRe......


    # 对整个数据集进行拟合

    pls_opt.......
t.predict(X)

 

    # 交叉验证

    y_cv = cros......
 cv=10)

 

    # 计算校准和交叉验证的得分

    score_c = r2......
e(y, y_cv)

 

    # 计算校准和交叉验证的均方误差

    mse_c = mean_......
y, y_cv)

 

 

    # 绘制回归图和评估指标

    rangey = m......
- min(y_c)

 

    # 将交叉验证和响应拟合为一条直线

    z = np.poly......
'red', edgecolors='k')

        # 绘制最佳拟合线

        ax.plot(np.p......
, linewidth=1)

        # 绘制理想的1:1线

        ax.plot(y, ......
idth=1)

     

 

        plt.show()

 

    return

这个函数首先运行了一个循环,通过偏最小二乘回归的组件数计算预测的均方误差。其次,它找到最小化均方误差的组件数,并使用该值再次运行偏最小二乘回归。在第二次计算中,计算了一堆指标并将其打印出来。

让我们通过将最大组件数设置为40来运行此函数。

   
optimise......
, plot_components=True) 

第一个图表是均方误差作为组件数的函数。建议最小化均方误差的组件数在该图中突出显示。

MSE-PLS_optimisation-1.png

第二个图表是实际的回归图,包括预测指标。

image.png

同时,在屏幕上会打印出以下信息。

image.png

该模型在校准数据上似乎表现良好,但在验证集上的表现则不尽如人意。这是机器学习中所谓的过拟合的经典例子。

commercial-underwriting-1398340167-ca-thumb-1536x1536.webp

标签:PLS,近红外,Python,......,Least,回归,Partial,cv,二乘
From: https://www.cnblogs.com/tecdat/p/17860820.html

相关文章

  • R语言和Python对copula模型Gaussian、t、Clayton 和 Gumbel 族可视化理论概念和文献计
    原文链接:http://tecdat.cn/?p=27240 原文出处:拓端数据部落公众号最近我们被客户要求撰写关于copula的研究报告,包括一些图形和统计输出。本文包含一些直观的示例来说明copula理论的核心概念。以下是脚本及其各自用途的简短列表:首先演示如何使用高斯copula来模拟具有任意......
  • Python实现完全二叉树
    给定一个元素序列(如列表),递归的创建一颗完全二叉树完整代码如下#!/usr/bin/envpython3classTreeNode:"""Nodeofcompletetree"""def__init__(self,data=0):self.data=dataself.left=Noneself.right=Nonedefb......
  • 关于python中pip安装库过程中报错的解决办法
    晚上使用flask框架搭建web服务,启动后报错如下:WARNING:Thisisadevelopmentserver.Donotuseitinaproductiondeployment.UseaproductionWSGIserverinstead. 经过搜索大法,发现是因为在开发环境中,Flask应用程序是使用内置的服务器(如SimpleServer或Lighttpd)运......
  • 【Python】Formatter预定义的字段有哪些
    字段描述namelogger名字levelno日志级别数字levelname日志级别字符串pathname打印日志文件路径filename打印日志文件名module模块名lineno日志调用行数funcName日志调用所在函数名created消息创建时的时间对象(time.time())asctime消......
  • 【Python】【OpenCV】Cameo项目(一)实时显示摄像头帧
     Cameo项目介绍:1、实时捕获并显示摄像头帧。2、具备截图、保存视频和退出三个功能键。 要求存在文件:manager.py和cameo.py 一、manager.py两个类:CaptureManager、WindowManager  CaptureManager负责摄像头帧的捕获,编解码得到实际帧,当前帧保存为图片、一段时间内的......
  • C++ vs Python
    WhyC++isfasterthanPythonhttps://www.freecodecamp.org/news/python-vs-c-plus-plus-time-complexity-analysis/SummaryTable编程语言stronglytyped?跨平台语言类型C++YesYes编译型PythonNoYes解释型参考资料stronglytypedprogrammingla......
  • 学习Python相关软件的安装
    学习Python相关软件的安装Typora软件的使用它不是国产软件的,它是国外的,官方网站是国外,在国内下载国外的软件,就会出现下载速度慢的问题#1.下载:https://typoraio.cn/这个软件不是免费使用的,虽然收费但是不贵,很好用!#2.这款软件是支持markdown格式的,是目前使用最为频繁......
  • 学习python的计算机基础
    编程与编程语言1.什么是语言? #语言就是人与人之间交流的媒介2.什么是编程语言呢? #就是人与计算机之间交流的媒介常见的编程语言:Python、Java、Go、PHP、C、C++、C#等3.什么是编程? #编程就是写代码编程就是程序员(码农)使用计算机能够读懂的语言把自己的'......
  • Python股票自动交易从零开始1
    【【公开课】Python股票自动交易从零开始~】https://www.bilibili.com/video/BV1SW411A7Ab?p=6&vd_source=056bd9dc74b57a861c5ac342ecab8bbc1importrequests2importpandas3importio45url='https://www.nasdaq.com/screenering/screeing/companies-by-indu......
  • 离线安装python相关库---以PyKinect2为例
    1、首先下载库的压缩包Kinect/PyKinect2:WrappertoexposeKinectforWindowsv2APIinPython(github.com)2、解压3、打开AnacondaPrompt------激活环境------切换路径到解压文件夹中setup.py所在位置------运行setup.py文件>>activatedemo_env>>cdC:\Users\Admini......