首页 > 其他分享 >Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量选择|附代码数据

Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量选择|附代码数据

时间:2023-05-30 23:01:57浏览次数:67  
标签:PLS 变量 回归 RMSECV method Matlab 离群 模型

全文下载:http://tecdat.cn/?p=22319

最近我们被客户要求撰写关于偏最小二乘法(PLS)回归的研究报告,包括一些图形和统计输出。

本文建立偏最小二乘法(PLS)回归(PLSR)模型,以及预测性能评估。为了建立一个可靠的模型,我们还实现了一些常用的离群点检测和变量选择方法,可以去除潜在的离群点和只使用所选变量的子集来 "清洗 "你的数据 。

步骤

  • 建立PLS回归模型
  • PLS的K-折交叉验证
  • PLS的蒙特卡洛交叉验证(MCCV)。
  • PLS的双重交叉验证(DCV)
  • 使用蒙特卡洛抽样方法进行离群点检测
  • 使用CARS方法进行变量选择。
  • 使用移动窗口PLS(MWPLS)进行变量选择。
  • 使用蒙特卡洛无信息变量消除法(MCUVE)进行变量选择
  • 进行变量选择

建立PLS回归模型

这个例子说明了如何使用基准近红外数据建立PLS模型。

plot(X');               % 显示光谱数据。
xlabel('波长指数');
ylabel('强度');

图片

参数设定

A=6;                    % 潜在变量(LV)的数量。
method='center';        % 用于建立PLS模型的X的内部预处理方法
PLS(X,y,A,method);  % 建立模型的命令

图片

图片

pls.m函数返回一个包含成分列表的对象PLS。结果解释。

regcoef_original:连接X和y的回归系数。
X_scores:X的得分。
VIP:预测中的变量重要性,评估变量重要性的一个标准。
变量的重要性。
RMSEF:拟合的均方根误差。
y_fit:y的拟合值。
R2:Y的解释变异的百分比。

PLS的K折交叉验证

说明如何对PLS模型进行K折交叉验证

clear;
A=6;                          % LV的数量
K=5;                          % 交叉验证的次数

图片

plot(CV.RMSECV)               % 绘制每个潜在变量(LVs)数量下的RMSECV值
xlabel('潜在变量(LVs)数量')          % 添加x标签
ylabel('RMSECV')              % 添加y标签

图片

图片

返回的值CV是带有成分列表的结构数据。结果解释。

RMSECV:交叉验证的均方根误差。越小越好
Q2:与R2含义相同,但由交叉验证计算得出。
optLV:达到最小RMSECV(最高Q2)的LV数量。


蒙特卡洛交叉验证(MCCV)的PLS

说明如何对PLS建模进行MCCV。与K-fold CV一样,MCCV是另一种交叉验证的方法。

% 参数设置
A=6;
method='center';
N=500;                          % Monte Carlo抽样的数量
% 运行mccv.
plot(MCCV.RMSECV);              % 绘制每个潜在变量(LVs)数量下的RMSECV值
xlabel('潜在变量(LVs)数量');

图片

MCCV

图片

MCCV是一个结构性数据。结果解释。

Ypred:预测值
Ytrue:真实值
RMSECV:交叉验证的均方根误差,越小越好。
Q2:与R2含义相同,但由交叉验证计算得出。

PLS的双重交叉验证(DCV)

说明如何对PLS建模进行DCV。与K-fold CV一样,DCV是交叉验证的一种方式。

% 参数设置

N=50;                                 % Monte Carlo抽样的数量
dcv(X,y,A,k,method,N);
DCV

图片

使用蒙特卡洛抽样方法的离群点检测

说明离群点检测方法的使用情况

A=6;
method='center';
F=mc(X,y,A,method,N,ratio);

图片

图片

结果解释。

predError:每个抽样中的样本预测误差
MEAN:每个样本的平均预测误差
STD:每个样本的预测误差的标准偏差

plot(F) % 诊断图

图片

注:MEAN值高或SD值高的样本更可能是离群值,应考虑在建模前将其剔除。

使用CARS方法进行变量选择。

A=6;
fold=5;
car(X,y,A,fold);

图片

结果解释。

optLV:最佳模型的LV数量
vsel:选定的变量(X中的列)。

plotcars(CARS); % 诊断图

图片

注:在这幅图中,顶部和中间的面板显示了选择变量的数量和RMSECV如何随着迭代而变化。底部面板描述了每个变量的回归系数(每条线对应一个变量)如何随着迭代而变化。星形垂直线表示具有最低RMSECV的最佳模型。

使用移动窗口PLS(MWPLS)进行变量选择

load corn_m51;                      % 示例数据
width=15;                           % 窗口大小
mw(X,y,width);
plot(WP,RMSEF);
xlabel('窗口位置');

图片

注:从该图中建议将RMSEF值较低的区域纳入PLS模型中。

使用蒙特卡洛无信息变量消除法(MCUVE)进行变量选择

N=500;
method='center';

UVE

图片

plot(abs(UVE.RI))

图片

结果解释。RI:UVE的可靠性指数,是对变量重要性的测量,越高越好。

进行变量选择

A=6;
N=10000;
method='center';
FROG=rd_pls(X,y,A,method,N);


              N: 10000
              Q: 2
          model: [10000x700 double]
        minutes: 0.6683
         method: 'center'
          Vrank: [1x700 double]
         Vtop10: [505 405 506 400 408 233 235 249 248 515]
    probability: [1x700 double]
           nVar: [1x10000 double]
          RMSEP: [1x10000 double]

图片

xlabel('变量序号');
ylabel('选择概率');

图片

结果解释:

模型结果是一个矩阵,储存了每一个相互关系中的选择变量。
概率:每个变量被包含在最终模型中的概率。越大越好。这是一个衡量变量重要性的有用指标。


图片

本文摘选 《 Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量选择 》 ,点击“阅读原文”获取全文完整资料。


点击标题查阅往期内容

R语言实现偏最小二乘回归法 partial least squares (PLS)回归
R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归R语言Lasso回归模型变量选择和糖尿病发展预测模型
R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析
Python贝叶斯回归分析住房负担能力数据集
Python用PyMC3实现贝叶斯线性回归模型
R语言区间数据回归分析
R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
PYTHON用时变马尔可夫区制转换(MRS)自回归模型分析经济时间序列
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
基于R语言实现LASSO回归分析
Python用PyMC3实现贝叶斯线性回归模型
使用R语言进行多项式回归、非线性回归模型曲线拟合
R语言中的偏最小二乘回归PLS-DAR语言生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
R语言实现偏最小二乘回归法 partial least squares (PLS)回归
Matlab中的偏最小二乘法(PLS)回归模型,离群点检测和变量选择
偏最小二乘回归(PLSR)和主成分回归(PCR)
R语言如何找到患者数据中具有差异的指标?(PLS—DA分析)

标签:PLS,变量,回归,RMSECV,method,Matlab,离群,模型
From: https://www.cnblogs.com/tecdat/p/17444782.html

相关文章

  • 基于ResNet18深度学习网络的mnist手写数字数据库识别matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:2.算法涉及理论知识概要ResNet系列网络,图像分类领域的知名算法,经久不衰,历久弥新,直到今天依旧具有广泛的研究意义和应用场景。被业界各种改进,经常用于图像识别任务。ResNet-18,数字代表的是网络的深度,也就是说ResNet18网络就是18层的吗?实......
  • 基于ResNet18深度学习网络的mnist手写数字数据库识别matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:    2.算法涉及理论知识概要        ResNet系列网络,图像分类领域的知名算法,经久不衰,历久弥新,直到今天依旧具有广泛的研究意义和应用场景。被业界各种改进,经常用于图像识别任务。ResNet-18,数字代表的是网络的深度,也就......
  • m一级倒立摆的动态模拟和零极点配置控制器matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:   2.算法涉及理论知识概要       倒立摆是一个开环不稳定的强非线性系统,其控制策略与杂技运动员顶杆平衡表演的技巧有异曲同工之处,目的在于使得摆杆处于临界稳定状态,是进行控制理论研究的典型实验平台。20世纪50年代,麻省......
  • 【无人机三维路径规划】基于蚁群算法实现无人机三维路径规划含Matlab代码
    ⛄内容介绍随着无人机可执行任务的多样化,航迹规划成为其顺利完成任务的基本前提。针对该问题,提出了基于蚁群算法的无人机航迹规划方法。运用等效地形模拟方法,将作战区域中的敌方威胁、地形障碍等效为山峰,构建了无人机航迹规划的场景。以此为基础,采用抽象蚁群,对起始点和终点已知的......
  • MATLAB R2023a Mac(专业编程和数学计算软件)
    MATLABr2022b是一款功能强大的编程和数学计算工具,取用于处理科学、工程和数学应用程序中的复杂数据,可用于科学研究、信号处理、计算机视觉,机器学习,人工智能以及相关软件领域。适用范围:MATLAB是一款功能强大的编程工具,可以帮助您完成科学、工程或数学应用程序的开发工作。在您进......
  • 基于压缩感知和KSVD的图像去噪算法matlab仿真
    1.算法仿真效果matlab2022a仿真结果如下:2.算法涉及理论知识概要K-SVD可以看做K-means的一种泛化形式,K-means算法总每个信号量只能用一个原子来近似表示,而K-SVD中每个信号是用多个原子的线性组合来表示的。K-SVD通过构建字典来对数据进行稀疏表示,经常用于图像压缩、编码、分类等......
  • 基于DNN网络的信道估计matlab仿真,仿真输出信道估计值的mse指标
    1.算法仿真效果matlab2022a仿真结果如下:    2.算法涉及理论知识概要       在信道变化迅速的系统中,通常依靠频域的导频子载波进行信道估计。导频子载波按照特定的规则插入到时频两维资源中。导频子载波处的信道响应可以通过最小二乘法(least-square,ls)和线性......
  • 基于DNN网络的信道估计matlab仿真,仿真输出信道估计值的mse指标
    1.算法仿真效果matlab2022a仿真结果如下:2.算法涉及理论知识概要在信道变化迅速的系统中,通常依靠频域的导频子载波进行信道估计。导频子载波按照特定的规则插入到时频两维资源中。导频子载波处的信道响应可以通过最小二乘法(least-square,ls)和线性最小均方误差法(linearminimumm......
  • MATLAB模糊C均值聚类FCM改进的推荐系统协同过滤算法分析MovieLens电影数据集
    全文链接:http://tecdat.cn/?p=32594原文出处:拓端数据部落公众号在当今信息爆炸的时代,电影作为人们生活中不可或缺的娱乐方式,受到了越来越多的关注。而为了让观众能够更好地选择适合自己口味的电影,推荐系统成为了一个备受关注的研究领域。协同过滤算法是其中一种被广泛使用的方法......
  • m基于钱搜索算法的BCH编译码matlab仿真,仿真输出误码率曲线和编码增益曲线
    1.算法仿真效果matlab2022a仿真结果如下:  2.算法涉及理论知识概要 BCH编译码是一种纠错能力强,构造简单的信道编译码。BCH编译码的生成多项式可以由如下的式子表示:  ①BCH码是一种纠错码、线性分组码、循环码。 ②需要传输信息位数:k ③纠错能力:t ④总码长......