拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA

时间：2022-11-27 21:37:17浏览次数：45

标签：PLS 变量模型 tecdat DA RF 拓端 PCA

R语言中的偏最小二乘回归PLS-DA

主成分回归（PCR）的方法本质上是使用第一个方法的普通最小二乘（OLS）拟合

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_数据集

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_方差_02

来自预测变量的主成分（PC）。这带来许多优点：

预测变量的数量实际上没有限制。
相关的预测变量不会破坏回归拟合。

但是，在许多情况下，执行类似于PCA的分解要明智得多。

今天，我们将在Arcene数据集上执行PLS-DA，其中包含100个观察值和10,000个解释变量。

让我们开始使用R

癌症/无癌标签（编码为-1 / 1）存储在不同的文件中，因此我们可以将其直接附加到完整的数据集，然后使用公式语法来训练模型。

# Load caret, install if necessary
library(caret)
arcene <- read.table("http://archive.ics.uci.edu/ml/machine-learning-databases/arcene/ARCENE/arcene_train.data", sep = " ",
 colClasses = c(rep("numeric", 10000), "NULL"))

# Add the labels as an additional column
arcene$class <- factor(scan("https://archive.ics.uci.edu/ml/machine-learning-databases/arcene/ARCENE/arcene_train.labels", sep = "\t"))

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_交叉验证_03

，现在的主要问题是：

我们如何根据其血清的MS谱准确预测患者是否生病？
哪种蛋白质/ MS峰最能区分患者和健康患者？

关于预处理，我们将使用preProc参数以精确的顺序删除零方差预测变量，并对所有剩余的变量进行标准化。考虑样本的大小（n= 100），我将选择10倍的重复5倍交叉验证（CV）–大量重复补偿了因减少的折叠次数而产生的高方差–总共进行了50次准确性估算。

# Compile cross-validation settings
set.seed(100)
myfolds <- createMultiFolds(arcene$class, k = 5, times = 10)
control <- trainControl("repeatedcv", index = myfolds, selectionFunction = "oneSE")

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_数据集_04

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_方差_05

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_交叉验证_06

此图描绘了CV曲线，在这里我们可以学习从使用不同数量的LV（x轴）训练的模型中获得的平均准确度（y轴，％）。

现在，我们进行线性判别分析（LDA）进行比较。我们还可以尝试一些更复杂的模型，例如随机森林（RF）。

最后，我们可以比较PLS-DA，PCA-DA和RF的准确性。

我们将使用caret :: resamples编译这三个模型，并借用ggplot2的绘图功能来比较三种情况下最佳交叉验证模型的50个准确性估计值。

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_交叉验证_07

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_交叉验证_08

显然，长时间的RF运行并没有转化为出色的性能，恰恰相反。尽管三个模型的平均性能相似，但RF的精度差异要大得多，如果我们要寻找一个健壮的模型，这当然是一个问题。在这种情况下，PLS-DA和PCA-DA表现出最好的性能（准确度为63-95％），并且这两种模型在诊断新血清样品中的癌症方面都表现出色。

总而言之，我们将使用PLS-DA和PCA-DA中预测的可变重要性（ViP）确定十种最能诊断癌症的蛋白质。

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_交叉验证_09

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_交叉验证_10

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_方差_11

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA_数据集_12

上面的PLS-DA ViP图清楚地将V1184与所有其他蛋白质区分开。这可能是一个有趣的癌症生物标志物。当然，必须进行许多其他测试和模型以提供可靠的诊断工具。

如果您有任何疑问，请在下面发表评论。

标签：PLS,变量,模型,tecdat,DA,RF,拓端,PCA
From： https://blog.51cto.com/u_14293657/5890349

拓端tecdat|R语言代写大数据分析纽约市的311万条投诉统计可视化与时间序列分析
R语言大数据分析纽约市的311万条投诉统计可视化与时间序列分析介绍本文并不表示R在数据分析方面比Python更好或更快速，我本人每天都使用两种语......
拓端tecdat|用于NLP的Python代写辅导：使用Keras的多标签文本LSTM神经网络分类
用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类介绍在本文中，我们将看到如何开发具有多个输出的文本分类模型。我们将开发一个文本分类......
拓端tecdat|R语言代码编写析因设计分析：线性模型中的对比
R语言析因设计分析：线性模型中的对比对比度可用于对线性模型中的处理进行比较。常见的用途是使用析因设计时，除析因设计外还使用控制或检查处理。在......
拓端tecdat|适用于NLP自然语言处理的Python代写：使用Facebook FastText库
适用于NLP自然语言处理的Python：使用FacebookFastText库在本文中，我们将研究FastText，它是用于单词嵌入和文本分类的另一个极其有用的模块......
拓端tecdat|R语言代码编写逻辑回归、方差分析、伪R平方分析
R语言逻辑回归、方差分析、伪R平方分析目录怎么做测试假设条件并非所有比例或计数都适用于逻辑回归分析过度分散伪R平方测试p值Logistic回归示......
拓端tecdat|R语言编程指导预测人口死亡率：用李·卡特模型、非线性模型进行平滑估计
R语言预测人口死亡率：用李·卡特模型、非线性模型进行平滑估计今天早上，我和同事一起分析死亡率。我们在研究人口数据集，可以观察到很多波动性。......
拓端tecdat|R语言编程指导中的block Gibbs吉布斯采样贝叶斯多元线性回归
R语言中的blockGibbs吉布斯采样贝叶斯多元线性回归在这篇文章中，我将对多元线性回归做同样的事情。我将得出block的Gibbs采样器所需的条件后验分......
拓端tecdat|R语言编程指导LME4混合效应模型研究教师的受欢迎程度
R语言LME4混合效应模型研究教师的受欢迎程度介绍本教程对多级回归进行了基本介绍。本教程期望：多级分析的基础知识。R中编码的基础知识......
拓端tecdat|R语言编程指导对混合分布中的不可观测与可观测异质性因子分析
R语言对混合分布中的不可观测与可观测异质性因子分析今天上午，在课程中，我们讨论了利率制定中可观察和不可观察异质性之间的区别（从经济角度出发）。为了......
拓端tecdat|R语言编程指导模拟人类生活预期寿命动态可视化动画图gif
R语言模拟人类生活预期寿命动态可视化动画图gif 这周，我在http://waitbutwhy.com/上发现了一张图片，它代表了典型的人类生活，我觉得很......

拓端tecdat|R语言代码编写偏最小二乘回归PLS-DA

让我们开始使用R

如果您有任何疑问，请在下面发表评论。

相关文章

赞助商

阅读排行