目录
前言
偏最小二乘法是一种新型的多元统计数据分析方法,于1983年由S.Wold和C.Albano等人首次提出。偏最小二乘法实现了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。
PCA方法虽解决了自变量共线性的问题,但是并没有考虑自变量主元对于因变量变化的解释作用。所以删除的次要主元有可能包含对回归有益的信息,而保留的主元有可能会夹杂一些对回归模型输出无益的噪声。
PLS方法,通过将自变量和因变量的高维数据空间投影到相应的低维空间,分别得到自变量和因变量的相互正交的特征向量,再建立自变量和因变量的特征向量间的一元线性回归关系。不仅可以克服共线性问题,它在选取特征向量时强调自变量对因变量的解释和预测作用,去除了对回归无益噪声的影响,使模型包含最少的变量数。
知识储备
回归的方法
目前常用的回归方法有以下几种:
- 多元线性回归:入门练习常见,但用在模型上基本无用,因为多个变量之间难免有复杂的相关性,多元线性回归不能处理多个自变量之间的“糅合”性。
- 逻辑回归:当预测的