首页 > 其他分享 >回归分析 3.X 多元线性回归

回归分析 3.X 多元线性回归

时间:2022-11-06 22:15:29浏览次数:51  
标签:prime right mathbf 回归 多元 beta 线性 hat left

多元线性回归模型

参数估计

模型表示

我们先将模型

\[y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\cdots+\beta_{p} x_{i k}+\epsilon_{i}, \quad i=1, \cdots, n \]

表示为下列矩阵形式

\[\mathbf{y}=\mathbf{X} \boldsymbol{\beta}+\varepsilon \]

其中

\[\begin{aligned} \mathbf{y} &=\left[\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{array}\right], \quad \mathbf{X}=\left[\begin{array}{ccccc} 1 & x_{11} & x_{12} & \cdots & x_{1 k} \\ 1 & x_{21} & x_{22} & \cdots & x_{2 k} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n 1} & x_{n 2} & \cdots & x_{n k} \end{array}\right] \\ \boldsymbol{\beta}=\left[\begin{array}{c} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{k} \end{array}\right], \quad \boldsymbol{\varepsilon}=\left[\begin{array}{c} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{array}\right] \end{aligned} \]

将上述表示里的 \(\beta\) 换成 \(\hat{\beta}\) , 则就得到相应的拟合值向量和残差向量

\[\hat{\mathbf{y}}=\mathbf{X} \hat{\beta}, \quad \hat{\varepsilon}=\mathbf{y}-\hat{\mathbf{y}} \]

于是前面的残差平方和就可以表示为

\[S(\beta)=\sum_{i=1}^{n} \varepsilon_{i}^{2}=\varepsilon^{\prime} \varepsilon=(\mathbf{y}-\mathbf{X} \beta)^{\prime}(\mathbf{y}-\mathbf{X} \beta)=\mathbf{y}^{\prime} \mathbf{y}-2 \beta^{\prime} \mathbf{X}^{\prime} \mathbf{y}+\beta^{\prime} \mathbf{X}^{\prime} \mathbf{X} \beta \]

求解

经过优化得到 \(\beta\) 的闭式解
\(\mathbf{X}^{\prime} \mathbf{X} \hat{\beta}=\mathbf{X}^{\prime} \mathbf{y} \Rightarrow \hat{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}\)

拟合值向量

拟合值向量为
\(\hat{y}=\mathbf{X} \hat{\beta}=\mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} y=H y\)

\(H\) 为投影矩阵, \(Hy\) 相当于把 \(y\) 投影到平面

估计的置信区间

由于

\[\frac{\hat{\beta}_{j}-\beta_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)} \sim t_{n-k-1} \]

所以 \(\beta_{j}\) 的 \(1-\alpha\) 置信区间为
\(\hat{\beta}_{j} \pm t_{n-k-1}(1-\alpha / 2) \cdot \text { s.e. }\left(\hat{\beta}_{j}\right)\)

估计的性质

误差的期望与方差:
\(E(\varepsilon)=\boldsymbol{0},~Cov(\varepsilon)=\sigma^2I_n\)

无偏性

由于
\(\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}(\mathbf{X} \boldsymbol{\beta}+\boldsymbol{\varepsilon})=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon\)
所以
\(E(\hat{\beta})=\beta+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E(\varepsilon)=\beta\), 为线性估计

方差

因为
\(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}})=\hat{\boldsymbol{\beta}}-\boldsymbol{\beta}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon\)
所以
\((\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))(\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}}))^{\prime}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \varepsilon \varepsilon^{\prime} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\)
协方差为

\[\begin{array}{c} \operatorname{Cov}(\hat{\boldsymbol{\beta}})=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} E\left(\varepsilon \varepsilon^{\prime}\right) \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \\ =\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \sigma^{2} I_{n} \mathbf{X}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}=\sigma^{2}\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \end{array}\]

回归方差的估计

因为

\[\begin{array}{c} \hat{\varepsilon}= y-\hat{y} \\ =y-Hy \\ =(I-H)y\\ =(I-H)(X\beta-\varepsilon)\\ =X\beta-X(X'X)^{-1}X'X\beta+(I-H)\varepsilon\\ =(I-H)\varepsilon \end{array}\]

\[\begin{aligned} E(SS_{res})&= \hat{\varepsilon}^{\top}\hat{\varepsilon}\\ &=\varepsilon^{\top}(I-H)^{\top}(I-H)\varepsilon\\ &=\varepsilon^{\top}(I-H)\varepsilon \end{aligned} \]

所以

\[\begin{aligned} E\left(SS{\text {res }}\right) &=E\left(\sum_{i}\sum_{j} M_{i j} \varepsilon_{i} \varepsilon_{j}\right) \\ &=\sum_{i}^{n} M_{ii} \sigma^{2} \\ &=\sigma^{2} \operatorname{tr}(M) \\ &=\sigma^{2} \operatorname{tr}(I-H) \\ &=\sigma^{2} \operatorname{tr}(I)-\sigma^{2} \operatorname{tr}(H) \\ &=n \sigma^{2}-\sigma^{2} \operatorname{tr}\left(I_{p}\right) \\ &=(n-p) \sigma^{2} \\ &=\sigma^{2}(n-k-1) \end{aligned}\]

所以

\[E(\frac{SS_{res}}{(n-k-1)})=\sigma^2 \]

所以方差的估计量为
\(\hat{\sigma}^{2}=\frac{1}{n-k-1} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i 1}-\cdots-\hat{\beta}_{k} x_{i k}\right)^{2}\)

估计方差性质

无偏性

证明 我们要先验证下列这些结论

  • \(E\left(\varepsilon^{\prime} A \varepsilon\right)=\sigma^{2} \operatorname{tr}(A)\)
  • \(\operatorname{tr}\left(I_{n}\right)=n\)
  • \(\operatorname{tr}(H)=\operatorname{tr}\left(X\left(X^{\prime} X\right)^{-1} X^{\prime}\right)=k+1\) (要用到性质 \(\operatorname{tr}(A B)= \operatorname{tr}(B A))\)。
  • \(\hat{y}=H y, \quad \hat{\varepsilon}=\left(I_{n}-H\right) \varepsilon\)
  • 帽子矩阵 \(H\) 和 \(I_{n}-H\) 都是对称幂等矩阵

于是
\(E\left(S S_{r e s}\right)=E(\hat{\varepsilon}^{\prime} \hat{\varepsilon})=E[\varepsilon^{\prime}(I_{n}-H) \varepsilon]=\sigma^{2} \operatorname{tr}\left(I_{n}-H\right)=\sigma^{2}(n-k-1)\)

所以
\(E\left(\hat{\sigma}^{2}\right)=\sigma^{2}\)

估计的标准误差

\(S.E.\left(\hat{\beta}_{i}\right)=\sqrt{\hat{Var(\beta_i)}}=\hat{\sigma} \sqrt{C_{i i}}\)

区间估计

响应变量条件均值的置信区间

\(\text { 记 } x_{0}=\left(1, x_{01}, x_{02}, \cdots, x_{0 k}\right)^{\prime} \text {, 则 } E\left(y \mid x_{0}\right)=x_{0}^{\prime} \beta\), 所以点估计为 \(\hat{y_0}=x_0'\hat{\beta}\)

\(E\left(\hat{y}_{0}\right)=x_{0}^{\prime} \beta, \quad \operatorname{Var}\left(\hat{y}_{0}\right)=x_{0}^{\prime} \operatorname{Cov}(\hat{\beta}) x_{0}=\sigma^{2} x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}\)

所以

\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{\sigma \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1) \]

\[\frac{\hat{y}_{0}-E\left(y \mid x_{0}\right)}{{\hat{\sigma}} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1} \]

所以 \(E\left(y \mid x_{0}\right)\) 的置信区间为

\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}} \]

未知观测值的置信区间

如果要对给定 \(x=x_{0}\) 时的响应变量值进行预测, 则显然点预测交 \(\hat{y}_{0}=x_{0}^{\prime} \hat{\beta}\) , 则预测误差为 \(e_{0}=y_{0}-\hat{y}_{0}=x_{0}^{\prime} \beta+\epsilon_{0}-x_{0}^{\prime} \hat{\beta}\) 满足

\[E\left(e_{0}\right)=0, \quad \operatorname{Var}\left(e_{0}\right)=\sigma^{2}\left[1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}\right] \]

于是

\[\frac{y_{0}-\hat{y}_{0}}{\sigma \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim N(0,1) \]

\[\frac{y_{0}-\hat{y}_{0}}{\hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}}} \sim t_{n-k-1} \]

从而 \(y_{0}\) 的预测区间为

\[\hat{y}_{0} \pm t_{n-k-1}(1-\alpha / 2) \cdot \hat{\sigma} \sqrt{1+x_{0}^{\prime}\left(X^{\prime} X\right)^{-1} x_{0}} \]

标准化回归系数

意义

避免只根据回归系数的大小误判解释变量在模型中的重要性

做法

假设标准化之前的回归结果是 \(y_{i}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{i 1}+\hat{\beta}_{2} x_{i 2}+\hat{u}_{i}\)

由于 \(\left(\bar{x}_{1}, \bar{x}_{2}, \bar{y}\right)\) 在样本回归线上, 因此

\[\bar{y}=\hat{\beta}_{0}+\hat{\beta}_{1} \bar{x}_{1}+\hat{\beta}_{2} \bar{x}_{2} \]

两式相减并除以被解释变量的样本标准差得到

\[\frac{y_{i}-\bar{y}}{\hat{\sigma}_{y}}=\frac{\hat{\sigma}_{x_{1}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 1}-\bar{x}_{1}}{\hat{\sigma}_{x_{1}}}+\frac{\hat{\sigma}_{x_{2}}}{\hat{\sigma}_{y}} \hat{\beta}_{1} \cdot \frac{x_{i 2}-\bar{x}_{2}}{\hat{\sigma}_{x_{2}}}+\frac{\hat{u}_{i}}{\hat{\sigma}_{y}} \]

得到标准化前后估计之间的关系

\[\hat{b}_{j}=\frac{\hat{\sigma}_{x_{j}}}{\hat{\sigma}_{y}} \hat{\beta}_{j} \]

多重共线性

解释变量之间的近似线性相关关系

影响

当存在完全共线性时,矩阵 \(X'X\) 是奇异的;当存在严重的近似 共线性时,\(X'X\) 就会接近奇异

此时 \(\operatorname{Var}(\hat{\beta})\) 作为 \(\sigma^{2}\left(X^{\prime} X\right)^{-1}\) 的对角元, 就会比较大。

事实上, 可以证明

\[\operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{S_{x_{j} x_{j}}} \cdot \frac{1}{1-R_{j}^{2}} \]

其中 \(R_{j}^{2}\) 为回归 \(x_{j} \sim x_{1}+\cdots+x_{j-1}+x_{j+1}+\cdots+x_{k}\) 的决定系数 \(R^{2}\) , 度量了 \(x_{j}\) 和其它解释变量之间的共线性程度。

在建模事件中, 把 \(1 /\left(1-R_{j}^{2}\right)\) 定义为方差膨胀因子,

\[V I F_{j}=\frac{1}{1-R_{j}^{2}} \]

通常, 如果 VIF 大于 10 , 可以认为存在较严重的多重共线性。

假设检验

回归显著性检验

所有变量显著性检验

原假设与备择假设

\[\begin{array}{l} H_{0}: \beta_{1}=\beta_{2}=\cdots=\beta_{k}=0 \\ \leftrightarrow H_{1}: \exists 1 \leq j \leq k, \quad \beta_{j} \neq 0 \end{array}\]

需要构造检验统计量
因为我们假设模型有 \(\varepsilon \sim N_n(0,\sigma^2I_n)\)
因此有

\[\frac{SS_{res}}{\sigma^2}=\frac{\varepsilon'(I_n-H)\varepsilon}{\sigma^2}=\frac{\varepsilon'Q\Sigma Q^\top\varepsilon}{\sigma^2}=\frac{(Q^\varepsilon)'}{\sigma}\Sigma\frac{Q^\top\varepsilon}{\sigma}=y'\Sigma y=\sum_{i=1}^{n-p}y_i^2\sim\chi^2(n-p) \]

因此构造$$F_{0}=\frac{M S_{r e g}}{M S_{r e s}}=\frac{S S_{r e g} / k}{S S_{r e s} /(n-k-1)} \stackrel{H_{0}}{\sim} F_{k, n-k-1}$$

当原假设成立时, \(F_0\) 会小, 所以当 \(F_0>F_{k,n-k-1}(1-\alpha)\), 拒绝原假设

单个变量显著性检验

原假设与备择假设

\[H_{0}: \beta_{j}=0 \leftrightarrow H_{1}: \beta_{j} \neq 0 \]

检验统计量

\[t_{0}=\frac{\hat{\beta}_{j}}{\text { s.e. }\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}}{\sigma \sqrt{C_{j j}}} \cdot \frac{\sigma}{\hat{\sigma}}=\frac{\hat{\beta}_{j} / \sigma \sqrt{C_{j j}}}{\sqrt{\frac{1}{n-k-1} \cdot \frac{S S_{r e s}}{\sigma^{2}}}} \stackrel{H_{0}}{\sim} t_{n-k-1} \]

当 \(t_0>t_{n-k-1}(1-\alpha/2)\), 拒绝原假设

子集显著性检验 (检验解释变量的某个子集是联合不显著的)

原假设与备择假设

\[H_{0}: \beta_{3}=0, \beta_{4}=0, \beta_{5}=0 \]

检验原理:
无约束的模型相对于约束模型添加了三个变量,这将导致模型拟 合优度的增加,即残差平方和的减小和回归平方和的增大,我们可以通过比较这两个模型残差平方和的差值是否足够大来检验原假设是否可以被拒绝,如果足够大,就意味着新加入模型的三个变量(对模型拟合的影响)是显著的.

检验统计量

\[F_{0}=\frac{\left(S S_{r e s}^{H_{0}}-S S_{r e s}\right) / r}{S S_{r e s} /(n-k-1)} \]

当 \(F0\) 大于 \(F_{r,n−k−1}\) 分布的 \((1 − α)\) 分位点时,拒绝原假设.

当 \(r =1\) 时,上面的 \(F\) 检验和 \(t\) 显著性检验是等价的,事实上, \(F_{1,n−k−1} = t^2_{n−k−1}\).

拟合优度改进

\(R^2\) 原本存在的问题

当添加的变量与解释变量无关或其对解释变量的影响不显著时,这种拟合优度上的增加就是没有意义的

因此我们需要对传统的 \(R^2\) 进行改进

\(R_{adj}\)

\[R^{2}=\frac{S S_{r e g}}{S S_{T}}=1-\frac{S S_{r e s}}{S S_{T}}, \quad R_{a d j}^{2}=1-\frac{S S_{\text {res }} /(n-k-1)}{S S_{T} /(n-1)} \]

通过添加自由度来调整

标签:prime,right,mathbf,回归,多元,beta,线性,hat,left
From: https://www.cnblogs.com/WilliamHuang2022/p/16791883.html

相关文章

  • 实验二:逻辑回归算法实验
    【实验目的】理解逻辑回归算法原理,掌握逻辑回归算法框架;理解逻辑回归的sigmoid函数;理解逻辑回归的损失函数;针对特定应用场景及数据,能应用逻辑回归算法解决实际分类问题。......
  • 实验二:逻辑回归算法实验
    【实验目的】1.理解逻辑回归算法原理,掌握逻辑回归算法框架;2.理解逻辑回归的sigmoid函数;3.理解逻辑回归的损失函数;4.针对特定应用场景及数据,能应用逻辑回归算法解决实际分......
  • 拓端数据tecdat|R语言多项式回归拟合非线性关系
     多项式回归是独立x变量和因果y变量之间的非线性关系。当我们分析有一些弯曲的波动数据时,拟合这种类型的回归是很关键的。 在这篇文章中,我们将学习如何在R中拟合和绘制多......
  • 拓端数据tecdat|R语言时变面板平滑转换回归模型TV-PSTR分析债务水平对投资的影响
     当采用两种状态时,单转换函数PSTR模型具有两个变量:我们的经验方法的基础包括评估N个国家的资本流动性。相应的模型定义如下:其中,Iit是第i个国家在时间t时观察到的国内投资与......
  • 拓端数据tecdat|R语言生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
    引言本文是一个简短的教程,在R中拟合BRT(提升回归树)模型。我们的目标是使BRT(提升回归树)模型应用于生态学数据,并解释结果。本教程的目的是帮助你学习如何在R中开发一个BRT模型......
  • 实验二:逻辑回归算法实验
    实验二:逻辑回归算法实验 【实验目的】理解逻辑回归算法原理,掌握逻辑回归算法框架;理解逻辑回归的sigmoid函数;理解逻辑回归的损失函数;针对特定应用场景及数据,能应用逻......
  • 逻辑回归算法实验
    【实验目的】理解逻辑回归算法原理,掌握逻辑回归算法框架;理解逻辑回归的sigmoid函数;理解逻辑回归的损失函数;针对特定应用场景及数据,能应用逻辑回归算法解决实际分类问题。......
  • 实验二:逻辑回归算法实验
    【实验目的】理解逻辑回归算法原理,掌握逻辑回归算法框架;理解逻辑回归的sigmoid函数;理解逻辑回归的损失函数;针对特定应用场景及数据,能应用逻辑回归算法解决实际分类问题。......
  • 实验二:逻辑回归算法实验
    【实验目的】理解逻辑回归算法原理,掌握逻辑回归算法框架;理解逻辑回归的sigmoid函数;理解逻辑回归的损失函数;针对特定应用场景及数据,能应用逻辑回归算法解决实际分类问题。......
  • 实验二:逻辑回归算法实验
    实验二:逻辑回归算法实验 【实验目的】1.理解逻辑回归算法原理,掌握逻辑回归算法框架;2.理解逻辑回归的sigmoid函数;3.理解逻辑回归的损失函数;4.针对特定应用场景及数据,......