首页 > 其他分享 >详解线性回归-最小二乘法及其几何意义&最小二乘法-概率视角-高斯噪声-MLE【白板推导系列笔记】

详解线性回归-最小二乘法及其几何意义&最小二乘法-概率视角-高斯噪声-MLE【白板推导系列笔记】

时间:2022-10-05 10:00:17浏览次数:88  
标签:begin end MLE 最小 beta pmatrix vdots omega 乘法

$$

\begin{gathered}

D=\left{(x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{N},y_{N})\right}\

x_{i}\in \mathbb{R}^{p},y_{i}\in \mathbb{R},i=1,2,\cdots ,N\

X=\begin{pmatrix}

x_{1} & x_{2} & \cdots  & x_{N}

\end{pmatrix}^{T}=\begin{pmatrix}

x_{1}^{T} \ x_{2}^{T} \ \vdots  \ x_{N}^{T}

\end{pmatrix}=\begin{pmatrix}

x_{11} & x_{12} & \cdots  & x_{1p} \ x_{21} & x_{22} & \cdots  & x_{2p} \ \vdots  & \vdots  &  & \vdots  \ x_{N1} & x_{N2} & \cdots  & x_{Np}

\end{pmatrix}_{N \times p}\

Y=\begin{pmatrix}

y_{1} \ y_{2} \ \vdots  \ y_{N}

\end{pmatrix}_{N \times 1}

\end{gathered}

$$

 

因此,对于最小二乘估计,有

$$

\begin{aligned}

L(\omega)&=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}\

&=\sum\limits_{i=1}^{N}(\omega^{T}x_{i}-y_{i})^{2}\

&=\begin{pmatrix}

\omega^{T}x_{1}-y_{1} & \omega^{T}x_{2}-y_{2} & \cdots  & \omega^{T}x_{N}-y_{N}

\end{pmatrix}\begin{pmatrix}

\omega^{T}x_{1}-y_{1} \ \omega^{T}x_{2}-y_{2} \ \vdots  \ \omega^{T}x_{N}-y_{N}

\end{pmatrix}\

&=[\begin{pmatrix}

\omega^{T}x_{1} & \omega^{T}x_{2} & \cdots  & \omega^{T}x_{N}

\end{pmatrix}-\begin{pmatrix}

y_{1} & y_{2} & \cdots  & y_{N}

\end{pmatrix}]\begin{pmatrix}

\omega^{T}x_{1}-y_{1} \ \omega^{T}x_{2}-y_{2} \ \vdots  \ \omega^{T}x_{N}-y_{N}

\end{pmatrix}\

&=[\omega^{T}\begin{pmatrix}

x_{1} & x_{2} & \cdots  & x_{N}

\end{pmatrix}-\begin{pmatrix}

y_{1} & y_{2} & \cdots  & y_{N}

\end{pmatrix}]\begin{pmatrix}

\omega^{T}x_{1}-y_{1} \ \omega^{T}x_{2}-y_{2} \ \vdots  \ \omega^{T}x_{N}-y_{N}

\end{pmatrix}\

&=(\omega^{T}X^{T}-Y^{T})\begin{pmatrix}

\omega^{T}x_{1}-y_{1} \ \omega^{T}x_{2}-y_{2} \ \vdots  \ \omega^{T}x_{N}-y_{N}

\end{pmatrix}\

&=(\omega^{T}X^{T}-Y^{T})(X \omega-Y)\

&=\omega^{T}X^{T}X \omega-2 \omega^{T}X^{T}Y+Y^{T}Y

\end{aligned}

$$

对于$\hat{\omega}$,有

$$

\begin{aligned}

\hat{\omega}&=\text{argmin }L(\omega)\

\frac{\partial L(\omega)}{\partial \omega}&=2X^{T}X \omega-2X^{T}Y\

2X^{T}X \omega-2X^{T}Y&=0\

\omega&=(X^{T}X)^{-1}X^{T}Y

\end{aligned}

$$

 

补充:矩阵求导法则

$$\begin{aligned} x&=\begin{pmatrix}x_{1} & x_{2} & \cdots & x_{n}\end{pmatrix}\f(x)&=Ax,则\frac{\partial f (x)}{\partial x^T}  = \frac{\partial (Ax)}{\partial x^T}  =A\f(x)&=x^TAx,则\frac{\partial f (x)}{\partial x}  = \frac{\partial (x^TAx)}{\partial x}  =Ax+A^Tx\f(x)&=a^{T}x,则\frac{\partial a^Tx}{\partial x}  = \frac{\partial x^Ta}{\partial x}  =a\f(x)&=x^{T}Ay,则\frac{\partial x^TAy}{\partial x}  = Ay,\frac{\partial x^TAy}{\partial A}  = xy^T\end{aligned}$$

作者:zealscott

链接:矩阵求导法则与性质

 

在几何上,最小二乘法相当于模型(这里就是直线)和试验值的距离的平方求和,假设我们的试验样本张成一个 $p$ 维空间(满秩的情况):$X=Span(x_1,\cdots,x_N)$,而模型可以写成 $f(w)=x_{i}^{T}\beta$,也就是 $x_1,\cdots,x_N$ 的某种组合,而最小二乘法就是说希望 $Y$ 和这个模型距离越小越好,于是它们的差应该与这个张成的空间垂直:

$$X\bot(Y-X\beta)\longrightarrow X^T\cdot(Y-X\beta)=0_{p\times1}\longrightarrow\beta=(X^TX)^{-1}X^TY$$

作者:tsyw

链接:线性回归 · 语雀 (yuque.com)

这里个人理解,有几点

  1. 由于$X=\begin{pmatrix}x_{1}^{T} \ x_{2}^{T} \ \vdots  \ x_{N}^{T}\end{pmatrix}$,因此$x_{i}^{T}\beta$就是$X \beta$

  2. 一般$Y$是不在$p$维空间中的

  3. $$\begin{aligned} X \beta&=\begin{pmatrix}x_{11} & x_{12} & \cdots  & x_{1p} \ x_{21} & x_{22} & \cdots  & x_{2p} \ \vdots  & \vdots  &  & \vdots  \ x_{N1} & x_{N2} & \cdots  & x_{Np}\end{pmatrix}\begin{pmatrix}\beta_{1} \ \beta_{2} \ \vdots  \ \beta_{p}\end{pmatrix}\&=\beta_{1}\begin{pmatrix}x_{11} \ x_{21} \ \vdots  \ x_{N1}\end{pmatrix}+\beta_{2}\begin{pmatrix}x_{12} \ x_{22} \ \vdots  \ x_{N2}\end{pmatrix}+\cdots +\beta_{p}\begin{pmatrix}x_{1p} \ x_{2p} \ \vdots  \ x_{Np}\end{pmatrix}\end{aligned}$$

    这里可以看做是$\beta$在矩阵$X$的作用下,从原来$\begin{pmatrix}1  \ 0 \ \vdots  \ 0\end{pmatrix},\begin{pmatrix}0 \ 1 \ \vdots  \ 0\end{pmatrix},\cdots ,\begin{pmatrix}0 \ 0 \ \vdots  \ 1\end{pmatrix}$基底映射到新的基底$\begin{pmatrix}x_{11} \ x_{21} \ \vdots  \ x_{N1}\end{pmatrix},\begin{pmatrix}x_{12} \ x_{22} \ \vdots  \ x_{N2}\end{pmatrix},\cdots ,\begin{pmatrix}x_{1p} \ x_{2p} \ \vdots  \ x_{Np}\end{pmatrix}$,因此新的向量$X \beta$一定是在$p$维空间内的,又因为$Y$一般不在$p$维空间内,因此求向量$Y$与$X \beta$的最短距离,应当调整$\beta$,使得$Y-X \beta$所代表的的向量恰好与$p$维空间垂直,此时即为最小。因此有$X^{T}\bot(Y -X \beta)=\boldsymbol{0}$

 

对于一维的情况,记$y=\omega^{T}x+\epsilon ,\epsilon \sim N(0,\sigma^{2})$,那么

$$

y|x;\omega \sim N(\omega^{T}x, \sigma^{2})

$$

注意这里$x$为已知数据集,$\omega$为参数,因此$y$与$\epsilon$同分布

$$

P(y|x;\omega)=\frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left[ \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}\right]

$$

最大似然估计即为

$$

\begin{aligned}

L(\omega)&=\log P(Y|X;\omega)\

&=\log \prod\limits_{i=1}^{N}P(y_{i}|x_{i};\omega)\

&=\sum\limits_{i=1}^{N}\log P(y_{i}|x_{i};\omega)\

&=\sum\limits_{i=1}^{N}\left{\log \frac{1}{\sqrt{2\pi}\sigma}+\log \text{exp}\left[- \frac{(y_{i}-\omega^{T}x)^{2}}{2\sigma^{2}}\right]\right}\

\hat{\omega}&=\mathop{argmax }\limits_{\omega}L(\omega)\

&=\mathop{argmax }\limits_{\omega}\left[- \frac{1}{2\sigma^{2}}(y_{i}-\omega^{T}x_{i})^{2}\right]\

&=\mathop{argmin }\limits_{\omega}(y_{i}-\omega^{T}x_{i})^{2}

\end{aligned}

$$

 

到目前为止对于确定$\omega$的问题来说,最大化似然函数等价于最小化由公式

$$E(\omega)=\frac{1}{2}\sum\limits_{n=1}^{N}[y(x_{n},\omega)-t_{n}]^{2}$$

定义的平方和误差函数。因此,在高斯噪声的假设下,平方和误差函数是最大化似然函数的一个自然结果

来源:《PRML Translation》-P27

作者:马春鹏

原著:《Pattern Recognition and Machine Learning》

作者:Christopher M. Bishop

 

在PRML中还有对精度矩阵$\beta$,也就是这里的$\sigma^{2}$的最大似然估计。这里$y$就是PRML中的$t$

(不做特殊说明都用PRML中的符号)

$$

\begin{aligned}

\ln p(T|X,\omega,\beta)&=- \frac{\beta}{2}\sum\limits_{n=1}^{N}[y(x_{n},\omega)-t_{n}]^{2}+ \frac{N}{2}\ln \beta- \frac{N}{2}\ln (2 \pi)\

\hat{\beta}&=\mathop{argmax\space}\limits_{\beta}\left{- \beta\sum\limits_{n=1}^{N}[y(x_{n},\omega)-t_{n}]^{2}+ N\ln \beta\right}=L(\beta)\

\frac{\partial L(\beta)}{\partial \beta}&=\sum\limits_{n=1}^{N}[y(x_{n},\omega_\text{MLE})-t_{n}]^{2}- \frac{N}{\beta_\text{MLE}}=0\

\frac{1}{\beta_\text{MLE}}&=\frac{1}{N}\sum\limits_{n=1}^{N}[y(x_{n},\omega_\text{MLE})-t_{n}]^{2}

\end{aligned}

$$

标签:begin,end,MLE,最小,beta,pmatrix,vdots,omega,乘法
From: https://blog.51cto.com/u_15767241/5732286

相关文章

  • 矩阵乘法(快速幂)结合dp结合除法逆元的例题
    https://atcoder.jp/contests/abc271/tasks/abc271_g题目的思路为:构建dp矩阵,dp[i][j][k]表示开始前停在j,结束后停在k,且停下时恰好出现2^i次访问的概率则dp[i]=dp[i-1]*d......
  • lotus 1.16.0 最小快照导出 导入 (转)
    原文地址:https://mixboot.blog.csdn.net/article/details/126065029lotus1.16.0最小快照导出导入系列文章目录前言一、lotus二、导出最小快照1.后台导出快照三、导入快......
  • P5431 【模板】乘法逆元 2
    1#include<bits/stdc++.h>2usingnamespacestd;3typedeflonglongll;4constintN=5e6+10;5llfac[N],sv[N],inv[N],a[N];6lln,p,k;7v......
  • 把数组排成最小的数
    问题描述:输入一个非负整数数组numbers,把数组里所有数字拼接起来排成一个数,打印能拼接出的所有数字中最小的一个。例如输入数组[3,32,321],则打印出这三个数字能排成的最小数......
  • AcWing 算法提高课 矩阵乘法
    可以用快速幂的形式求大量的相同矩阵乘法。1、快速幂求斐波那契数列的第n项(n很大)先将斐波那契数列的递推转化成矩阵形式 然后用快速幂求解A^n 例题:求斐波那契数列......
  • 证明微分乘法律 $ d(\lambda \mu)=\lambda d\mu + \mu d\lambda $
    对微分乘法法则的推导,即证明:$\quadd(\lambda\mu)=\lambdad\mu+\mud\lambda$\[\\\\\]\[若y=\mu\lambda,\quad\lambda=f(x),\quad\mu=g(x),二者均以x......
  • AcWing算法提高课 龟速乘(防止由于MOD过大使乘法爆long long)
    在求a*b%MOD的时候,如果MOD>1e10,则即便使用a%MOD*b%MOD,依旧有可能会爆longlong故可以利用和快速幂相似的思想,将乘法按位转化为加法,避免报longlong龟速乘模板:LLSlowM......
  • 竞赛-6194. 最小 XOR
    解题思路 1、二进制中num的1的数量等于num2中的1的数量 2、num1中二进制,和num前面相同,后面不同,这样异或操作后得到的最小, 3、相同部分不变,不同部分都是0,如果还有1......
  • 乘法口诀
    #define_CRT_SECURE_NO_WARNINGS1#include<stdio.h>intmain(){inti=0;for(i=1;i<=9;i++){intj=0;for(j=1;j<=i;j++){printf("%......
  • 311. Sparse Matrix Multiplication 稀疏矩阵的乘法
    Giventwo sparsematrices mat1 ofsize mxk and mat2 ofsize kxn,returntheresultof mat1xmat2.Youmayassumethatmultiplicationisalwayspo......