首页 > 其他分享 >多元线性回归损失函数求导过程 均方误差推导过程 最小二乘法推导

多元线性回归损失函数求导过程 均方误差推导过程 最小二乘法推导

时间:2024-09-14 23:20:44浏览次数:14  
标签:方程 推导 公式 矩阵 微分 均方 求导 化项

1. 方程2-8:
           L = y^T y - y^T X \hat{w} - \hat{w}^T X^T y + \hat{w}^T X^T X \hat{w}

2. 对方程2-8关于 \hat{w} 求导:
           \frac{\partial L}{\partial \hat{w}} = \frac{\partial y^T y}{\partial \hat{w}} - \frac{\partial y^T X \hat{w}}{\partial \hat{w}} - \frac{\partial \hat{w}^T X^T y}{\partial \hat{w}} + \frac{\partial \hat{w}^T X^T X \hat{w}}{\partial \hat{w}}

3. 分别求导:

  •     \frac{\partial y^T y}{\partial \hat{w}} = 0,因为 y^T y 与 \hat{w} 无关。
  •     \frac{\partial y^T X \hat{w}}{\partial \hat{w}} = y^T X,根据矩阵微分公式 \frac{\partial a^T x}{\partial x} = a
  •     \frac{\partial \hat{w}^T X^T y}{\partial \hat{w}} = X^T y,根据矩阵微分公式 \frac{\partial x^T a}{\partial x} = a
  •     \frac{\partial \hat{w}^T X^T X \hat{w}}{\partial \hat{w}} = 2 X^T X \hat{w},根据矩阵微分公式 \frac{\partial x^T A x}{\partial x} = (A + A^T) x,这里 A = X^T X 是对称矩阵,所以 A + A^T = 2A

4. 将求导结果代入:
           \frac{\partial L}{\partial \hat{w}} = 0 - y^T X - X^T y + 2 X^T X \hat{w}

            说明:矩阵乘法和向量的内积(点乘)是可交换的,所以:y^T X = X^T y

5. 整理得到公式2-13:
           \frac{\partial L}{\partial \hat{w}} = - X^T y - X^T y + 2 X^T X \hat{w}

           简化:

                \frac{\partial L}{\partial \hat{w}} = -2 X^T y + 2 X^T X \hat{w}

                \frac{\partial L}{\partial \hat{w}} = 2(X^T X \hat{w} - X^T y)

6. X^T X为满秩矩阵或者正定矩阵设置偏导数等于0来找到最小化损失函数的 \hat{w} :

        \hat{w} = (X^T X)^{-1} X^T y

        这是线性回归中最常见的正规方程。

7. 矩阵 X^T X 不是满秩矩阵时

它可能不可逆,从而导致参数 \hat{w} 无法直接求解。通过添加正则化项 \lambda I,可以确保 X^T X + \lambda I 是满秩的,从而保证矩阵的可逆性。

        \hat{w}^* = (X^T X + \lambda I)^{-1} X^T y

        正则化项 \lambda I 中的 \lambda 是一个正数, I 是单位矩阵。

标签:方程,推导,公式,矩阵,微分,均方,求导,化项
From: https://blog.csdn.net/u013172930/article/details/142172431

相关文章

  • Exgcd 和 Excrt 的一些推导
    Exgcd和Excrt的一些推导ExgcdExgcd是用来求解二元一次不定方程的算法,即\[ax+by=c\]根据贝祖定理,该方程有解当且仅当\(\gcd(a,b)\midc\),所以只用求解\[ax+by=\gcd(a,b)\]又因为\[\gcd(a,b)=\gcd(b,a\bmodb)\]可以先求解\[bx'+(a\bmodb)y'=\gcd(a,b)\]变形得\[......
  • 高等数学 2.2 函数的求导法则
    目录1、常数和基本初等函数的导数公式2、函数的和、差、积、商的求导法则3、反函数的求导法则4、复合函数的求导法则1、常数和基本初等函数的导数公式公式公式(1)\((C)'=0\)(2)\((x^{\mu})'=\mux^{\mu-1}\)(3)\((\sinx)'=\cosx\)(4)\((\cosx)'=-\sinx\)......
  • 《深度学习》深度学习 框架、流程解析、动态展示及推导
    目录一、深度学习1、什么是深度学习2、特点3、神经网络构造1)单层神经元•推导•示例2)多层神经网络3)小结4、感知器神经网络的本质5、多层感知器6、动态图像示例1)一个神经元相当于下列状态: 2)两个神经元相当于下列所示:3)三个神经元相当于下图所示:7、多层感......
  • Hodgkin-Huxley Model 完全推导
    Ciallo~(∠・ω<)⌒★我是赤川鹤鸣。本文假设您已经初步了解了Hodgkin-HuxleyModel,这里只是针对其中的公式的一些推导。不会对其优缺点、特性、应用等进行详述。物理基础知识如果已学习过物理学中电流、电容、电导率的概念,可跳过此节。首先,让我们复习一下物理学中电流......
  • Diffusion系列 - DDPM 公式推导 + 代码 -(二)
    DenoisingDiffusionProbabilisticModel(DDPM)原理1.生成模型对比记真实图片为\(x_0\),噪声图片为\(x_t\),噪声变量\(z\sim\mathcal{N}(\mu,\sigma^2)\),噪声变量\(\varepsilon\sim\mathcal{N}(0,I)\),编码过程\(q\),解码过程\(p\)。GAN网络\[z\xrightarrow{p}\hat{......
  • 【无线通信发展史⑧】测量地球质量?重力加速度g的测量?如何推导单摆周期公式?地球半径R是
       前言:用这几个问答形式来解读下我这个系列的来龙去脉。如果大家觉得本篇文章不水的话希望帮忙点赞收藏加关注,你们的鼓舞是我继续更新的动力。我为什么会写这个系列呢?首先肯定是因为我本身就是一名从业通信者,想着更加了解自己专业的知识,所以更想着从头开始了解通信的来......
  • 《动手学深度学习》笔记3——矩阵求导
    李沐老师的讲解思路是先从数学概念引入,讲完以后再到代码实现:1.数学概念1.1标量导数1.2向量求导(梯度)分为四种情况:1.2.1标量y,关于向量x求导李沐老师这里先讲了y为标量,x为向量的情况,x是长度为1的列向量,关于列向量的导数(即梯度)是行向量,具体解释如下:在这个例子里, ......
  • 《机器学习》PCA数据降维 推导、参数讲解、代码演示及分析
    目录一、主成分分析1、什么是主成分分析?2、什么是降维?3、如何进行主成分分析        1)数据标准化        2)计算协方差矩阵        3)计算特征值和特征向量        4)选择主成分        5)构建投影矩阵        6)数据降......
  • 《机器学习》 基于SVD的矩阵分解 推导、案例实现
    目录一、SVD奇异值分解1、什么是SVD2、SVD的应用        1)数据降维        2)推荐算法        3)自然语言处理3、核心        1)什么是酉矩阵    2)什么是对角矩阵4、分解过程二、推导1、如何求解这三个矩阵        ......
  • python——推导式
    推导式(Comprehensions)是Python中用于创建集合、列表、字典和集合的简洁语法。它们通过简化代码使其更具可读性,并且通常比使用传统循环创建对象的方式更高效。推导式有助于减少代码行数并提高代码的清晰度。1.推导式的基本概念推导式的基本思想是通过提供一个表达式和一个......