首页 > 其他分享 >在李航的《统计学习方法》中多项式拟合偏导函数推导存在的疑问

在李航的《统计学习方法》中多项式拟合偏导函数推导存在的疑问

时间:2024-07-03 23:30:39浏览次数:20  
标签:李航 partial xij wj mw 偏导 拟合 Sigma 1n

在阅读李航的《统计学习理论 第二版》1.42过拟合与模型选择中遇到的一个问题。

​​​在这里插入图片描述
在这里插入图片描述
这段公式的推导让我费解,于是我开始了自己的验证。

前提:用多项式函数对已知数据的拟合。

设拟合函数为:
f ( x ) = w 0 x 0 + w 1 x 1 + w 2 x 2 + . . . . + w m x m = Σ i = 0 m w j x j f(x)=w_0x^0+w_1x^1+w_2x^2+....+w_mx^m=\Sigma_{i=0}^mw_jx^j f(x)=w0​x0+w1​x1+w2​x2+....+wm​xm=Σi=0m​wj​xj
设数据集为:
d a t a s e t = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) . . . ( x n , y n ) } dataset=\{(x_1,y_1),(x_2,y_2),(x_3,y_3)...(x_n,y_n)\} dataset={(x1​,y1​),(x2​,y2​),(x3​,y3​)...(xn​,yn​)}
设损失函数为:
L o s s : L = 1 2 Σ i = 1 n [ f ( x i ) − y i ] 2 Loss: L=\frac{1}{2}\Sigma_{i=1}^n[f(x_i)-y_i]^2 Loss:L=21​Σi=1n​[f(xi​)−yi​]2
求闭式解的思路很简单,对 w j w_j wj​​求偏导,令其为0即可得到结果,但其中涉及一些棘手的求和符号内求导的问题,很容易出错,所以有必要把每个过程都搞清楚。

首先带入 f ( x ) f(x) f(x),其中 x i j x_i^j xij​为第 i i i个数据的 j j j次幂,即 ( x i ) j (x_i)^j (xi​)j
L = 1 2 Σ i = 1 n [ Σ j = 0 m w j x i j − y i ] 2 L=\frac{1}{2}\Sigma_{i=1}^n[\Sigma_{j=0}^mw_jx_i^j-y_i]^2 L=21​Σi=1n​[Σj=0m​wj​xij​−yi​]2
对 w j w_j wj​求偏导:
∂ L ∂ w j = Σ i = 1 n [ Σ j = 0 m w j x i j − y i ] ⋅ ∂ Σ j = 0 m w j x i j ∂ w j \frac{\partial L}{\partial w_j}=\Sigma_{i=1}^n[\Sigma_{j=0}^mw_jx_i^j-y_i]\cdot \frac{\partial \Sigma_{j=0}^mw_jx_i^j}{\partial w_j} ∂wj​∂L​=Σi=1n​[Σj=0m​wj​xij​−yi​]⋅∂wj​∂Σj=0m​wj​xij​​
∂ Σ j = 0 m w j x i j ∂ w j \frac{\partial \Sigma_{j=0}^mw_jx_i^j}{\partial w_j} ∂wj​∂Σj=0m​wj​xij​​这个偏导的结果可以直接对 w j w_j wj​求偏导并去掉求和符号,即为 x i j x_i^j xij​。取简单的情况验证,也的确符合这个结果。

故上式变为:
∂ L ∂ w j = Σ i = 1 n [ Σ j = 0 m w j x i j − y i ] ⋅ x i j \frac{\partial L}{\partial w_j}=\Sigma_{i=1}^n[\Sigma_{j=0}^mw_jx_i^j-y_i]\cdot x_i^j ∂wj​∂L​=Σi=1n​[Σj=0m​wj​xij​−yi​]⋅xij​
可能有人疑惑,这里 x i j x_i^j xij​不受求和符号控制了,是否是错了,但实际上该偏导的结果是与 j j j有关的,存在不受求和符号控制的关于 j j j的因子是正常的。继续变形得到:
∂ L ∂ w j = Σ i = 1 n [ Σ j = 0 m w j x i j ] − Σ i = 1 n y i ⋅ x i j \frac{\partial L}{\partial w_j}=\Sigma_{i=1}^n[\Sigma_{j=0}^mw_jx_i^j]-\Sigma_{i=1}^ny_i\cdot x_i^j ∂wj​∂L​=Σi=1n​[Σj=0m​wj​xij​]−Σi=1n​yi​⋅xij​
接下来的变形需要将 w j w_j wj​从求和符号中拿出来:
∂ L ∂ w j = Σ i = 1 n [ Σ k = 0 , k ≠ j m w k x i k + w j x i j ] − Σ i = 1 n y i ⋅ x i j \frac{\partial L}{\partial w_j}=\Sigma_{i=1}^n[\Sigma_{k=0,k\neq j}^mw_kx_i^k+w_jx_i^j]-\Sigma_{i=1}^ny_i\cdot x_i^j ∂wj​∂L​=Σi=1n​[Σk=0,k=jm​wk​xik​+wj​xij​]−Σi=1n​yi​⋅xij​
之后的变形就方便许多了:
∂ L ∂ w j = Σ i = 1 n [ Σ k = 0 , k ≠ j m w k x i k ] + Σ i = 1 n w j x i j − Σ i = 1 n y i ⋅ x i j = 0 \frac{\partial L}{\partial w_j}=\Sigma_{i=1}^n[\Sigma_{k=0,k\neq j}^mw_kx_i^k]+\Sigma_{i=1}^nw_jx_i^j-\Sigma_{i=1}^ny_i\cdot x_i^j=0 ∂wj​∂L​=Σi=1n​[Σk=0,k=jm​wk​xik​]+Σi=1n​wj​xij​−Σi=1n​yi​⋅xij​=0
至此,直接移项就可得到结果:
Σ i = 1 n w j x i j = Σ i = 1 n y i ⋅ x i j − Σ i = 1 n [ Σ k = 0 , k ≠ j m w k x i k ] \Sigma_{i=1}^nw_jx_i^j=\Sigma_{i=1}^ny_i\cdot x_i^j-\Sigma_{i=1}^n[\Sigma_{k=0,k\neq j}^mw_kx_i^k] Σi=1n​wj​xij​=Σi=1n​yi​⋅xij​−Σi=1n​[Σk=0,k=jm​wk​xik​]
w j w_j wj​可以直接拿出来:
w j = Σ i = 1 n y i ⋅ x i j − Σ i = 1 n [ Σ k = 0 , k ≠ j m w k x i k ] Σ i = 1 n x i j w_j=\frac{\Sigma_{i=1}^ny_i\cdot x_i^j-\Sigma_{i=1}^n[\Sigma_{k=0,k\neq j}^mw_kx_i^k]}{\Sigma_{i=1}^nx_i^j} wj​=Σi=1n​xij​Σi=1n​yi​⋅xij​−Σi=1n​[Σk=0,k=jm​wk​xik​]​
这个结果很奇怪既不优美,而且和这本书的作者写的不一样,和我搜到的其他博客,得到的结果也不一样,比如这位大佬。仔细查看了一下,发现他与我在最开始对
∂ Σ j = 0 m w j x i j ∂ w j \frac{\partial \Sigma_{j=0}^mw_jx_i^j}{\partial w_j} ∂wj​∂Σj=0m​wj​xij​​
这个偏导的结果大相径庭。但我觉得如果我对这个偏导的对象理解没有错,我的结果(至少这部分)应该是正确的。接下来的我决定用程序验证一下,在此暂时记录一下。。。

标签:李航,partial,xij,wj,mw,偏导,拟合,Sigma,1n
From: https://blog.csdn.net/weixin_62785602/article/details/140163231

相关文章

  • Bezier曲线曲面--拟合技术
    Bezier曲线曲面–拟合应用1.Bezier曲线1.1.Bezier曲线的定义给定一组控制点P_0,P_1,…,P_n,其中n是曲线的阶数,Bezier曲线的参数方程可以表示为:B(t......
  • PCL 拟合二维椭圆(迭代法)
    文章目录一、简介二、实现代码三、实现效果参考资料一、简介一般情况,我们会用椭圆拟合二维点,用椭球拟合三维点。在n维中,这些对象被称为超椭球体,由二次方程隐式定义超椭球的中心是n×1向量C,n×n矩阵S是正定的,n×1向量X是超椭球上的任意点。矩阵S可以用特......
  • 43、基于神经网络拟合函数的体脂估计(matlab)
    1、神经网络拟合函数的原理及流程神经网络拟合函数是一种基于人工神经元之间相互连接的模型,用来拟合复杂的非线性函数关系。其原理是通过多层次的神经元网络,每一层神经元通过激活函数将输入信号加权求和后输出,经过多次迭代优化权值,使得网络输出与实际值误差最小化。流程如下:......
  • KAN神经网络 | KAN函数拟合附代码
    首先,让我们快速概述一下KAN及其实现的理论:柯尔莫哥洛夫-阿诺德表示定理:我们跳过繁琐的公式和定义,只用一个简单的解释。KART指出,任何具有多个输入的连续函数都可以通过组合单个输入的简单函数(如正弦或平方)并将它们相加来创建。例如,多元函数f(x,y)=x*y。这可以写成:((......
  • 【三变量联合分布函数copula】利用AIC BIC确定单变量最优拟合函数、利用AIC确定三变量
        ......
  • 龙哥量化:什么是ZXNH直线拟合指标?ZXNH信号漂移,未来函数检测不到, 函数列表没有,大坑哦哦
    这个函数太坑,先打个草稿,后面详细分析这个玩意,ZXNH(ZhixianNifangHuadong,即直线拟合滑动)指标是一种趋势跟踪技术分析指标,主要用于寻找股票价格的短期趋势。该指标基于直线拟合原理,通过对价格数据进行线性回归分析,来计算当前价格的趋势方向和趋势强度。计算ZXNH指标的方法如下:......
  • 过拟合、欠拟合原因及解决办法
    欠拟合:泛化能力差,训练样本集准确率低,测试样本集准确率低。过拟合:泛化能力差,训练样本集准确率高,测试样本集准确率低。合适的拟合程度:泛化能力强,训练样本集准确率高,测试样本集准确率高欠拟合原因:训练样本数量少模型复杂度过低参数还未收敛就停止循环欠拟合的解决办法:增加......
  • 多项式曲线拟合
    package曲线拟合.fitting;importorg.apache.commons.math3.fitting.PolynomialCurveFitter;importorg.apache.commons.math3.fitting.WeightedObservedPoints;importcom.sun.tools.javac.util.Log;importlombok.extern.slf4j.Slf4j;importjava.util.ArrayList;......
  • PCL Loess曲线回归拟合(二维)
    文章目录一、简介二、实现代码三、实现效果参考文献一、简介LOESS(局部加权回归)回归的原理是基于非参数方法,它主要用于描述两个变量之间复杂的、非线性的关系。LOESS方法的核心在于“局部”和“加权”。它会在每个数据点附近选取一个子集(或称为窗口),并利用这个子......
  • 高等数学·二元函数可微与偏导的联系​
    1.二元函数的可偏导在二元函数中,一元函数的可导的概念变为可偏导,导函数的概念变为偏导函数,具体看下例:二元函数f(x,y)对x、y的偏导函数分别为:在求二元函数的偏导函数时,都是假设另外一个变量为常量,然后对余下那个变量求导数。例如,f(x,y)对x的偏导函数,就是假设y为常量,然后f(x,y)......