首页 > 编程语言 >10.解析解方法推导线性回归——不容小觑的线性回归算法

10.解析解方法推导线性回归——不容小觑的线性回归算法

时间:2024-09-25 21:50:00浏览次数:14  
标签:10 函数 凸函数 回归 矩阵 np 线性 解析 我们

引言

线性回归是许多复杂机器学习模型的基础。作为一种基本的机器学习方法,线性回归提供了清晰的思路和工具,通过理解其推导过程,可以更好地掌握机器学习的基本原理和模型设计。

通过阅读本篇博客,你可以:

1.学会如何用解析解的方法推导线性回归的最优解

2.了解如何判定损失函数是凸函数或非凸

一、解析解的推导

通过上一篇9.深入线性回归推导出MSE——不容小觑的线性回归算法-CSDN博客的讲解,我们已经得到了线性回归的损失函数形式,也明确了目标就是最小化损失函数,那么问题就变成了 \theta 什么时候可以使得损失函数最小。

1.最小二乘形式变化

我们已知损失函数公式为 :

J(\theta ) = \frac{1}{2}\sum_{m}^{i=1}(h_{\theta }x_{i}-y_{i})^{2} 

我们将损失函数变化一个形式,变为以下:

\frac{1}{2}(X\theta - y)^{T}(X\theta -y)

其中 X 为变量集,即所有 x_{i} 样本行程的 m 行 n 列的样本矩阵\theta 即我们要求的最优解,它是一个 m 行 1 列的矩阵。这个公式是如何变化而来的呢?

首先原损失函数中的 h_{\theta } 是线性回归模型中的预测函数,h_{\theta }x_{i} 用来表示预测值 \hat{y_{i}} 。所以我们可以得出以下结论:

\hat{y_{i}} = h_{\theta }x_{i} = x_{i}\theta

\hat{y} = h_{\theta }X = X\theta

得到这个结论之后,我们回归到公式本身:

J(\theta ) = \frac{1}{2}\sum_{m}^{i=1}(h_{\theta }x_{i}-y_{i})^{2} 

\Rightarrow J(\theta ) = \frac{1}{2} \sum_{m}^{i=1}(h_{\theta }x_{i}-y_{i})(h_{\theta }x_{i}-y_{i})

将上述公式代入,又由于矩阵的性质,我们需要将其中一项转置,这里就相当于一个长度为 m 的向量乘以它自己,说白了就是对应位置相乘相加。

所以我们的公式变为:

J(\theta ) = \frac{1}{2}(X\theta - y)^{T}(X\theta - y)

由矩阵运算的基本性质

可继续推出公式:

J(\theta) = \frac{1}{2}((X\theta)^{T} - y^{T} )(X\theta - y)

\Rightarrow J(\theta) = \frac{1}{2} (\theta^{T}X^{T} - y^{T})(X\theta - y)

最终,我们得到:

J(\theta) = \frac{1}{2}(\theta^{T}X^{T}X\theta - \theta^{T}X^{T}y-y^{T}X\theta+y^{T}y)

2.推导出模型的解析解形式

假使我们开着小车,从下图中寻找最优解。为了便于理解,我们假设存在横轴表示 \theta ,存在纵轴表示 loss损失,曲线是 loss function

我们把最小二乘看成是一个函数曲线,最优解一定是驻点中某个极小值(驻点顾名思义就是小车可以停驻的点)。从图中我们可以看出,驻点的特定是梯度全为0(梯度:函数在某点上的切线的斜率)。

所以要求出 \theta 的解析解形式,我们就可以通过把函数的一阶导函数推导出来,再使其的值为0以求出 \theta 。依据以下求导公式:

我们能将公式进行推导:

{J}'(\theta) = \frac{1}{2}\left [ {(\theta^{T}X^{T}X\theta)}' - {(\theta^{T}X^{T}y)}'-{(y^{T}X\theta)}' + {(y^{T}y)}'\right ]

由于 X 和 y 是已知的,\theta 是我们要求的答案。所以和 \theta 没关系的部分在求导时可以忽略不计,继续推导为以下公式:

\Rightarrow {J}'(\theta) = \frac{1}{2}[2X^{T}X\theta-X^{T}y-(y^{T}X)^T]

\Rightarrow {J}'(\theta) = \frac{1}{2}[2X^{T}X\theta-2X^{T}y]

\Rightarrow {J}'(\theta) = X^{T}X\theta - X^{T}y

然后我们设置导函数为0,去进一步解出来驻点对应的 \theta 值为多少:

0 = X^{T}X\theta - X^{T}y

\Rightarrow X^{T}X\theta = X^{T}y

由于矩阵与逆矩阵相乘可以得到单位矩阵,所以我们最终可以求出 \theta 的解析解形式(解析解为方程的解析式,是方程的精确解,能在任意精度下满足方程):

\theta = (X^{T}X)^{-1}X^{T}y

这样,我们有数据集 X ,y 时,就可以将数据代入上面解析解公式,去直接求出对应的 \theta 值了。比如我们可以设想 X 为 m 行 n 列的矩阵,y 为 m 行 1 列的列向量。X^{T} 是 n 行 m 列的,所以 X^{T}X 就是 n 行 n 列的矩阵。又因为矩阵求逆形状不变,再次乘以 X^{T} 后变为 n 行 m 列的矩阵。最后乘以 y,结果  \theta 就是 n 行 1 列的列向量!

二、判断损失函数是否为凸函数

对于求解最优解而言,判断一个损失函数是否为凸函数是极其重要的。如果一个损失函数是凸函数,那么局部最优解即为全局最优解,这是因为在凸函数上没有局部极小值的存在,所有的局部极小值都位于全局最小值处。

如上图所示,左上和右下为非凸函数,左下和右上为凸函数。在非凸函数中,有很多条极值点,我们无法直接得到最优解。对于二次可微的函数,我们可以通过判断黑塞矩阵(hessian matrix)是否为半正定的来进行判断,所以我们要对目标函数在点 x 处的二阶偏导数进行求解。

对于我们的式子来说,就是在导函数的基础上再次对 \theta 进行求偏导,由于 X^{T}y 对 \theta 的导数为0,所以再次求偏导后的答案为 X^{T}X。所谓的正定就是答案的特征值全为正数,而半正定无非就是特征值大于等于0。这里我们对损失函数求二阶导的黑塞矩阵是 X^{T}X,自己和自己做点乘,所以答案一定是半正定的。

在此处我们不用深入去讨论数学推导的证明。在机器学习中,损失函数往往是凸函数,在深度学习中的损失函数往往是非凸函数。并且在实际应用当中,我们并不要求找到全局最优解,只要模型适用。机器学习的特点就是不强调模型 100% 正确,而是有价值的,堪用的

三、代码实战求解线性回归算法模型

经过大片的理论讲解,相信大家已经对线性回归模型的实现有了深刻的认识,接下来我们就要通过代码的形式来实战求解线性回归模型

1.导入需要使用的库

import numpy as np
import matplotlib.pyplot as plt

我们需要使用numpy模块进行矩阵之间的运算,最后用matplotlib模块中的绘图功能绘制 X 与 y 的关系图。

2.定义样本集

# 回归,有监督监督机器学习,X,y
X = 2 * np.random.rand(100,1)
y = 5 * 4 * X + np.random.randn(100,1)

这里的 X 是所有 x_{i} 组成的100行1列的矩阵。y 是真实值,5是偏置(截距),4是 X 的权重,后面的 np.random.randn(100,1) 是100行1列以正态分布形成的误差矩阵

3.实现解析解公式求解模型

# 为了求解W0截距项,我们给X矩阵加上一列全为1的X0
X_b = np.c_[np.ones((100,1)),X]

上述代码是通过 np.c_ 的方式将截距项恒为1的权重拼接到 X 矩阵中。

# 实现解析解的公式来求解θ
θ = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)
print(θ)
"""[[5.21509616]
    [3.77011339]]
"""

我们将得到的 \theta 的解析解公式通过代码去实现,np.linalg.inv() 是numpy模块中用来计算逆矩阵的函数,X_b.T 是变量 X_b 的转置,.dot() 是进行点乘运算(对numpy模块的讲解在专栏前面的文章当中7.科学计算模块Numpy(4)ndarray数组的常用操作(二)_ndarray逐元素相加-CSDN博客)。我们通过以上代码就可以表示公式:

\theta = (X^{T}X)^{-1}X^{T}y

输出 \theta 之后我们可以看到,截距项与权重都是相当接近真实情况,但由于误差的存在,我们不可能得到真实值,只能拟合数据得到最优解。

4.使用模型去预测

X_new = np.array([[0], [2]])
X_new_b = np.c_[np.ones((2, 1)), X_new]
print(X_new_b)
"""[[1. 0.]
    [1. 2.]]
"""

我们定义一个2行1列的矩阵作为要预测样本的自变量。再加上截距恒为1的项,就会形成一个2行2列的矩阵。

y_predict = X_new_b.dot(θ)
print(y_predict)
"""[[ 5.21509616]
    [12.75532293]]
"""

随后,我们计算预测值,也就是 \hat{y} 。

y_predict = X_new_b.dot(θ)
print(y_predict)
"""[[ 5.21509616]
    [12.75532293]]
"""

只要使用刚刚拼接完的矩阵点乘 \theta 就可以得到预测值了。

5.绘图

plt.plot(X_new, y_predict, 'r-')
plt.plot(X, y, 'b.')
plt.axis([0, 2, 0, 15])
plt.show()

这边我们使用到了matplotlib模块中的绘图功能,成功绘制了下方的坐标图。其中,横轴表示了输入 x 的值,纵轴表示了 y 的值,红线代表了整体的函数,蓝色的点则是真实值的分布情况。我们可以发现,红色的直线尽可能地穿过了蓝色的点,这就是我们一直说的线性回归模型。

总结

这篇博客讲述了模型解析解的推导原理以及代码实现。希望可以对大家起到作用,谢谢。


关注我,内容持续更新(后续内容在作者专栏《从零基础到AI算法工程师》)!!!

标签:10,函数,凸函数,回归,矩阵,np,线性,解析,我们
From: https://blog.csdn.net/dxyl632956/article/details/142399513

相关文章

  • [GYM103119K][2020 ICPC Asia Macau] Candy Ads 题解
    题意简述有\(n\)个广告,每个广告在一个时间段内占据二维平面的矩形,\(m\)个约束表示两个广告至少有一个要被选择,选择若干广告,满足所有约束且同时刻不能有重叠的广告。Kosaraju算法流程在正图上跑一遍DFS,给每个位置打上时间戳从时间戳大到小枚举点,在反图上跑DFS,这个时候对......
  • 林史·语其十(101-105)【上半更新】
    鉴于收集素材与发布素材之间有一定延迟,此后林史一章分两次更新先把存的旧东西发一下#101故事源于joke3579学长博客里一份证明,涉及到求不定积分的如果你不知道啥是不定积分,你只需要知道它是导数逆运算就行了学长博客里写的是:\(A\)求导后等于\(B\)HDK:\(A\)是\(B\)的......
  • 10 列表 List 公共功能
    1、len获取列表长度。#获取长度users=["李邵奇","奇航",99]val=len(users)print(val)#32、索引获取一个字符。#索引users=["李邵奇","奇航",99]val=users[0]#"李邵奇"print(val)3、切片获取一段字符串(子序列)。users=["李邵奇",&q......
  • 为什么iTunes提示找不到msvcr100.dll?彻底解决iTunes找不到msvcr100.dll的五种方法
    iTunes提示找不到msvcr100.dll的原因通常是由于电脑系统中缺失了这个必要的动态链接库文件(DLL)。msvcr100.dll是MicrosoftVisualC++2010RedistributablePackage的一部分,许多软件(包括iTunes)都依赖于它来运行。当这个文件丢失或损坏时,iTunes等程序就无法正常启动。以下是彻......