首页 > 其他分享 >第六章 逻辑回归

第六章 逻辑回归

时间:2023-01-03 10:01:30浏览次数:36  
标签:逻辑 frac 函数 Tx 回归 end 第六章 theta align

目录

逻辑回归预测的变量是一个离散

逻辑回归用于解决分类的问题,如果使用线性回归会造成很大误差。

(1) 假设函数

Sigmoid function / Logistic function

\[h_{\theta}(x) = g({\theta}^Tx)=\frac{1}{1 + e^{-{\theta}^Tx}} \]

可见 \(y \in [0,1]\),对于分类问题,可以使用激活函数的值来表示满足特征的概率。

可以得出(根据概率条件概率,即在 \((y = 0\ or\ 1; \ \theta)\) 的条件下 \(h_{\theta}(x)\) 的取值):

\[\begin{align*} h_{\theta} (x) = P(y = 1 | x;\ \theta)\\ = P(y = 0 | x;\ \theta)\\ \end{align*} \]

进一步地有:

\[\begin{align*} &P(y = 1 | x;\ \theta) + P(y = 0 | x;\ \theta) = 1\\ \Rightarrow&P(y = 1 | x;\ \theta) = 1 - P(y = 0 | x;\ \theta)\\ \end{align*} \]

(2) 决策界限

决策界限是假设函数的一个属性,取决于函数的参数,与数据集无关。

由该图可知

  • \(y=1\),即 \(h_{\theta}(x) = g({\theta}^Tx) \ge 0.5 \Rightarrow {\theta}^Tx \ge 0\)。
  • \(y=0\),即 \(h_{\theta}(x) = g({\theta}^Tx) < 0.5 \Rightarrow {\theta}^Tx < 0\)。

所以上面的 \({\theta}^Tx = 0\) 为决策界限。

(3) 代价函数

\[h_{\theta}(x) = \frac{1}{1 + e^{-\theta^T x}} \]

对于代价函数,如果使用类似线性回归的代价函数\(\Sigma(h(x)-y)^2\),将得到一个非凸函数,这样就不能使用梯度下降的方法求解全局最优解。

逻辑回归一般使用对数函数作为代价函数。

\[Cost(h_{\theta}(x), \ y) = \begin{cases} -log^{(h_{\theta}(x))} \ \ \ \ &if \ y=1\\ -log^{(1 - h_{\theta}(x))} \ \ \ \ &if\ y = 0 \end{cases} \]

当评估模型参数为 \(y=1\) (恶性肿瘤)进行预测的好坏时,如果实际为恶性,则预测值为 \(h_{\theta}(x)=1\)(恶性),那么此时的代价为 \(0\);如果实际为恶性,但是预测值为 \(h_{\theta}(x)=0\)(良性),此时的代价为 \(+\infty\),这时的代价函数就很好的评估了参数 \(\theta\) 的表现。

同理对于 \(y=0\) (良性肿瘤),可以得到如下函数图像。

由于 \(y\) 的取值只有 \(0 \ or \ 1\),可以将上面两个函数合成一个,评估当前参数的代价函数为:

\[\begin{align*} J(\theta) &= \frac{1}{m} \sum_{i = 1}^m Cost(h_{\theta}(x^{(i)}),\ y^{(i)})\\ &= -\frac{1}{m} \sum_{i = 1}^m \ [\ y^{(i)}log^{h_{\theta}(x^{(i)})} + (1 - y^{(i)})log^{1-h_{\theta}(x^{(i)})} \ ] \end{align*} \]

(4) 梯度下降

有了代价函数,现在目标是如何求出 \(minJ(\theta)\),因为代价函数是一个凸函数,所以一定存在全局最优解,因此使用梯度下降方法求最小值。

\[\begin{align*} Repeat \{ \\ \ \ \ \ \theta_j &:= \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta) \\ \ \ \ \ &:= \theta_j - \alpha \sum_{i = 1}^m \ [ \ (h_{\theta}(x^{(i)}) - y^{(i)})x_j^{(i)} \ ]\\ \} \end{align*} \]

注意,虽然求偏导后 \(\theta\) 更新的公式与线性回归的公式类似,但是由于 \(h_{\theta}(x)\) 改变了,所以它们两个本质上是不同的。

求导公式推导,为了方便,去掉 \(x,\ y\) 右上角的 \((i)\),现在推导公式如下:

\[\begin{align*} J(\theta) &= -\frac{1}{m} \sum_{i = 1}^m \ [\ ylog(h_{\theta}(x)) + (1-y)log(1-h_{\theta}(x)) \ ] \\ & \overset{\Delta}{=} -\frac{1}{m} \sum_{i = 1}^m K(\theta)\\ \end{align*}\]

其中,\(h_{\theta}(x) = \frac{1}{1 + e^{-\theta^T x}}\)
因此有:

\[\begin{align*} \frac{\partial}{\partial \theta} J(\theta) = -\frac{1}{m} \sum_{i = 1}^m K(\theta)'\\ \end{align*}\]

又因为:

\[\begin{align*} K(\theta)' = y \frac{1}{h_{\theta}(x)}h_{\theta}(x)' + (1-y)\frac{1}{1 - h_{\theta}(x)} (1 - h_{\theta}(x))' \end{align*}\]

其中

\[\begin{align*} h_{\theta}(x)' &= (\frac{1}{1 + e^{-\theta^T x}})' = - \frac{(1 + e^{-\theta^T x} )'}{(1 + e^{-\theta^T x})^2}\\ &= \frac{e^{-\theta^Tx}(\theta^Tx)'}{(1 + e^{-\theta^T x})^2} = (\frac{1}{1 + e^{-\theta^T x}} (1 - \frac{1}{1 + e^{-\theta^T x}}) )(\theta^Tx)' \\ &= h_{\theta}(x)(1-h_{\theta}(x))(\theta^Tx)' \end{align*}\]

对于 \((1-h_{\theta}(x))\) 同样有 \((1-h_{\theta}(x))' = - h_{\theta}(x)(1-h_{\theta}(x))(\theta^Tx)'\)。
将二者值带入 \(K(\theta)'\) 中有:\(K(\theta)' = (y - h_{\theta}(x))(\theta^Tx)'\)。
对于 \((\theta^Tx)'\),表示对第 \(j\) 个 \(\theta\) 求偏导,结果即为 \(x_j\),所以最终结果为:

\[\frac{\partial}{\partial \theta} J(\theta) = \frac{1}{m} \sum_{i=1}^m \ [ \ (h_{\theta}(x^{(i)}) - y^{(i)})x_j^{(i)} \ ] \]

(5) 多元分类

对每个特征单独训练,在做预测的时候,取三个分类器结果最大的。

标签:逻辑,frac,函数,Tx,回归,end,第六章,theta,align
From: https://www.cnblogs.com/lumoumou/p/17019643.html

相关文章