(1) 假设函数

Sigmoid function / Logistic function：

\[h_{\theta}(x) = g({\theta}^Tx)=\frac{1}{1 + e^{-{\theta}^Tx}} \]

可见 \(y \in [0,1]\)，对于分类问题，可以使用激活函数的值来表示满足特征的概率。

可以得出（根据概率条件概率，即在 \((y = 0\ or\ 1; \ \theta)\) 的条件下 \(h_{\theta}(x)\) 的取值）：

\[\begin{align*} h_{\theta} (x) = P(y = 1 | x;\ \theta)\\ = P(y = 0 | x;\ \theta)\\ \end{align*} \]

进一步地有：

\[\begin{align*} &P(y = 1 | x;\ \theta) + P(y = 0 | x;\ \theta) = 1\\ \Rightarrow&P(y = 1 | x;\ \theta) = 1 - P(y = 0 | x;\ \theta)\\ \end{align*} \]

(2) 决策界限

决策界限是假设函数的一个属性，取决于函数的参数，与数据集无关。

由该图可知

\(y=1\)，即 \(h_{\theta}(x) = g({\theta}^Tx) \ge 0.5 \Rightarrow {\theta}^Tx \ge 0\)。
\(y=0\)，即 \(h_{\theta}(x) = g({\theta}^Tx) < 0.5 \Rightarrow {\theta}^Tx < 0\)。

所以上面的 \({\theta}^Tx = 0\) 为决策界限。

(3) 代价函数

\[h_{\theta}(x) = \frac{1}{1 + e^{-\theta^T x}} \]

对于代价函数，如果使用类似线性回归的代价函数\(\Sigma(h(x)-y)^2\)，将得到一个非凸函数，这样就不能使用梯度下降的方法求解全局最优解。

逻辑回归一般使用对数函数作为代价函数。

\[Cost(h_{\theta}(x), \ y) = \begin{cases} -log^{(h_{\theta}(x))} \ \ \ \ &if \ y=1\\ -log^{(1 - h_{\theta}(x))} \ \ \ \ &if\ y = 0 \end{cases} \]

当评估模型参数为 \(y=1\) （恶性肿瘤）进行预测的好坏时，如果实际为恶性，则预测值为 \(h_{\theta}(x)=1\)（恶性），那么此时的代价为 \(0\)；如果实际为恶性，但是预测值为 \(h_{\theta}(x)=0\)（良性），此时的代价为 \(+\infty\)，这时的代价函数就很好的评估了参数 \(\theta\) 的表现。

同理对于 \(y=0\) （良性肿瘤），可以得到如下函数图像。

由于 \(y\) 的取值只有 \(0 \ or \ 1\)，可以将上面两个函数合成一个，评估当前参数的代价函数为：

\[\begin{align*} J(\theta) &= \frac{1}{m} \sum_{i = 1}^m Cost(h_{\theta}(x^{(i)}),\ y^{(i)})\\ &= -\frac{1}{m} \sum_{i = 1}^m \ [\ y^{(i)}log^{h_{\theta}(x^{(i)})} + (1 - y^{(i)})log^{1-h_{\theta}(x^{(i)})} \ ] \end{align*} \]

(4) 梯度下降

有了代价函数，现在目标是如何求出 \(minJ(\theta)\)，因为代价函数是一个凸函数，所以一定存在全局最优解，因此使用梯度下降方法求最小值。

\[\begin{align*} Repeat \{ \\ \ \ \ \ \theta_j &:= \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta) \\ \ \ \ \ &:= \theta_j - \alpha \sum_{i = 1}^m \ [ \ (h_{\theta}(x^{(i)}) - y^{(i)})x_j^{(i)} \ ]\\ \} \end{align*} \]

注意，虽然求偏导后 \(\theta\) 更新的公式与线性回归的公式类似，但是由于 \(h_{\theta}(x)\) 改变了，所以它们两个本质上是不同的。

求导公式推导，为了方便，去掉 \(x,\ y\) 右上角的 \((i)\)，现在推导公式如下：

\[\begin{align*} J(\theta) &= -\frac{1}{m} \sum_{i = 1}^m \ [\ ylog(h_{\theta}(x)) + (1-y)log(1-h_{\theta}(x)) \ ] \\ & \overset{\Delta}{=} -\frac{1}{m} \sum_{i = 1}^m K(\theta)\\ \end{align*}\]
其中，\(h_{\theta}(x) = \frac{1}{1 + e^{-\theta^T x}}\)
因此有：

\[\begin{align*} \frac{\partial}{\partial \theta} J(\theta) = -\frac{1}{m} \sum_{i = 1}^m K(\theta)'\\ \end{align*}\]
又因为：

\[\begin{align*} K(\theta)' = y \frac{1}{h_{\theta}(x)}h_{\theta}(x)' + (1-y)\frac{1}{1 - h_{\theta}(x)} (1 - h_{\theta}(x))' \end{align*}\]
其中

\[\begin{align*} h_{\theta}(x)' &= (\frac{1}{1 + e^{-\theta^T x}})' = - \frac{(1 + e^{-\theta^T x} )'}{(1 + e^{-\theta^T x})^2}\\ &= \frac{e^{-\theta^Tx}(\theta^Tx)'}{(1 + e^{-\theta^T x})^2} = (\frac{1}{1 + e^{-\theta^T x}} (1 - \frac{1}{1 + e^{-\theta^T x}}) )(\theta^Tx)' \\ &= h_{\theta}(x)(1-h_{\theta}(x))(\theta^Tx)' \end{align*}\]
对于 \((1-h_{\theta}(x))\) 同样有 \((1-h_{\theta}(x))' = - h_{\theta}(x)(1-h_{\theta}(x))(\theta^Tx)'\)。
将二者值带入 \(K(\theta)'\) 中有：\(K(\theta)' = (y - h_{\theta}(x))(\theta^Tx)'\)。
对于 \((\theta^Tx)'\)，表示对第 \(j\) 个 \(\theta\) 求偏导，结果即为 \(x_j\)，所以最终结果为：

\[\frac{\partial}{\partial \theta} J(\theta) = \frac{1}{m} \sum_{i=1}^m \ [ \ (h_{\theta}(x^{(i)}) - y^{(i)})x_j^{(i)} \ ] \]

(5) 多元分类

对每个特征单独训练，在做预测的时候，取三个分类器结果最大的。

标签：逻辑,frac,函数,Tx,回归,end,第六章,theta,align
From： https://www.cnblogs.com/lumoumou/p/17019643.html

第六章逻辑回归

(1) 假设函数

(2) 决策界限

(3) 代价函数

(4) 梯度下降

(5) 多元分类

相关文章

赞助商

阅读排行

第六章 逻辑回归

(1) 假设函数

(2) 决策界限

(3) 代价函数

(4) 梯度下降

(5) 多元分类

相关文章

赞助商

阅读排行

第六章逻辑回归