目录
逻辑回归预测的变量是一个离散
逻辑回归用于解决分类的问题,如果使用线性回归会造成很大误差。
(1) 假设函数
Sigmoid function / Logistic function:
\[h_{\theta}(x) = g({\theta}^Tx)=\frac{1}{1 + e^{-{\theta}^Tx}} \]可见 \(y \in [0,1]\),对于分类问题,可以使用激活函数的值来表示满足特征的概率。
可以得出(根据概率条件概率,即在 \((y = 0\ or\ 1; \ \theta)\) 的条件下 \(h_{\theta}(x)\) 的取值):
\[\begin{align*} h_{\theta} (x) = P(y = 1 | x;\ \theta)\\ = P(y = 0 | x;\ \theta)\\ \end{align*} \]进一步地有:
\[\begin{align*} &P(y = 1 | x;\ \theta) + P(y = 0 | x;\ \theta) = 1\\ \Rightarrow&P(y = 1 | x;\ \theta) = 1 - P(y = 0 | x;\ \theta)\\ \end{align*} \](2) 决策界限
决策界限是假设函数的一个属性,取决于函数的参数,与数据集无关。
由该图可知
- \(y=1\),即 \(h_{\theta}(x) = g({\theta}^Tx) \ge 0.5 \Rightarrow {\theta}^Tx \ge 0\)。
- \(y=0\),即 \(h_{\theta}(x) = g({\theta}^Tx) < 0.5 \Rightarrow {\theta}^Tx < 0\)。
所以上面的 \({\theta}^Tx = 0\) 为决策界限。
(3) 代价函数
\[h_{\theta}(x) = \frac{1}{1 + e^{-\theta^T x}} \]对于代价函数,如果使用类似线性回归的代价函数\(\Sigma(h(x)-y)^2\),将得到一个非凸函数,这样就不能使用梯度下降的方法求解全局最优解。
逻辑回归一般使用对数函数作为代价函数。
\[Cost(h_{\theta}(x), \ y) = \begin{cases} -log^{(h_{\theta}(x))} \ \ \ \ &if \ y=1\\ -log^{(1 - h_{\theta}(x))} \ \ \ \ &if\ y = 0 \end{cases} \]当评估模型参数为 \(y=1\) (恶性肿瘤)进行预测的好坏时,如果实际为恶性,则预测值为 \(h_{\theta}(x)=1\)(恶性),那么此时的代价为 \(0\);如果实际为恶性,但是预测值为 \(h_{\theta}(x)=0\)(良性),此时的代价为 \(+\infty\),这时的代价函数就很好的评估了参数 \(\theta\) 的表现。
同理对于 \(y=0\) (良性肿瘤),可以得到如下函数图像。
由于 \(y\) 的取值只有 \(0 \ or \ 1\),可以将上面两个函数合成一个,评估当前参数的代价函数为:
\[\begin{align*} J(\theta) &= \frac{1}{m} \sum_{i = 1}^m Cost(h_{\theta}(x^{(i)}),\ y^{(i)})\\ &= -\frac{1}{m} \sum_{i = 1}^m \ [\ y^{(i)}log^{h_{\theta}(x^{(i)})} + (1 - y^{(i)})log^{1-h_{\theta}(x^{(i)})} \ ] \end{align*} \](4) 梯度下降
有了代价函数,现在目标是如何求出 \(minJ(\theta)\),因为代价函数是一个凸函数,所以一定存在全局最优解,因此使用梯度下降方法求最小值。
\[\begin{align*} Repeat \{ \\ \ \ \ \ \theta_j &:= \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta) \\ \ \ \ \ &:= \theta_j - \alpha \sum_{i = 1}^m \ [ \ (h_{\theta}(x^{(i)}) - y^{(i)})x_j^{(i)} \ ]\\ \} \end{align*} \]注意,虽然求偏导后 \(\theta\) 更新的公式与线性回归的公式类似,但是由于 \(h_{\theta}(x)\) 改变了,所以它们两个本质上是不同的。
求导公式推导,为了方便,去掉 \(x,\ y\) 右上角的 \((i)\),现在推导公式如下:
\[\begin{align*} J(\theta) &= -\frac{1}{m} \sum_{i = 1}^m \ [\ ylog(h_{\theta}(x)) + (1-y)log(1-h_{\theta}(x)) \ ] \\ & \overset{\Delta}{=} -\frac{1}{m} \sum_{i = 1}^m K(\theta)\\ \end{align*}\]其中,\(h_{\theta}(x) = \frac{1}{1 + e^{-\theta^T x}}\)
\[\begin{align*} \frac{\partial}{\partial \theta} J(\theta) = -\frac{1}{m} \sum_{i = 1}^m K(\theta)'\\ \end{align*}\]
因此有:又因为:
\[\begin{align*} K(\theta)' = y \frac{1}{h_{\theta}(x)}h_{\theta}(x)' + (1-y)\frac{1}{1 - h_{\theta}(x)} (1 - h_{\theta}(x))' \end{align*}\]其中
\[\begin{align*} h_{\theta}(x)' &= (\frac{1}{1 + e^{-\theta^T x}})' = - \frac{(1 + e^{-\theta^T x} )'}{(1 + e^{-\theta^T x})^2}\\ &= \frac{e^{-\theta^Tx}(\theta^Tx)'}{(1 + e^{-\theta^T x})^2} = (\frac{1}{1 + e^{-\theta^T x}} (1 - \frac{1}{1 + e^{-\theta^T x}}) )(\theta^Tx)' \\ &= h_{\theta}(x)(1-h_{\theta}(x))(\theta^Tx)' \end{align*}\]对于 \((1-h_{\theta}(x))\) 同样有 \((1-h_{\theta}(x))' = - h_{\theta}(x)(1-h_{\theta}(x))(\theta^Tx)'\)。
\[\frac{\partial}{\partial \theta} J(\theta) = \frac{1}{m} \sum_{i=1}^m \ [ \ (h_{\theta}(x^{(i)}) - y^{(i)})x_j^{(i)} \ ] \]
将二者值带入 \(K(\theta)'\) 中有:\(K(\theta)' = (y - h_{\theta}(x))(\theta^Tx)'\)。
对于 \((\theta^Tx)'\),表示对第 \(j\) 个 \(\theta\) 求偏导,结果即为 \(x_j\),所以最终结果为:
(5) 多元分类
对每个特征单独训练,在做预测的时候,取三个分类器结果最大的。
标签:逻辑,frac,函数,Tx,回归,end,第六章,theta,align From: https://www.cnblogs.com/lumoumou/p/17019643.html