误差项
拟合的线性函数如下,
\[h_{\theta}(x)=\sum_{i=0}^{n} \theta_{i} x_{i}=\theta^{T} x \]对于每个样本,真实值和预测值之间的偏差,如下,
\[y^{(i)}=\theta^{T} x^{(i)}+\varepsilon^{(i)} \]独立同分布
误差项是独立同分布的,并且服从均值为0方差为
\[\theta^2 \]的正态分布。
极大似然估计
计算偏差
\[y^{(i)}=\theta^{T} x^{(i)}+\varepsilon^{(i)} \]偏差服从正态分布
\[p\left(\epsilon^{(i)}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(\epsilon^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \]偏差代入正态分布得到
\[p\left(y^{(i)} \mid x^{(i)} ; \theta\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \]求出似然函数如下
\[L(\theta)=\prod_{i=1}^{m} p\left(y^{(i)} \mid x^{(i)} ; \theta\right)=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \]获得对数似然函数
\[\log L(\theta)=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \]对似然函数求导
\[\begin{array}{l}\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ =m \log \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \cdot \frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2} .\end{array} \]得到极大似然估计
\[J(\theta)=\frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2} \]这样就得到了误差函数,但是只有误差函数,我们没办法逼近优化,使用梯度下降算法就可以优化参数了。
梯度下降算法
目标函数如下
\[J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(y^{i}-h_{\theta}\left(x^{i}\right)\right)^{2} \]梯度下降沿着梯度的方向移动
批量梯度下降算法
\[\frac{\partial J(\theta)}{\partial \theta_{j}}=-\frac{1}{m} \sum_{i=1}^{m}\left(y^{i}-h_{\theta}\left(x^{i}\right)\right) x_{j}^{i} \quad \theta_{j}^{\prime}=\theta_{j}+\frac{1}{m} \sum_{i=1}^{m}\left(y^{i}-h_{\theta}\left(x^{i}\right)\right) x_{j}^{i} \]沿着m个样本的求出的每个梯度的均值的负方向移动。
优点,容易得到最优解;缺点,每次要考虑所有的样本,速度慢。
随机梯度下降算法
\[\theta_{j}^{\prime}=\theta_{j}+\left(y^{i}-h_{\theta}\left(x^{i}\right)\right) x_{j}^{i} \]每次找一个样本,求出梯度,沿着负方向移动。
优点,迭代速度快;缺点,不一定每次都朝着收敛的方向。
小批量梯度下降算法
\[\theta_{j}=\theta_{j}-\alpha \frac{1}{10} \sum_{k=i}^{i+9}\left(h_{\theta}\left(x^{(k)}\right)-y^{(k)}\right) x_{j}^{(k)} \]采用小部分数据计算,比较实用,既有随机梯度下降的速度,也容易得到最优解。
标签:right,frac,回归,线性,theta,sigma,sum,left From: https://www.cnblogs.com/CallMeRoot/p/18038664