在学习机器学习的时候,我对这两个概念产生了强烈的迷惑。于是补习了相关的知识。
首先给出结论:“根据中心极限定理,误差服从正态分布,此时使得样本似然函数最大等价于使得MSE最小。《Deep Learning》
1.什么是最大似然估计
离散型
假设有一盒的小球编只有1和2,这个盒子无限大,每次取出小球都不会影响下一次拿球的概率(数学语言来说就是每次拿出小球的概率(数据与数据)之间都是独立的,但满足同一个分布,也叫做独立同分布,iid)。现在我依次取出小球:第一次取出编号为1,第二次编号为1,第三次编号为2,第四次编号为1,第五次编号为2。此时我们假设取出编号为1的小球的概率是θ,那么编号为2的小球概率为(θ-1)。我们可以得出L(θ)= θ³(θ-1)²。
我们知道,小盒无限大,我们不可能一一取出所有的小球,这样实在是太麻烦了。我们自然的希望,抽检的观测值就是真实的概率,有趣的是,它确实是这样的。对同一样本(小球)取样5次,出现的5次结果是在样本概率影响下产生的。在该未知的概率影响下,出现了这5次结果,说明这5次结果出现的概率最大(不然为什么没出现别的结果。那么在以此建立未知概率的表达式后(该表达式实际含义是,5次结果中每一次的概率相乘,也就是这5个结果同时发生的概率),该表达式达到最大值时,自变量的取值(也就是依据这几次实验计算出来的概率)就是最接近实际概率。是不是非常有趣?
指数函数很难处理,因此我们对两边分别取对数,由于ln函数单调递增,因此不会改变原函数的相对大小。
lnL(θ)= 3lnθ+2ln(θ-1)
两边分别求导后,得出θ=3/5! 是不是正是和观测概率一样?
连续型
连续型变量使用概率密度函数来表示概率,也就是分布的面积,也就是分布函数的积分。
这里只讨论正态分布也就是高斯分布的概率密度函数。
这,也是我们今天要讨论的话题。
现在我们再看回归问题,对于回归问题来说,我们的目标不是去找一个x的正态分布了。对于一个回归问题,我们以最简单的线性回归举例。对于一个回归问题,我们的目标是,其中k和b是模型的参数,而z是噪声,我们假设噪声符合正态分布。
那么我们的y其实也可以看成符合正态分布(这里没搞明白,但是资料都说可以这样看,先把问题留着后面再解释),其中kx+b其实就是模型的预测值,也就是说。
正态分布的probability density function是,带入得到。
那么也就是说,如果我们想最大化我们观测到的y的情况的话,我们应该最大化上面这个连乘结果。注意到这个值由一个常数乘上一个e的次方项,优化的时候常数项可以忽略。
于是我们的目标变成了,这里出现了连乘,又出现了e的次方项,很正常的想到取log,于是变成了,忽略常数项,稍微整理一下得到。
于是我们就证明了,我们在做线性回归的时候,我们如果假设我们的噪声符合高斯分布,那么我们的目标函数就是MSE。
标签:似然,误差,概率,小球,正态分布,估计,编号,我们 From: https://www.cnblogs.com/zz-w/p/16856026.html