首页 > 其他分享 >最大似然估计——统计学(十一)

最大似然估计——统计学(十一)

时间:2022-11-07 22:46:06浏览次数:91  
标签:似然 十一 right frac mu 统计学 theta sigma left

极大似然估计法(the Principle of Maximum Likelihood )由高斯和费希尔(R.A.Figher)先后提出,是被使用最广泛的一种参数估计方法,该方法建立的依据是直观的最大似然原理。通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。极大似然估计(Maximum likelihood estimation)可以简单理解为我们有一堆数据(数据之间是独立同分布的.iid),为了得到这些数据,我们设计了一个模型,极大似然估计就是求使模型能够得到这些数据的最大可能性的参数,这是一个统计(statistics)问题。

与概率(probability)的区别:概率是我们已知参数\(\theta\)来预测结果,比如对于标准高斯分布\(X~N(0,1)\),我们知道了确切的表达式,那么最终通过模型得到的结果我们大致也可以猜测到。但是对于统计问题,我们预先知道了结果,比如我们有10000个样本(他们可能服从某一分布,假设服从高斯分布),我们的目的就是估计\(\mu \& \sigma\)使得我们假设的模型能够最大概率的生成我们目前知道的样本。

一、问题示例

1.1 例1

假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?

很多人马上就有答案了:70%。而其后的理论支撑是什么呢?

我们假设罐中白球的比例是\(p\),那么黑球的比例就是1-\(p\)。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜色服从同一独立分布。

这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的,三十次为黑球事件的概率是\(P\)(样本结果|Model)。如果第一次抽象的结果记为\(x_1\),第二次抽样的结果记为\(x_2\)....那么样本结果为(\(x_1\),\(x_2\),...,\(x_{100}\))。这样,我们可以得到如下表达式:

\[P(样本结果|Model)   = P(x_1,x_2,...,x_{100}|Model)\\   = P(x_1|Model)P(x_2|Model)…P(x_{100}|Model)\\   = p^{70}(1-p)^{30} \]

好的,我们已经有了观察样本结果出现的概率表达式了。那么我们要求的模型的参数,也就是求的式中的\(p\)。
那么我们怎么来求这个\(p\)呢?不同的\(p\),直接导致\(P(样本结果|Model)\)的不同。好的,我们的\(p\)实际上是有无数多种分布的。如下:

\(p\)(白球的比例) 1-\(p\)(黑球的比例)
50% 50%

\(p\)的分布也可以是如下:

\(p\)(白球的比例) 1-\(p\)(黑球的比例)
70% 30%

那么问题来了,既然有无数种分布可以选择,极大似然估计应该按照什么原则去选取这个分布呢?
采取的方法是让这个样本结果出现的可能性最大,也就是使得\(p^{70}(1-p)^{30}\)值最大,那么我们就可以看成是p的方程,求导即可!
那么既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。
我们想办法让观察样本出现的概率最大,转换为数学问题就是使得:
\(p^{70}(1-p)^{30}\)最大,未知数只有一个\(p\),我们令其导数为0,即可求出\(p\)为70%,与我们一开始认为的70%是一致的。其中蕴含的数学思想在里面。

1.2 例2

假设我们要统计全国人民的年均收入,首先假设这个收入服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的收入。我们国家有10几亿人口呢?那么岂不是没有办法了?
不不不,有了极大似然估计之后,我们可以采用嘛!我们比如选取一个城市,或者一个乡镇的人口收入,作为我们的观察样本结果。然后通过最大似然估计来获取上述假设中的正态分布的参数。
有了参数的结果后,我们就可以知道该正态分布的期望和方差了。也就是我们通过了一个小样本的采样,反过来知道了全国人民年收入的一系列重要的数学指标量!

二、似然函数

似然性(likelihood)与概率(possibility)同样可以表示事件发生的可能性大小,但是二者有着很大的区别:

概率\(p(x|\theta)\)是在已知参数\(\theta\) 的情况下,发生观测结果 \(x\) 可能性大小;
似然性\(L(\theta|x)\) 则是从观测结果\(x\)出发,分布函数的参数为 \(\theta\)的可能性大小。

可能听着不是那么好理解。我们再详细说明下,似然函数如下:

\[L(\theta|x)=p(x|\theta) \]

其中\(x\)已知,\(\theta\)未知。若对于两个参数$\theta_1,\theta_2 $,有

\[L(\theta_1|x)=p(x|\theta_1)>p(x|\theta_2)=L(\theta_2|x) \]

那么意味着 $\theta=\theta_1 $时,随机变量 \(X\)生成\(x\)的概率大于当参数 \(\theta=\theta_2\) 时。这也正是似然的意义所在,若观测数据为 \(x\),那么 \(\theta_1\)是比\(\theta_2\)更有可能为分布函数的参数。在不同的时候,\(p(x|\theta)\)可以表示概率也可以用于计算似然。似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性,用\(L\)表示,给定输出\(x\)时,关于参数\(\theta\)的似然函数$$L(\theta|x)$$在数值上等于给定参数\(\theta\)后变量\(x\)的概率

\[L(θ|x)=P(X=x|θ) \]

在统计学习中,我们有\(N\)个样本\(x_{1}, x_{2}, x_{3},...,x_{N}\),假设他们之间是相互独立的,那么似然函数

\[L(θ)=P(X_1=x_1,X_2=x_2,...,X_N=x_N)=\prod_{i = 1}^{N}p(X_i=x_i)=\prod_{i = 1}^{N}p(x_i,θ) \]

极大似然函数的目的就是求解一个\(\theta\)使得\(L(\theta)\)最大。

三、最大似然估计的无偏性

这里用一维高斯分布来判断\(\mu\)和\(\sigma^2\)的无偏性及有偏性,一维正态高斯分布函数

\[f(x|\theta)=f(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\ e^{-\frac{(x-\mu)^2}{2\sigma ^2}} \]

其中最大似然估计MLE:\(\hat\theta = \underset {\theta}{{arg\,max}}~lnL(X|\mu, \sigma)\)

分为三种情况

(1)已知\(\sigma^{2}\),未知\(\mu\),求\(\mu\)的最大似然估计量\(\hat\mu\)

似然函数: \(L(X \mid \mu)=\prod_{i=1}^N p\left(x_i \mid \mu\right)=\prod_{i=1}^N \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_i-\mu\right)^2}{2 \sigma^2}}\)
两边分别取对数: \(\ln L(X \mid \mu)=\ln \prod_{i=1}^N p\left(x_i \mid \mu\right)=-\frac{N}{2} \ln (2 \pi)-N \ln \sigma-\frac{1}{2 \sigma^2} \sum_{i=1}^N\left(x_i-\mu\right)^2\)
两边对 \(\mu\) 求导

\[\begin{gathered} \frac{d \ln L(X \mid \mu)}{d \mu}=\sum_{i=1}^N \frac{1}{\sigma^2}\left(x_i-\mu\right)=0 \\ \sum_{i=1}^N\left(x_i-\mu\right)=0 \rightarrow \sum_{i=1}^N x_i-N \mu=0 \\ \hat{\mu}=\frac{1}{N} \sum_{i=1}^N x_i=\bar{X} \end{gathered} \]

可以发现,当\(\sigma^2\)已知时,\(\mu\)的最大似然估计量只受样本的影响, \(\hat{\mu}\) 是 \(\mu\) 的无偏估计

\[E[\hat{\mu}]=E\left[\frac{1}{N} \sum_{i=1}^N x_i\right]=\frac{1}{N} \sum_{i=1}^N E\left[x_i\right]=\frac{1}{N} N \mu=\mu \]

(2)已知\(\mu\),未知\(\sigma^{2}\),求\(\sigma^{2}\)的最大似然估计量\(\hat\sigma^{2}\)

似然函数:
\(L\left(X \mid \sigma^2\right)=\prod_{i=1}^N p\left(x_i \mid \sigma^2\right)=\prod_{i=1}^N \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_i-\mu\right)^2}{2 \sigma^2}}\)
两边分别取对数:
\(\ln L\left(X \mid \sigma^2\right)=\ln \prod_{i=1}^N p\left(x_i \mid \sigma^2\right)=-\frac{N}{2} \ln (2 \pi)-N \ln \sigma-\frac{1}{2 \sigma^2} \sum_{i=1}^N\left(x_i-\mu\right)^2\) 两边对 \(\sigma^2\) 求导

\[\begin{gathered} \frac{d \ln L\left(X \mid \sigma^2\right)}{d \sigma^2}=\sum_{i=1}^N \frac{1}{\sigma^2}\left(x_i-\mu\right)=0 \\ -\frac{N}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^N\left(x_i-\mu\right)^2=0 \\ \hat{\sigma}^2=\frac{1}{N} \sum_{i=1}^N\left(x_i-\mu\right)^2 \end{gathered} \]

可以发现,当\(\mu\)已知时,\(\hat{\sigma}^2\) 的最大似然估计量 受到样本以及样本均值的影响, \(\hat{\sigma}^2\) 是 \(\sigma^2\) 的无偏估计

\[\begin{aligned} &E\left[\hat{\sigma}^2\right]=E\left[\frac{1}{N} \sum_{i=1}^N\left(x_i-\mu\right)^2\right]=E\left[\frac{1}{N} \sum_{i=1}^N x_i^2-\frac{1}{N} \sum_{i=1}^N 2 x_i \mu+\frac{1}{N} \sum_{i=1}^N \mu^2\right]=E\left[\frac{1}{N} \sum_N^{i=1} x_i^2-2 \mu^2+\mu^2\right] \\ &=E\left[\frac{1}{N} \sum_{i=1}^N x_i^2-\mu^2\right]=\frac{1}{N} \sum_{i=1}^N\left(E\left(x_i^2\right)-E^2\left(x_i\right)\right)=D\left(x_i\right)=\sigma^2 \end{aligned} \]

(3)\(\mu\)和\(\sigma^{2}\)均未知,求\(\mu\)、\(\sigma^{2}\)的最大似然估计量\(\hat\mu\)和\(\hat\sigma^{2}\)

似然函数: \(L\left(X \mid \mu, \sigma^2\right)=\prod_{i=1}^N p\left(x_i \mid \mu, \sigma^2\right)=\prod_{i=1}^N \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{\left(x_i-\mu\right)^2}{2 \sigma^2}}\)
两边分别取对数: \(\ln L\left(X \mid \mu, \sigma^2\right)=\ln \prod_{i=1}^N p\left(x_i \mid \mu, \sigma^2\right)=-\frac{N}{2} \ln (2 \pi)-N \ln \sigma-\frac{1}{2 \sigma^2} \sum_{i=1}^N\left(x_i-\mu\right)^2\)

  • 两边对 \(\mu\) 求导

\[\begin{gathered} \frac{d \ln L(X \mid \mu)}{d \mu}=\sum_{i=1}^N \frac{1}{\sigma^2}\left(x_i-\mu\right)=0 \\ \sum_{i=1}^N\left(x_i-\mu\right)=0 \rightarrow \sum_{i=1}^N x_i-N \mu=0 \\ \hat{\mu}=\frac{1}{N} \sum_{i=1}^N x_i=\bar{X} \end{gathered} \]

  • 两边对 \(\sigma^2\) 求导

\[\begin{gathered} \frac{d \ln L\left(X \mid \sigma^2\right)}{d \sigma^2}=\sum_{i=1}^N \frac{1}{\sigma^2}\left(x_i-\mu\right)=0 \\ -\frac{N}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^N\left(x_i-\mu\right)^2=0 \\ \hat{\sigma}^2=\frac{1}{N} \sum_{i=1}^N\left(x_i-\hat{\mu}\right)^2=\frac{1}{N} \sum_{i=1}^N\left(x_i-\bar{X}\right)^2 \end{gathered} \]

可以发现,当 \(\mu\) 的最大似然估计量 \(\hat{\mu}\) 只受样本的影响(因为在计算时 \(\sigma^2\) 被消去了), \(\hat{\mu}\) 是 \(\mu\) 的无偏估计 \(E[\hat{\mu}]=E[\bar{X}]=E\left[\frac{1}{N} \sum_{i=1}^N x_i\right]=\frac{1}{N} \sum_{i=1}^N E\left[x_i\right]=\frac{1}{N} N \mu=\mu\)

但是在计算\(\sigma^{2}\)的最大似然估计量\(\hat \sigma^{2}\)不仅受到样本的影响,还受到\(\mu\)的影响,其中\(\mu\)未知,只能用计算出的\(\hat \mu\)来替代,通过下面计算可以发现\(\hat \sigma^{2}\)是\(\sigma^{2}\)的有偏估计

\[\begin{aligned} E\left[\hat{\sigma}^2\right] & =E\left[\frac{1}{N} \sum_{i=1}^N\left(x_i-\bar{X}\right)^2\right]=E\left[\frac{1}{N} \sum_{i=1}^N x_i^2-\frac{1}{N} \sum_{i=1}^N 2 x_i \bar{X}+\frac{1}{N} \sum_{i=1}^N \bar{X}^2\right] \\ &=E\left[\frac{1}{N} \sum_N^{i=1} x_i^2-2 \bar{X}^2+\bar{X}^2\right]=E\left\{\left(\frac{1}{N} \sum_{i=1}^N x_i^2-\bar{X}^2\right)-\left(\bar{X}^2-\bar{X}^2\right)\right\} \\ &=E\left[\left(\frac{1}{N} \sum_{i=1}^N x_i^2-\bar{X}^2\right)\right]-E\left(\bar{X}^2-\bar{X}^2\right) \\ &=\frac{1}{N} \sum_{i=1}^N\left[E\left(x_i^2\right)-E^2\left(x_i\right)\right]-\left[E\left(\bar{X}^2\right)-E^2(\bar{X})\right] \\ &=D\left(x_i\right)-D(\bar{X})=\sigma^2-\frac{\sigma^2}{N}=\frac{N-1}{N} \sigma^2 \end{aligned} \]

所以在计算样本的方差 \(S^2\) 时,需要在在前面乘上一个系数,即 \(S^2=\frac{N}{N-1} E\left[\hat{\sigma}^2\right]\)

总结

如果总体\(X\)为离散型
假设分布率为\(P=p(x;\theta)\),\(x\)是发生的样本,\(\theta\)是待估计的参数,\(p(x;\theta)\)表示估计参数为\(\theta\)时,发生\(x\)的概率。那么当我们的样本值为:\(x_{1},x_2,...,x_{n}\)时,

\[L(\theta )=L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta )=\prod _{ i=1 }^{ n }{ p({ x }_{ i };\theta ) } \]

其中\(L(\theta)\)成为样本的似然函数。

假设

\[L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\hat {\theta } )=\underset { \theta \in \Theta }{ max } L({ x }_{ 1 },{ x }_{ 2 },...,{ x }_{ n };\theta ) \]

有\(\hat{\theta}\)使得\(L(\theta)\)的取值最大,那么\(\hat{\theta}\)就叫做参数$\theta $的极大似然估计值。

如果总体\(X\)为连续型
和上面类似,只是概率密度为\(f(x;\theta)\),替代\(p\)。

解法
1)构造似然函数\(L(\theta)\)
2)取对数:\(lnL(\theta)\)
3) 求导,计算极值
4)解方程,得到\(\theta\)
极大似然估计就是在只有概率的情况下,忽略低概率事件直接将高概率事件认为是真实事件的思想。

参考文献

搞懂极大似然估计
最大似然估计
参数估计(二).最大似然估计

标签:似然,十一,right,frac,mu,统计学,theta,sigma,left
From: https://www.cnblogs.com/haohai9309/p/16867285.html

相关文章