1.理解
设总体有分布 \(f(x;\theta_1,\cdots,\theta_k), X_1,\cdots,X_n\) 为自这个总体总抽出的样本,则样本\((X_1,\cdots,X_n)\) 的分布(即其概率密度函数或概率函数)为
\[f(x_1;\theta_1,\cdots,\theta_k)f(x_2;\theta_1,\cdots,\theta_k)\cdots f(x_n;\theta_1,\cdots,\theta_k), \]记为\(L(x_1,\cdots,x_n;\theta_1,\cdots,\theta_k)\).
固定\(\theta_1,\cdots,\theta_k\), 而看作\(x_1,\cdots,x_n\)的函数时,L是一个概率密度函数或概率函数。可以这样理解:若
则在观察时出现\((Y_1,\cdots,Y_n)\) 这个点的可能性要比出现\((X_1,\cdots,X_n)\) 的可能性要大。
把这件事反过来说,可以这么想:当已观察到\(X_1,\cdots,X_n\) 时,若
则被估计的参数\((\theta_1,\cdots,\theta_k)\) 是\((\theta_1',\cdots,\theta_k')\) 的可能性比它是\(\theta_1'',\cdots,\theta_k''\) 的可能性要大。
当\(X_1,\cdots,X_2\) 固定而把L看作\(\theta_1,\cdots,\theta_k\) 的函数时,它称为“似然函数”。这个名称的意义,可根据上述分析得到理解:
这个还是对不同的\((\theta_1,\cdots,\theta_k)\) 的取值,反映了在观察结果\((X_1,\cdots,X_2)\) 已知的条件下,\((\theta_1,\cdots,\theta_k)\) 的各种值的“似然程度”。
把观察值\((X_1,\cdots,X_2)\)看作结果,而把参数值\((\theta_1,\cdots,\theta_k)\) 看成是导致这个结果的原因。现在已经有了结果,要反过来推算各种原因的概率。
这里,参数\((\theta_1,\cdots,\theta_k)\) 有一定的值(虽然未知),并非事件或者随机变量,无概率可言,于是就改用“似然”这个词。
由上述分析就自然地导致以下的方法:应该用似然程度最大的那个点\((\theta_1^*,\cdots,\theta_k^*)\), 即满足条件
\[L(X_1,\cdots,X_n;\theta^*,\cdots,\theta_k^*)=max_{\theta1,\cdots,\theta_k} L(X_1,\cdots,X_n;\theta_1,\cdots,\theta_k) \]的\((\theta_1^*,\cdots,\theta_k^*)\) 去作为\((\theta_1,\cdots,\theta_k)\)的估计值,因为在已得样本\(X_1,\cdots,X_n\) 的条件下,这个“看起来最像”是真参数值。这个估计\((\theta_1^*,\cdots,\theta_k^*)\) 就叫做\((\theta_1,\cdots,\theta_k)\)的“极大似然估计”。如果要估计的是\(g(\theta_1,\cdots,\theta_k)\),则\(g(\theta_1^*,\cdots,\theta_k^*)\) 是它的极大似然估计。
因为
且为使L达到最大,只需使lnL达到最大(它们是同单调的,而取对数是为了求导的时候将连乘转为连加),故在f对\(\theta_1,\cdots,\theta_k\) 存在连续的偏导数时,可建立方程组(称为似然方程组):
\[{\partial lnL \over \partial \theta_i} = 0 \quad (i = 1,\cdots,k). \]如果这个方程组有唯一的解,又能验证它是一个极大值点,则它必是使L达到最大的点,即极大似然估计。
2. 参考
《概率论与数理统计(陈希孺)》
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解