原理:
给定一个概率分布D,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为fD,以及一个分布参数θ,我们可以从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn,通过利用fD,我们就能计算出其概率:
\[P=(x_1,x_2,...,x_n)=f_D(x_1,x_2,...,x_n|\theta ) \]但是,我们可能不知道θ的值,尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢?一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,...,Xn,然后用这些采样数据来估计θ。
一旦我们获得,我们就能从中找到一个关于θ的估计。最大似然估计会寻找关于 θ的最可能的值(即,在所有可能的θ取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如θ的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的θ值。
要在数学上实现最大似然估计法,我们首先要定义可能性:
并且在θ的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为θ的最大似然估计。
最大似然估计的一般求解步骤:
基于对似然函数L(θ)形式(一般为连乘式且各因式>0)的考虑,求θ的最大似然估计的一般步骤如下:
(1)写出似然函数
总体X为离散型时:
总体X为连续型时:
\[L(\theta )=\prod_{n}^{i=1}f(x_i;\theta ) \](2)对似然函数两边取对数有
总体X为离散型时:
总体X为连续型时:
\[lnL(\theta )=\prod_{n}^{i=1}lnf(x_i;\theta ) \](3)对\(dlnL(\theta )\)求导数并令之为0:
\[\frac{dlnL(\theta )}{d\theta } =0 \]此方程为对数似然方程。解对数似然方程所得,即为未知参数的最大似然估计值。