最大似然估计(Maximum Likelihood Estimation,MLE) 和 最大后验估计(Maximum A Posteriori Estimation,MAP) 都是参数估计方法,用于从数据中推断模型参数的最优值。它们的主要区别在于是否考虑先验知识。
1. 最大似然估计(MLE)
定义:最大似然估计通过找到使观测数据最可能出现的参数值来估计模型参数。它只依赖于观测数据本身,不考虑任何先验分布。
给定一个观测数据集 ,假设数据由参数 θ 的某个概率分布生成,MLE的目标是找到使得数据的似然函数最大化的参数值:
其中,P(D∣θ) 表示给定参数 θ 下数据 D 的似然(即观测数据在参数 θ 下的概率)。
通常,为了简化计算,采用似然函数的对数形式:
MLE的基本思想是:选择最能使得观测到的数据最大化的参数值。
2. 最大后验估计(MAP)
定义:最大后验估计则是在最大似然估计的基础上,结合了先验信息(先验分布)来进行参数估计。MAP通过最大化参数的后验分布来估计参数值。
给定数据 和参数的先验分布 P(θ),MAP的目标是找到使得后验分布最大化的参数值:
根据贝叶斯公式,后验分布 P(θ∣D) 可以表示为:
其中:
- P(D∣θ) 是数据的似然函数。
- P(θ) 是参数 θ 的先验分布,表示对参数的先验信念。
- P(D) 是数据的边际似然(通常是一个常数,可以忽略)。
为了简化计算,我们通常最大化后验分布的对数形式:
因为 P(D) 对参数 θ 无关,所以最大化后验分布等同于最大化对数似然和对数先验的和:
3. MLE和MAP的比较
-
先验信息:
- MLE不考虑任何先验知识,只关注数据本身。
- MAP则结合了先验分布,考虑了参数的先验信息,即对参数的先验信念。
-
偏向性:
- MLE容易受到数据不足或噪声的影响,特别是在数据量少的情况下,可能会导致较大的偏差。
- MAP通过引入先验分布,有助于在数据较少时提供更加稳定和合理的估计。
-
计算:
- 在没有先验信息的情况下,MAP与MLE相同,因为先验分布 P(θ) 可以认为是一个常数,不影响最大化过程。
- 如果先验分布是非均匀的,MAP估计会有所不同。
4. 直观解释
-
MLE:假设数据给出了足够的信息,寻找在这些数据上最可能的参数值,类似于通过观测数据本身来判断最好的解释。
-
MAP:除了数据之外,还引入了先验知识(例如,基于以往经验或领域知识对参数可能值的猜测)。这在数据不完全时特别有用。