标签：right mathrm boldsymbol 点估计第七章 theta 估计量 left

第七章点估计

该笔记基于书本《统计推断》，笔记省略部分均可在该书上找到对应的详细解释。

这一章由两部分构成，第一部分是如何构成参数\(\theta\)的点估计量，第二部分是对提出的点估计量进行评估。

7.1 基本定义

定义 7.1.1： 样本的任何一个函数 \(W\left(X_1, \cdots, X_n\right)\) 称为一个点估计量 (point-estimator), 即任何一个统计量就是一个点估计量。

我们细心的话可以发现，点估计量的定义和统计值其实非常像，或者说是完全相同的，他们都是样本的函数与参数无关。注意在定义中没有对估计量做出任何约束(例如在第五章中提到的无偏估计量，要求估计量的期望为参数\(\theta\)，这会让估计量的范围缩小。不是广义上的估计量。

tips：一定要注意这里定义的是估计量，而不是估计值，估计值是估计量函数的选定一个样本之后的值。

7.2 求估计量的方法

接下来将分别介绍矩法，极大似然估计法，以及bayes估计法三种求估计量的方法。

7.2.1 矩法

矩法的想法是非常直观明了的，就是\(N\)阶样本矩等于\(N\)阶总体矩，联立方程组即可得到估计量的表达式，以下是书上的例子。

\[\begin{gather} m_1=\frac{1}{n} \sum_{i=1}^n X_i^1, \quad \mu_1^{\prime}=\mathrm{E} X^1, \\ m_2=\frac{1}{n} \sum_{i=1}^n X_i^2, \quad \mu_2^{\prime}=\mathrm{E} X^2, \\ \vdots \\ m_k=\frac{1}{n} \sum_{i=1}^n X_i^k, \quad \mu_k^{\prime}=\mathrm{E} X^k . \\ \end{gather} \]

在典型的情况下, 总体矩 \(\mu_j^{\prime}\) 是参数 \(\theta_1, \cdots, \theta_k\) 的一个函数, 可以记作 \(\mu_j^{\prime}\left(\theta_1, \cdots, \theta_k\right)\) 。于是 \(\left(\theta_1, \cdots, \theta_k\right)\) 的矩法估计量 \(\left(\tilde{\theta}_1, \cdots, \tilde{\theta}_k\right)\) 就可以通过求解下面的关于 \(\left(\theta_1, \cdots, \theta_k\right)\) 的方程组。

\[\begin{gathered} m_1=\mu_1^{\prime}\left(\theta_1, \cdots, \theta_k\right), \\ m_2=\mu_2^{\prime}\left(\theta_1, \cdots, \theta_k\right), \\ \vdots \\ m_k=\mu_k^{\prime}\left(\theta_1, \cdots, \theta_k\right). \end{gathered} \]

Satterthwaite 近似： 若 \(Y_i, i=1, \cdots, k\) 是独立的 \(\chi_{r_i}^2\) 随机变量, 因此 \(\sum Y_i\) 也是 \(\chi^2\) 分布, 其自由度等于 \(\sum r_i\). 遗喊的是 \(\sum a_i Y_i\) (其中这些系数 \(a_i\) 是已知常数) 的分布一般很难得到. 不过这样做似乎是合理的, 即假定存在某个数 \(\nu\), 而 \(\chi_\nu^2\) 将提供一个良好的近似的分布.
这差不多就是 Satterthwaite 的问题. 他当时的兴趣在于近似 \(\mathbf{t}\) 统计量的分母, 而 \(\sum a_i Y_i\) 表示的就是他的统计量分母的平方. 就是说, 对于给定的 \(a_1, \cdots, a_k\), 他想找到一个数 \(\nu\), 以使得

\[\sum_{i=1}^k a_i Y_i \sim \frac{\chi_\mu^2}{\nu} \]

通过对两者的一阶和二阶矩进行联立方程，再通过推导可以得到Satterthwaite近似式，如下所示

\[i=\frac{\left(\sum a_i Y_i\right)^2}{\sum \frac{a_i^2}{r_i} Y_i^2} \]

7.2.2 极大似然估计量

极大似然估计法是最为流行的求估计量的技术. 设 \(X_1, \cdots, X_n\) 是来自以 \(f\left(x \mid \theta_1, \cdots, \theta_k\right)\) 为其概率密度函数或概率质量函数的总体的 iid 样本, 似然函数的定义

\[L(\theta \mid \boldsymbol{x})=L\left(\theta_1, \cdots, \theta_k \mid x_1, \cdots, x_n\right)=\prod_{i=1}^n f\left(x_i \mid \theta_1, \cdots, \theta_k\right) \]

从这个定义本身的构造, 就表明 MLE 的值域与参数值域相符合. 我们在谈到这个估计量的实现值的时候, 也用缩写 MLE代表极大似然估计值。

定义 7.2.4： 对每一个固定的样本点 \(\boldsymbol{x}\), 令 \(\hat{\theta}(\boldsymbol{x})\) 是参数 \(\theta\) 的一个取值, 它使得 \(L(\theta \mid \boldsymbol{x})\) 作为 \(\theta\) 的函数在该处达到最大值. 那么, 基于样本 \(\boldsymbol{X}\) 的极大似然估计量 (maximum likelihood estimator 缩写为 MLE) 就是 \(\hat{\theta}(\boldsymbol{X})\)。

从这个定义本身的构造, 我们可以推断出 MLE 的值域与参数值域相符合。

极大似然估计技术有两个难点，第一个是求极大值的问题，有的时候，\(L(\theta \mid \boldsymbol{x})\)是一个复杂的函数，有多个局部极大值，以及\(\theta\)有范围，因此讨论在哪里取得最大值是一个问题，其二就是数据敏感性，在\(\boldsymbol{x}\)变动的过程中，\(\theta\)的取值会不会发生大变动。

如果似然函数是可微的 (对于 \(\theta_i\) ), 那么 MLE 的可能值就是满足下式的解：

\[\frac{\partial}{\partial \theta_i} L(\theta \mid \boldsymbol{x})=0, \quad i=1, \cdots k \]

tips：解仅是 MLE 的可能的选择, 这是因为一阶导数为 0 只是成为极大值点的必要而非充分条件。另外, 一阶导数的零点只处于函数定义域内部的极值点上。如果极值点出现在定义域的边界上, 一阶导数末必是 0. 因此, 我们必须另外对边界进行核查以发现极值点。

若似然函数不可微，例如离散的概率密度函数，此时我们可以采用数值分析的方式进行处理，这里具体看书的例子(p289)。极大似然估计量还有一个非常重要的性质，可以大大简化我们对有联系的参数之间的估计量的求解。

定理 7.2.10： (极大似然估计的不变性) 若 \(\hat{\theta}\) 是 \(\theta\) 的 MLE, 则对于 \(\theta\) 的任何函数 \(\tau(\theta), \tau(\theta)\) 是 \(\tau(\theta)\) 的 MLE。

书本上的证明：令 \(\eta\) 表示使 \(L^*(\eta \mid x)\) 达极大的值. 我们必须证明 \(L^*(\dot{\eta} \mid \boldsymbol{x})=L^*[\tau(\hat{\theta}) \mid \boldsymbol{x}]\)。根据上边所讲, \(L\) 的极大值与 \(L^*\) 的极大值是一致的, 因此我们有

\[\begin{array}{rlrl} L^*(\dot{\eta} \mid \boldsymbol{x}) & =\sup _\eta \sup_{\{\theta,r(\theta)=\eta)}L(\theta \mid \boldsymbol{x}) & & \left(L^* \text { 的定义 }\right) \\ & =\sup _\theta L(\theta \mid \boldsymbol{x}) & \\ & =L(\hat{\theta} \mid \boldsymbol{x}) & & (\hat{\theta} \text { 的定义 }) \end{array} \]

这里第二个等式成立的理由是累次极大化等于 \(\theta\) 上的无条件极大化, 而后者在 \(\hat{\theta}\) 达到。而且

\[\begin{aligned} L(\hat{\theta} \mid \boldsymbol{x}) & =\sup _{\substack{\left\{\theta_{\mathrm{r}}(\hat{\theta})=\mathrm{r}(\hat{\theta})\right\}}} L(\theta \mid \boldsymbol{x}) & & (\hat{\theta} \text { 是 MLE }) \\ & =L^{\cdot}[\tau(\hat{\theta}) \mid \boldsymbol{x}] & & \left(L^* \text { 的定义 }\right) \end{aligned} \]

于是以上等式串就证明了 \(L^*(\dot{\eta} \mid x)=L^*(\tau(\hat{\theta}) \mid x)\) 和 \(\tau(\hat{\theta})\) 是 \(\tau(\theta)\) 的 MLE。

极大似然估计的不变性在多元情况下也成立。在定理 \(7.2 .10\) 的证明中完全没有排除 \(\theta\) 是向量. 所以如果 \(\left(\theta_1, \cdots, \theta_k\right)\) 的 MLE 是 \(\left(\hat{\theta}_1, \cdots, \hat{\theta}_k\right)\), 而 \(\tau\left(\theta_1, \cdots\right.\), \(\left.\theta_k\right)\) 是参数的任意一个函数, 则 \(\tau\left(\theta_1, \cdots, \theta_k\right)\) 的 MLE 就是 \(\tau\left(\hat{\theta}_1, \cdots, \hat{\theta}_k\right)\)。
如果 \(\theta=\left(\theta_1, \cdots, \theta_k\right)\) 是多维的, 那么寻找 MLE 的问题就是一个多变量函数的求极大问题. 如果似然函数是可微的, 那么一阶偏导数等于 0 就是在区域内部达到极值的一个必要条件. 然而在多维情况下, 用多维导数的去核验极大值是一项比较困难的事, 可以先尝试逐次极大化。逐次极大化的思想有点类似与凸优化中坐标轮换下降法，对每个一维参数轮流求极小，也就是求偏导为0的点即可。这里不再展开，详细可以查看书本(p292)。

简要介绍完逐次极大化，接下来给出用二维多阶导数来求极大似然估计量的方法。

方法 7.2.12： 用二元微积分学验证一个函数 \(H\left(\theta_1, \theta_2\right)\) 在 \(\left(\hat{\theta}_1, \hat{\theta}_2\right)\) 有局部极大值, 必须证明下面三个条件成立.
a. 一阶偏导数都是 0 ,

\[\left.\frac{\partial}{\partial \theta_1} H\left(\theta_1, \theta_2\right)\right|_{\theta_1=\hat{\theta}_1 \cdot \theta_2=\hat{\theta}_2}=0 \text { 而且 }\left.\frac{\partial}{\partial \theta_2} H\left(\theta_1, \theta_2\right)\right|_{\theta_1=\hat{\theta}_1 \cdot \theta_2=\hat{\theta}_2}=0 \]

b. 至少有一个二阶偏导数为负,

\[\left.\frac{\partial^2}{\partial \theta_1^2} H\left(\theta_1, \theta_2\right)\right|_{\theta_1=\hat{\theta}_1, \theta_2=\hat{\theta}_2}<0 \text { 或 }\left.\frac{\partial^2}{\partial \theta_2^2} H\left(\theta_1, \theta_2\right)\right|_{\theta_1=\hat{\theta}_1, \theta_2=\hat{\theta}_2}<0 \]

c. 二阶偏导数的雅可比行列式为正,

\[\begin{aligned} & \left|\begin{array}{ll} \frac{\partial^2}{\partial \theta_1^2} H\left(\theta_1, \theta_2\right) & \frac{\partial^2}{\partial \theta_1 \partial \theta_2} H\left(\theta_1, \theta_2\right) \\ \frac{\partial^2}{\partial \theta_1 \partial \theta_2} H\left(\theta_1, \theta_2\right) & \frac{\partial^2}{\partial \theta_2^2} H\left(\theta_1, \theta_2\right) \end{array}\right|_{\theta_1=\hat{\theta}_1, \theta_2=\hat{\theta}_2} \\ & =\frac{\partial^2}{\partial \theta_1^2} H\left(\theta_1, \theta_2\right) \frac{\partial^2}{\partial \theta_2^2} H\left(\theta_1, \theta_2\right)-\left.\left(\frac{\partial^2}{\partial \theta_1 \partial \theta_2} H\left(\theta_1, \theta_2\right)\right)^2\right|_{\theta_1=\hat{\theta}_1, \theta_2=\hat{\theta}_2}>0 \\ & \end{aligned} \]

这里的雅可比行列式为正，且一个二阶导数为负。对应的其实是二维Hessian矩阵为负定，若Hessian矩阵负定，则可以说明在该点，二维函数取得极大值点，相反的，若Hessian矩阵为正定，则为极小值点。相比于正定矩阵行列式恒大于0，而负定矩阵的行列式正负不定，这也是方法7.2.12中条件那么多的原因，所以我们也可以想象到随着维度越来越多，这种判断方法的复杂度会成倍增长。

7.2.3 Bayes估计量(Bayes Estimators)

在经典方法中，参数 \(\theta\) 被认为是一个末知、但固定的量。从以 \(\theta\) 为指标的总体中抽取一组随机样本 \(X_1, \cdots, X_n\)，基于样本的观测值来获得关于 \(\theta\) 的知识。在 Bayes 方法中, \(\theta\) 被考虑成一个其变化可被一个概率分布描述的量, 该分布叫做先验分布 (prior distribution)。这是一个主观的分布，建立在试验者的信念上, 而且见到抽样数据之前就已经用公式制定好了(因而名为先验分布)。然后从以 \(\theta\) 为指标的总体中抽取一组样本，先验分布通过样本信息得到校正。这个被校正的先验分布叫做后验分布 (posterior distribution)。这个校正工作是通过 Bayes 法则完成的，因而称为 Bayes 统计。
如果我们把先验分布记为 \(\pi(\theta)\) 而把样本分布记为 \(f(\boldsymbol{x} \mid \theta)\), 那么后验分布是给定样本 \(x\) 的条件下 \(\theta\) 的条件分布, 就是

\[\quad \pi(\theta \mid \boldsymbol{x})=f(\boldsymbol{x} \mid \theta) \pi(\theta) / m(\boldsymbol{x}), \quad(f(\boldsymbol{x} \mid \theta) \pi(\theta)=f(\boldsymbol{x}, \theta)) \]

这里 \(m(\boldsymbol{x})\) 是 \(\boldsymbol{X}\) 的边缘分布, 由下式得出

\[m(\boldsymbol{x})=\int f(\boldsymbol{x} \mid \theta) \pi(\theta) \mathrm{d} \theta \]

注意这个后验分布是一个条件分布, 其条件建立在观测样本上。现在用这个后验分布来作出关于 \(\theta\) 的推断, 而 \(\theta\) 仍被考虑为一个随机的量。例如, 后验分布的均值就可以被用作 \(\theta\) 的点估计。

定义 7.2.15： 设 \(\mathcal{F}\) 是概率密度函数或概率质量函数 \(f(x \mid \theta)\) 的类 (以 \(\theta\) 为指标). 称一个先验分布类 \(\prod\) 为 \(\mathcal{F}\) 的一个共轭族 (conjugate family), 如果对所有的 \(f \in \mathcal{F}\), 所有的 \(\prod\) 中的先验分布和所有的 \(x \in X\), 其后验分布仍在 \(\prod\) 中.

这里为什么要给出这样一个定义呢，这是因为如果先验分布类 \(\prod\) 和概率密度函数类之间 \(\mathcal{F}\) 满足这种关系，则我们可以发现，求得的Bayes估计量满足其是先验均值和后验均值的线性组合，这益于我们对估计量的分析。由于Bayes估计量是先验均值和后验均值的线性组合，其权重由参数决定。

7.2.4 EM算法

EM算法作为一个重要算法，需要大的篇幅好好介绍。书本只是进行了简单的介绍，且算法的推导部分较为简略，因此具体的推导放在单独一文介绍。

7.3 估计量的评价方法

上面主要介绍了求估计量的方法，但是这些估计量孰优孰劣，需要在评价标准下对其进行评估，我们也希望可以获得最优的估计值不是吗。

7.3.1 均方误差(MSE)

定义 7.3.1： 参数 \(\theta\) 的估计量 \(W\) 的均方误差 (mean squared error, 简记为 MSE) 是由 \(\mathrm{E}_\theta(W-\theta)^2\) 定义的关于 \(\theta\) 的函数。

MSE 度量的是估计量 \(W\) 与参数 \(\theta\) 之差的平方的平均值, 它是对于一个点估计性质的颇为合理的度量。一般讲, 绝对值距离 \(|W-\theta|\) 的任何一个增函数都可以取作一个估计量优度的度量 (平均绝对误差 \(\mathrm{E}_\theta(|W-\theta|)\) 就是一个合理的选择)。但是均方误差比起绝对值，更好分析，同时均方误差可以拆成两部分，如下所示。

\[\quad \mathrm{E}_\theta(W-\theta)^2=\operatorname{Var}_\theta W+\left(\mathrm{E}_\theta W-\theta\right)^2=\operatorname{Var}_\theta W+\left(\operatorname{Bias}_\theta W\right)^2 \]

这里出现了偏倚\(\operatorname{Bias}_\theta W\) ，这里我们给出其定义:

定义 7.3.2： 参数 \(\theta\) 的点估计量 \(W\) 的偏倚 (bias) 是指的 \(W\) 的期望值与 \(\theta\) 之差; 即 \(\operatorname{Bias}_\theta W=\mathrm{E}_\theta W-\theta\). 一个估计量如果它的偏倚 (关于 \(\theta\) ) 恒等于 0 , 则称为无偏的 (unbiased), 它满足 \(\mathrm{E}_\theta W=\theta\) 对所有 \(\theta\) 成立.

这样, MSE 由两部分组成, 其一度量该估计量的变异性（精度）而其二度量它的偏倚 (准确度)。为求得一个有良好 MSE 性质的估计量我们需要寻找方差与偏倚两者都得到控制的估计量。我们可以自然的想到，如果我们考虑的是无偏估计量，那么均方误差就只与\(W\)有关了，这让我们的分析变的简单。

对一个无偏估计量, 我们有

\[\mathrm{E}_{\vartheta}(W-\theta)^2=\operatorname{Var}_\theta W \]

因此, 如果一个估计量是无偏的, 它的 MSE 就是它的方差。

需要注意的是，并不是说无偏估计量就一定比有偏估计量更好，仅仅是有偏估计量便于分析，且在某些应用中我们需要无偏估计量的期望性质，下面给出一个例子.

例： \(\sigma^2\) 的估计量的一个选择是极大似然估计量 \(\hat{\sigma}^2=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2=\frac{n-1}{n} S^2\). 直接计算得到

\[\hat{E}^2=E\left(\frac{n-1}{n} S^2\right)=\frac{n-1}{n} \sigma^2 \]
所以 \(\hat{\sigma}^2\) 是 \(\sigma^2\) 的一个有偏的估计量. \(\hat{\sigma}^2\) 的方差也可以计算如下

\[\operatorname{Var} \hat{\sigma}^2=\operatorname{Var}\left(\frac{n-1}{n} S^2\right)=\left(\frac{n-1}{n}\right)^2 \operatorname{Var} S^2=\frac{2(n-1) \sigma^4}{n^2} \]
于是, 它的 MSE 是

\[\mathrm{E}\left(\hat{\sigma}^2-\sigma^2\right)^2=\frac{2(n-1) \sigma^4}{n^2}+\left(\frac{n-1}{n} \sigma^2-\sigma^2\right)^2=\left(\frac{2 n-1}{n^2}\right) \sigma^4 \]
这样我们有

\[\mathrm{E}\left(\hat{\sigma}^2-\sigma^2\right)^2=\left(\frac{2 n-1}{n^2}\right) \sigma^4<\left(\frac{2}{n-1}\right) \sigma^4=\mathrm{E}\left(S^2-\sigma^2\right)^2 \]
这说明 \(\hat{\sigma}^2\) 具有比 \(S^2\) 更小的 MSE。这样用偏倚抵换方差, MSE 得到改善。

tips：虽然利用\(\hat{\sigma}^2\)来进行估计会使得MSE变小，但是我们可以发现，\(\hat{\sigma}^2\)的期望值小于\(\sigma^2\)，我们认为这一个估计量是偏低的。或者更普遍的说，MSE作为评估标准，对于位置参数是比较合理的，但是对于尺度参数是不合理的，尺度参数的范围是0~\(\infty\)，所以MSE对于偏低和偏高的惩罚力度不相同。因此在这种情况，MSE评估可能不合理，因为估计量会偏低。

一般来说，MSE是参数的函数，所以通常不会有一个最优的估计量，而是对于不同的参数值，选择不同的估计量。但是如果我们对估计量类进行缩小，就可以获得在这个估计量类中的最优估计量。接下来给出同变估计量的例子。

最优同变估计量：在某些情况下, 特别对位置参数估计而言, MSE 能够成为一个在同变估计量类之中求最优估计量的有益准则。对参数 \(\theta\) 的一个估计量 \(W(\boldsymbol{X})\), 运用度量同变性和形式不变性原理，得到
度量同变性: 如果用 \(W(\boldsymbol{x})\) 估计 \(\theta\), 那么使用 \(\bar{g}(W(\boldsymbol{x}))\) 估计 \(\bar{g}(\theta)=\theta^{\prime}\).
形式不变性: 如果用 \(W(\boldsymbol{x})\) 估计 \(\theta\), 那么使用 \(W(g(\boldsymbol{x}))\) 估计 \(\bar{g}(\theta)=\theta^{\prime}\). 把两个要求合在一起, 给出 \(W(g(\boldsymbol{x}))=\bar{g}(W(\boldsymbol{x}))\).

其中的\(\bar{g}(\boldsymbol{x})\)是导出函数，简单理解就是参数的变换式，满足\(\bar{g}(\theta)=\theta^{\prime}\)。

(同变估计的 MSE) 设 \(X_1, \cdots, X_n\) 是 iid \(f(x-\theta)\) 的. 对于一个满足 \(W\left(g_a(\boldsymbol{x})\right)=\bar{g}_a(W(\boldsymbol{x}))\) 的估计量 \(W\left(X_1, \cdots, X_n\right)\), 我们必须有

\[W\left(x_1, \cdots, x_n\right)+a=W\left(x_1+a, \cdots, x_n+a\right) \]

此式规定了关于变换群 \(\mathcal{G}\) 的同变估计量. 这里 \(G=\left\{g_a(\boldsymbol{x}):-\infty<a<+\infty\right\}, g_a\) 的定义是 \(g_a\left(x_1, \cdots, x_n\right)=\left(x_1+a, \cdots, x_n+a\right)\). 对于这些估计量我们有

\[\begin{aligned} & \mathrm{E}_\theta\left(W\left(X_1, \cdots, X_n\right)-\theta\right)^2 \\ = & \mathrm{E}_\theta\left(W\left(X_1+a, \cdots, X_n+a\right)-a-\theta\right)^2 \\ = & \mathrm{E}_\theta\left(W\left(X_1-\theta, \cdots, X_n-\theta\right)\right)^2 \\ = & \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty}\left(W\left(x_1-\theta, \cdots, x_n-\theta\right)\right)^2 \prod_{i=1}^n f\left(x_i-\theta\right) \mathrm{d} x_i \\ = &\int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty}\left(W\left(u_1, \cdots, u_n\right)\right)^2 \prod_{i=1}^n f\left(u_i\right) \mathrm{d} u_i \quad\left(u_i=x_i-\theta\right) \end{aligned} \]

这里最后一个表达式不依赖于 \(\theta\), 因此, 这些同变估计的 MSE 不是 \(\theta\) 的函数，往往能依 MSE 来为同变估计给出一个排序, 并在所有同变估计中找出 MSE 最小者。

7.3.2 最佳无偏估计量

定义 7.3.7： 估计量 \(W^*\) 称为 \(\tau(\theta)\) 的最佳无偏估计量 (best unbiased estimator) 如果它满足 \(\mathrm{E}_\theta W^*=\tau(\theta)\) 对所有 \(\theta\) 成立, 并且对任何一个其他的满足 \(\mathrm{E}_\theta(W)=\tau(\theta)\) 的估计量 \(W\), 都有 \(\operatorname{Var}_\theta W^* \leqslant \operatorname{Var}_\theta W\) 对所有 \(\theta\) 成立. \(W^*\) 也称为 \(\tau(\theta)\) 的一致最小方差无偏估计量(uniform minimum variance unbiased estimator, 简记 UMVUE)。

虽然给出了无偏估计量的范围，但是我们还是很难求出最优无偏估计量。聪明的数学家们想到了下界，既然需要求出下界，那么必然与不等式相关。定理7.3.9是Cauchy-Schwarz不等式的巧妙应用（协方差的范围也是用此不等式证明）。

定理 7.3.9： (Cramér-Rao 不等式) 设 \(X_1, \cdots, X_n\) 是具有概率密度函数 \(f(\boldsymbol{x} \mid\) \(\theta)\) 的样本, 令 \(W(\boldsymbol{X})=W\left(X_1, \cdots, X_n\right)\) 是任意的一个估计量, 满足

\[\frac{\mathrm{d}}{\mathrm{d} \theta} \mathrm{E}_\theta W(\boldsymbol{X})=\int_X \frac{\partial}{\partial \theta}[W(\boldsymbol{x}) f(\boldsymbol{x} \mid \theta)] \mathrm{d} \boldsymbol{x} \]

\[\begin{gathered} \operatorname{Var}_\theta W(\boldsymbol{X})<\infty \end{gathered} \]

则有

\[\operatorname{Var}_\theta(W(\boldsymbol{x})) \geqslant \frac{\left(\frac{\mathrm{d}}{\mathrm{d} \theta} \mathrm{E}_\theta W(\boldsymbol{X})\right)^2}{\mathrm{E}_\theta\left(\left(\frac{\partial}{\partial \theta} \log f(\boldsymbol{X} \mid \theta)\right)^2\right)} \]

这里的推导不详细展开，篇幅太长，我们只需知道结论即可，感兴趣可以在书本P306看到详细的推导过程。该不等式给出了无偏估计量的方差下界，给我们判断估计量是否达到了最优提供了一种方法。

tips：这里有一个非常重要的点，在该不等式的推导过程中，使用到了积分总体求导转化为内部求导的积分这个积分的变换，这一部在上下界为常数，也就是定积分的情况下是满足的，但是若积分上下限为\(\infty\)或者上下限中包含参数\(\theta\)，此时变换的前提不满足，此时的下界不能由Cramér-Rao不等式给出，我们需要利用后面讨论的方法来判断是否达到了最优。

定理 7.3.9的条件中没有样本需要满足iid的条件，因此该不等式的右式下部通常是比较难以处理的。我们一般认为样本是满足iid条件的，在这种前提下，不等式的形式更简单，更容易计算下界，数学公式由推论 7.3.10给出。

推论 7.3.10： (Cramér-Rao 不等式, iid 情况) 如果定理 \(7.3 .9\) 的假定满足, 而且附加假定 \(X_1, \cdots, X_n\) 是 iid 的, 具有概率密度函数 \(f(x \mid \theta)\), 则

\[\operatorname{Var}_\theta(W(\boldsymbol{X})) \geqslant \frac{\left(\frac{\mathrm{d}}{\mathrm{d} \theta} \mathrm{E}_\theta W(\boldsymbol{X})\right)^2}{n \mathrm{E}_\theta\left(\left(\frac{\partial}{\partial \theta} \log f(X \mid \theta)\right)^2\right)} \]

引理 7.3.11： 若 \(f(x \mid \theta)\) 满足

\[\frac{\mathrm{d}}{\mathrm{d} \theta} \mathrm{E}_\theta\left(\frac{\partial}{\partial \theta} \log f(X \mid \theta)\right)=\int \frac{\partial}{\partial \theta}\left[\left(\frac{\partial}{\partial \theta} \log f(x \mid \theta)\right) f(x \mid \theta)\right] \mathrm{d} x \]

(对一个指数族为真), 则

\[\mathrm{E}_\theta\left(\left(\frac{\partial}{\partial \theta} \log f(X \mid \theta)\right)^2\right)=-\mathrm{E}_\theta\left(\frac{\partial^2}{\partial \theta^2} \log f(X \mid \theta)\right) \]

此引理是在推论7.3.10的基础上进一步给出了在满足条件的情况下，简化的下界求解公式。

推论 7.3.15： (达到下界) 设 \(X_1, \cdots, X_n\) 是 iid 的, 具有概率密度函数 \(f(x \mid \theta)\), 其 \(f(x \mid \theta)\) 满足 Cramér-Rao 定理的条件。令 \(L(\theta \mid \boldsymbol{x})=\prod_{i=1}^n f\left(x_i \mid \theta\right)\) 表示似然函数。如果 \(W(\boldsymbol{X})=W\left(X_1, \cdots, X_n\right)\) 是 \(\tau(\theta)\) 的任意一个无偏估计量, 则 \(W(\boldsymbol{X})\) 达到 Cramér-Rao 下界当且仅当

\[a(\theta)[W(\boldsymbol{x})-\tau(\theta)]=\frac{\partial}{\partial \theta} \log L(\theta \mid \boldsymbol{x}) \]

对某一函数 \(a(\theta)\) 成立.

达到下界，其实就是要满足Cauchy-Schwarz不等式的取等条件，对于Cauchy-Schwarz不等式\((EXY)^2\le E(X)^2E(Y)^2\)，当随机变量X，Y满足线性关系，则取等号。因此达到下界也只需要\([W(\boldsymbol{x})-\tau(\theta)]\)和\(\frac{\partial}{\partial \theta} \log L(\theta \mid \boldsymbol{x})\)满足线性关系。

虽然我们给出了最佳无偏估计量的表达式，但是在很多情况下，例如表达式含有未知的参数，又或者是概率密度函数不满足Cramér-Rao 不等式的前提条件，这个下界是无法达到的。所以说虽然Cramér-Rao 不等式给了我们求最佳无偏估计值的一种方法，但是仍旧有许多难题。

接下来我们将从另一种角度，介绍一种更实用的求最佳无偏估计量的方法。

7.3.3 充分性和无偏性

定理 7.3.17： (Rao-Blackwell) 设 \(W\) 是 \(\tau(\theta)\) 的任意一个无偏估计量, 而 \(T\) 是关于 \(\theta\) 的一个充分统计量. 定义 \(\phi(T)=\mathrm{E}(W \mid T)\)。则 \(\mathrm{E}_\theta \phi(T)=\tau(\theta)\) 而且 \(\operatorname{Var}_\theta \phi(T)\) \(\leqslant \operatorname{Var}_\theta W\) 对所有 \(\theta\) 成立; 即是说 \(\phi(T)\) 是 \(\tau(\theta)\) 的一个一致较优的无偏估计量. 证明由式 (7.3.13), 我们有

\[\tau(\theta)=\mathrm{E}_\theta W=\mathrm{E}_\theta[\mathrm{E}(W \mid T)]=\mathrm{E}_\theta \phi(T) \]

所以 \(\phi(T)\) 对 \(\tau(\theta)\) 是无偏的。而且

\[\begin{array}{rlr} \operatorname{Var}_\theta W & =\operatorname{Var}_\theta[\mathrm{E}(W \mid T)]+\mathrm{E}_\theta[\operatorname{Var}(W \mid T)] & \\ & =\operatorname{Var}_\theta \phi(T)+\mathrm{E}_\theta[\operatorname{Var}(W \mid T)] & (\operatorname{Var}(W \mid T) \geqslant 0) \\ & \geqslant \operatorname{Var}_\theta \phi(T) & \end{array} \]

若\(T\)为充分统计量，则\(\phi(T)\)为估计量，且这个估计量比\(W\)更好。同样，我们也很容易发现\(\phi(T)\)是一个\(T\)的红石函数，所以在考虑最佳无偏估计量时，我们只需要考虑充分统计量的函数即可。

但是什么时候才是最佳的无偏估计量呢，我们只知道求得比当前估计量优秀的一个估计量，但是不知道什么时候才能达到最优。下面的几条定理告诉我们，最佳无偏估计量满足什么样的性质，且从该定理推出了求最佳无偏估计量的一种很方便的方法。

定理 7.3.19： 如果 W 是 \(\tau(\theta)\) 的一个最佳无偏估计量, 则 W 是唯一的。

定理 7.3.20： 如果 \(\mathrm{E}_0 W=\tau(\theta), W\) 是 \(\tau(\theta)\) 的最佳无偏估计量当且仅当 \(W\) 与 0 的所有无偏估计量不相关。

证明假如 \(W\) 是最佳无偏的, 根据上面的讨论 \(W\) 必须满足 \(\operatorname{Cov}_\theta(W, U)=0\) 对所有 \(\theta\) 及任意满足 \(\mathrm{E}_\theta U=0\) 的 \(U\) 都成立, 因此必要性得以确立.
假定我们现在有一个无偏估计量 \(W\), 它与 0 的所有无偏估计量不相关. 设 \(W^{\prime}\) 是任意一个满足 \(\mathrm{E}_\theta W^{\prime}=\mathrm{E}_\theta W=\tau(\theta)\) 的估计量. 我们要证明 \(W\) 优于 \(W^{\prime}\). 写成

\[W^{\prime}=W+\left(W^{\prime}-W\right) \]
然后计算

\[\begin{aligned} \operatorname{Var}_\theta W^{\prime} & =\operatorname{Var}_\theta W+\operatorname{Var}_\theta\left(W^{\prime}-W\right)+2 \operatorname{Cov}_\theta\left(W, W^{\prime}-W\right) \\ & =\operatorname{Var}_\theta W+\operatorname{Var}_\theta\left(W^{\prime}-W\right) \end{aligned} \]
证明完成。

定理 7.3.23： 设 \(T\) 是一个参数 \(\theta\) 的完全充分统计量而 \(\phi(T)\) 是任意的一个仅基于 \(T\) 的估计量. 则 \(\phi(T)\) 是其期望值的唯一最佳无偏估计量。

至此书本给出了一个非常好用的求最佳无偏估计量的方法，只需要求出参数的充分统计量和一个无偏估计量，就可以求得最佳无偏估计量，这对于指数族来说非常简单(因为指数族的充分统计量可由定理简单求出)。

7.3.4损失函数最优性

定义：损失函数在点估计问题里反映了这样的事实, 如果一个行为 \(a\) 靠近 \(\theta\), 则 \(a\) 是合理的且遭受小的损失. 如果 \(a\) 远离 \(\theta\), 则遭受大的损失. 损失函数是一个非负函数, 一般它随 \(a\) 与 \(\theta\) 的距离增加而增加. 如果 \(\theta\) 是实值的, 两个常用损失函数是
绝对误差损失 (absolute error loss), \(L(\theta, a)=|a-\theta|\)
平方误差损失 (squared error loss), \(L(\theta, a)=(a-\theta)^2\)
这两个损失函数都随着 \(\theta\) 与 \(a\) 的距离增加而增加, 最小值是 \(L(\theta, \theta)=0\). 就是说如果行为正确, 损失最小. 平方误差损失对大的偏差给予相对更多的惩罚, 而绝对误差损失给予小偏差相对更多的惩罚. 平方损失有一个变种, 它对高估比低估给予更多的惩罚, 如下所示

\[L(\theta, a)= \begin{cases}(a-\theta)^2 & \text { 若 } a<\theta \\ 10(a-\theta)^2 & \text { 若 } a \geqslant \theta\end{cases} \]

另一种损失函数是相对平方损失

\[L(\theta, a)=\frac{(a-\theta)^2}{|\theta|+1} \]

它在 \(\theta\) 接近于 0 时对误差的惩罚要 \(\mid\) 比 \(|\theta|\) 较大时的惩罚大. 注意, 基于绝对误差的损失也可以有类似的变种. 一般, 试验者必须考虑到对不同 \(\theta\) 值的估计的误差不同带来的后果并且指定一种能反应这种后果的损失函数。

损失函数是一个正的函数，它的大小表示了误差的大小，误差越大，则值越大。

风险函数：在一个损失函数或判决理论分析中, 一个估计量的质量被它的风险函数（risk function) 量化; 即, 对 \(\theta\) 的估计量 \(\delta(\boldsymbol{x})\), 其风险函数是 \(\theta\) 的一个函数, 定义为

\[R(\theta, \delta)=\mathrm{E}_{\vartheta} L(\theta, \delta(\boldsymbol{X})) \]

在一给定 \(\theta\) 处, 风险函数就是假如使用估计量 \(\delta(\boldsymbol{X})\) 的话, 将遭受的平均损失。

我们细心的话可以发现风险函数是一个只与参数\(\theta\)有关的值。这里的风险函数与机器学习知识内的损失函数类似。若风险函数是一个凸函数，就可以运用梯度下降法等等来进行优化求解参数了。（原谅我联想到了深度学习和凸优化中的知识，虽然可能这些课程不同，但是我认为风险函数的思想与损失函数相似。）

Bayes方法：假定有一个先验分布 \(\pi(\theta)\)。在 Bayes 分析中, 可以利用这个先验分布来计算一个平均风险

\[\int_{\Theta} R(\theta, \delta) \pi(\theta) \mathrm{d} \theta \]

此即为 Bayes 风险 (Bayes risk)。可以用这个平均风险函数来评估一个估计量在一个给定的损失函数之下的表现. 进一步，可以尝试去求那个具有最小的 Bayes 风险值的估计量。这样的估计量叫做关于先验分布 \(\pi\) 的 Bayes 法则，常记作 \(\delta^n\)。
设 \(\boldsymbol{X} \sim f(\boldsymbol{x} \mid \theta), \theta \sim \pi\), 一个判决法则 \(\delta\) 的 Bayes 风险可以写为

\[\int_{\boldsymbol{\theta}} R(\theta, \delta) \pi(\theta) \mathrm{d} \theta=\int_\theta\left(\int_{\mathrm{x}} L(\theta, \delta(\boldsymbol{X})) f(\boldsymbol{x} \mid \theta) \mathrm{d} \boldsymbol{x}\right) \pi(\theta) \mathrm{d} \theta \]

由于 \(f(\boldsymbol{x} \mid \theta) \pi(\theta)=\pi(\theta \mid \boldsymbol{x}) m(\boldsymbol{x})\), 这里 \(\pi(\theta \mid \boldsymbol{x})\) 是 \(\theta\) 的后验分布而 \(m(\boldsymbol{x})\) 是 \(\boldsymbol{X}\) 的边缘分布, 则我们可以把 Bayes 风险写成

\[\int_\theta R(\theta, \delta) \pi(\theta) \mathrm{d} \theta=\int_x\left[\int_{\Theta} L(\theta, \delta(\boldsymbol{X})) \pi(\theta \mid \boldsymbol{x}) \mathrm{d} \theta\right] m(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \]

方括号的值是损失函数关于后验分布的期望, 叫做后验期望损失 (posterior expected loss)。它仅是 \(\boldsymbol{x}\) 的函数而非 \(\theta\) 的函数。这样对每个 \(\boldsymbol{x}\)，如果我们选择行为 \(\delta(\boldsymbol{x})\) 去极小化后验期望损失，也就极小化了 Bayes 风险。

这一部分有一些绕，我简单解释一下，后验期望损失\(\int_{\Theta} L(\theta, \delta(\boldsymbol{X})) \pi(\theta \mid \boldsymbol{x}) \mathrm{d} \theta\) 中的核函数是在\(x\)固定取值的条件下关于\(\theta\)的期望，Bayes风险是对后验期望损失中求关于\(X\)的期望，而\(X\)和\(\theta\)的概率密度函数不能由我们自己来确定，因此我们只需要对核函数求\(\delta(\boldsymbol{x})\)的极大化就可以求出\(\delta(\boldsymbol{x})\)的表达式，此时的\(\delta(\boldsymbol{x})\)是最佳Bayes估计量。

两个 Bayes 法则：考虑对实值参数 \(\theta\) 的点估计问题。

对于平方误差损失, 其后验期望损失是

\[\int_{\boldsymbol{\theta}}(\theta-a)^2 \pi(\theta \mid \boldsymbol{x}) \mathrm{d} \theta=\mathrm{E}\left((\theta-a)^2 \mid \boldsymbol{X}=\boldsymbol{x}\right) \]
这里 \(\theta\) 是具有分布 \(\pi(\theta \mid \boldsymbol{x})\) 的随机变量。这个期望值极小化于 \(\delta^{\star}(\boldsymbol{x})=\mathrm{E}(\theta \mid \boldsymbol{x})\)，所以 Bayes 法则是后验分布的均值。
对于绝对误差损失, 其后验期望损失是 \(\mathrm{E}(|\theta-a| \mid \boldsymbol{X}=\boldsymbol{x})\)。它通过取 \(\delta^\pi(\boldsymbol{x})=\pi(\theta \mid \boldsymbol{x})\) 的中位数达到极小。

在 7.2.3 节中,Bayes 估计量是 \(\delta^r(\boldsymbol{x})=\mathrm{E}(\theta \mid \boldsymbol{x})\), 即后验期望。我们现在看到, 这是关于平方误差损失的 Bayes 估计量. 如果某个其他的损失函数被认为比平方误差损失更适用, 那么这时的 Bayes 估计量就可能是一个不同的统计量。

7.4 小结

点估计的重要程度不言而喻，尤其是极大似然估计和Bayes估计，其具有的良好性质在许多领域都被运用。至此开始统计推断的学习进入了应用部分，若笔记中有错误，恳请各位读者给出指正，不胜感激。

标签：right,mathrm,boldsymbol,点估计,第七章,theta,估计量,left
From： https://www.cnblogs.com/skydarkeen-blog/p/17197454.html

第七章点估计

第七章点估计

7.1 基本定义

7.2 求估计量的方法

7.2.1 矩法

7.2.2 极大似然估计量

7.2.3 Bayes估计量(Bayes Estimators)

7.2.4 EM算法

7.3 估计量的评价方法

7.3.1 均方误差(MSE)

7.3.2 最佳无偏估计量

7.3.3 充分性和无偏性

7.3.4损失函数最优性

7.4 小结

相关文章

赞助商

阅读排行

第七章 点估计

第七章 点估计

7.1 基本定义

7.2 求估计量的方法

7.2.1 矩法

7.2.2 极大似然估计量

7.2.3 Bayes估计量(Bayes Estimators)

7.2.4 EM算法

7.3 估计量的评价方法

7.3.1 均方误差(MSE)

7.3.2 最佳无偏估计量

7.3.3 充分性和无偏性

7.3.4损失函数最优性

7.4 小结

相关文章

赞助商

阅读排行

第七章点估计

第七章点估计