首页 > 其他分享 >第六章 数据简化原理

第六章 数据简化原理

时间:2023-03-09 10:22:15浏览次数:38  
标签:right boldsymbol mid 简化 theta 第六章 原理 统计 left

第六章 数据简化原理

该笔记基于书本《统计推断》,笔记省略部分均可在该书上找到对应的详细解释。

6.1 基本定义

  • 定义 $ T(\boldsymbol{X}) $ 是一个统计量,其中\(\boldsymbol{X}\)是样本值。
  • $ T(\boldsymbol{X}) $ 定义了一种数据的简化方式,当观察到样本值x,y满足 $ T(x) $ = $ T(y) $ 时,其对某参数\(\pmb{\theta}\)的估计相同。
  • 依据某统计量简化样本数据可以看成样本空间X上的一个划分.设 $\tau $ = { \(t:\)存在\(X∈x\)使得\(t = T(x)\) },为\(X\)在 $ T(\boldsymbol{X}) $ 下的象,A= {x: $ T(x) $ = \(t\)},则 $ T(\boldsymbol{X}) $ 将样本空间划分成若干集合A,\(t∈\tau\)。

6.2 充分性原理

充分性原理:如果 $ T(\boldsymbol{X}) $ 是 \(\pmb{\theta}\) 的一个充分统计量,则 \(\pmb{\theta}\) 的任意依赖于样本\(\boldsymbol{X}\)的推断都可以用$ T(\boldsymbol{X}) $ 来完成。即$ T(\boldsymbol{X}) $ 已经包含了估计参数 \(\pmb{\theta}\) 的全部信息。对于满足T(x)=T(y)的的两个样本点,所得到的 \(\pmb{\theta}\) 的推断相同。

6.2.1 充分统计量

定义 6.2.1: 如果样本X在已知统计量T(X)取值时的条件分布与 \(\pmb{\theta}\) 无关,则称统计量$ T(\boldsymbol{X}) $ 是\(\pmb{\theta}\)的统计量。以数学公式的表述即是\(P_{\theta}(\boldsymbol{X}=\boldsymbol{x} \mid T(\boldsymbol{X})=T(\boldsymbol{x})) = P(\boldsymbol{X}=\boldsymbol{x} \mid T(\boldsymbol{X})=T(\boldsymbol{x}))\),此时\(P(\boldsymbol{X}=\boldsymbol{x} \mid T(\boldsymbol{X})=T(\boldsymbol{x}))\)不与 \(\pmb{\theta}\) 相关。

由以上的定义可以导出如下公式:

\[\begin{aligned} P_{\theta}(\boldsymbol{X}=\boldsymbol{x} \mid T(\boldsymbol{X})=T(\boldsymbol{x})) & =\frac{P_{\theta}(\boldsymbol{X}=\boldsymbol{x} , T(\boldsymbol{X})=T(\boldsymbol{x}))}{P_{\theta}(T(\boldsymbol{X})=T(\boldsymbol{x}))} \\ & =\frac{P_{\theta}(\boldsymbol{X}=\boldsymbol{x})}{P_{\theta}(T(\boldsymbol{X})=T(\boldsymbol{x}))} \\ & =\frac{p(\boldsymbol{x} \mid \theta)}{q(T(\boldsymbol{x}) \mid \theta)} \end{aligned} \]

tips: 此处需要注意虽然公式是在随机变量服从离散分布的前提中导出的,但是其同样适用于连续分布。

定理 6.2.2:设\(p(x\mid \theta)\)为样本\(\boldsymbol{X}\)的联合概率密度(或质量)函数,\(q(t\mid\theta)\)为$ T(\boldsymbol{X}) $ 的概率密度(或质量)函数.如果对样本空间中的任意x,比值\(\frac{p(x\mid \theta)}{q(t\mid\theta)}\)都是\(\pmb{\theta}\)的常函数,则$ T(\boldsymbol{X}) $ 是\(\pmb{\theta}\)的充分统计量。

充分次序统计量

由第五章我们知道充分次序统计量的定义,所以我们可以很容易地得到以下的等式:

\[f(\boldsymbol{x})=\prod_{i=1}^{n} f\left(x_{i}\right)=\prod_{i=1}^{n} f\left(x_{(i)}\right) \]

其中\(x_{(1)} \leqslant x_{(2)} \leqslant \cdots \leqslant x_{(n)}\),显然全体次序统计量是充分统计量。而对于logistic分布和cauchy分布来说,次序统计值是其充分统计量的最好结果。(具体的推导可以看习题6.9)单纯地使用定义来找充分统计量是非常困难的一件事情,这需要极强的数学直觉找到一个统计量,才能用定义去验证其正确性。这通常是不现实的,定理6.2.6给出了更简单的找到充分统计值的一种方法。

定理 6.2.6(因子分解定理):设 \(f(x\mid \theta)\) 为样本X的联合概率密度(或质量)函数,统计量 \(T(\boldsymbol{X})\) 是 \(\pmb{\theta}\) 的充分统计量当且仅当存在函数 \(g(t\mid\theta)\) 和h(x),使得对任意样本点x以及参数 \(\pmb{\theta}\),都有

\[f(\boldsymbol{x} \mid \theta)=g(T(\boldsymbol{x}) \mid \theta) h(\boldsymbol{x}) \]

以下给出离散分布的证明,先证明充分性:

\[\begin{aligned} f(\boldsymbol{x} \mid \theta)&=P_{\theta}(\boldsymbol{X}=\boldsymbol{x})\\ &=P_{\theta}(\boldsymbol{X}=\boldsymbol{x} \text { 且 } T(\boldsymbol{X})=T(\boldsymbol{x})) \\ &=P_{\theta}(T(\boldsymbol{X})=T(\boldsymbol{x})) P(\boldsymbol{X}=\boldsymbol{x} \mid T(\boldsymbol{X})=T(\boldsymbol{x})) \\ &=g(T(\boldsymbol{x}) \mid \theta) h(\boldsymbol{x}) \end{aligned} \]

由上式最后两行知:\(P_{\theta}(T(\boldsymbol{X}) =T(\boldsymbol{x}))=g(T(\boldsymbol{x}) \mid \theta)\)。所以 $g(T(\boldsymbol{x}) \mid \theta) $ 是 $T(\boldsymbol{X}) $ 的概率质量函数。

再证明必要性,现在假设分解定理所给公式成立。 令 $ q(t \mid \theta) $ 为 $ T(\boldsymbol{X})$ 的概率质量函数, 为证明 $ T(\boldsymbol{X}) $ 是 $ \theta $ 的充分统计量我们只需 考察比值 $ f(\boldsymbol{x}) / q(T(\boldsymbol{x}) \mid \theta)$ . 定义 $A_{T(\boldsymbol{x})}={\boldsymbol{y}: T(\boldsymbol{y}) =T(\boldsymbol{x})} $, 则

\[\begin{aligned} \frac{f(\boldsymbol{x} \mid \theta)}{q(T(\boldsymbol{x}) \mid \theta)} & =\frac{g(T(\boldsymbol{x}) \mid \theta) h(\boldsymbol{x})}{q(T(\boldsymbol{x}) \mid \theta)} \\ & =\frac{g(T(\boldsymbol{x}) \mid \theta) h(\boldsymbol{x})}{\sum A_{T(x)} g(T(\boldsymbol{y}) \mid \theta) h(\boldsymbol{y})} \\ & =\frac{g(T(\boldsymbol{x}) \mid \theta) h(\boldsymbol{x})}{g(T(\boldsymbol{x}) \mid \theta) \sum A_{T(\boldsymbol{x})} h(\boldsymbol{y})} \\ & =\frac{h(\boldsymbol{x})}{\sum A_{T(x)} h(\boldsymbol{y})} \end{aligned} \]

所以\(T(\boldsymbol{X})\)是\(\theta\)的充分统计量。

在使用该公式时,必须注意,x的范围若是与\(\theta\)有关,要使用示性函数代入运算!!(非常重要)

定理 6.2.10:设随机样本$ X_{1}, \cdots, X_{n} $取自概率密度 (或质量) 函数为 \(f(x\mid \theta)\) 的总体, 其中$ f(x \mid \theta)$ 属指数族概率密度 (或质量) 函数, 其定义为:

\[f(x \mid \boldsymbol{\theta})=h(x) c(\boldsymbol{\theta}) \exp \left(\sum_{i=1}^{k} w_{i}(\boldsymbol{\theta}) t_{i}(x)\right) \]

其中 \(\theta=\left(\theta_{1}, \theta_{2}, \cdots, \theta_{d}\right), d \leqslant k\) . 则

\[T(\boldsymbol{X})=\left(\sum_{j=1}^{n} t_{1}\left(X_{j}\right), \cdots, \sum_{j=1}^{n} t_{k}\left(X_{j}\right)\right) \]

是 $ \boldsymbol{\theta} $的充分统计量。定理的证明非常简单,将指数族的公式按照定理6.2.6进行分解即可得到 $ T(\boldsymbol{X})$ ,习题内也有证明过程。

6.2.2 极小充分统计量

定义 6.2.11: 称充分统计量 $ T(\boldsymbol{X})$ 是极小充分统计量 , 如果对其余任一充分统计量 \(T^{\prime}(\boldsymbol{X}), T(\boldsymbol{X})\) 都是 \(T^{\prime}(\boldsymbol{X})\) 的函数.这里我们称 \(T(\boldsymbol{X})\)是 \(T^{\prime}(\boldsymbol{X})\) 的函数是指若 \(T^{\prime}(\boldsymbol{x})=T^{\prime}(\boldsymbol{y})\), 则必有 \(T(\boldsymbol{x})=T(\boldsymbol{y})\)。采用本章开头集合划分的说法, 如果令 \(\left\{B_{i}: t^{\prime} \in \mathcal{T}^{\prime}\right\}\) 和 \(\left\{A_{t}: t \in \mathcal{T}\right\}\) 分别表示 \(T^{\prime}(\boldsymbol{x})\) 和 \(T(\boldsymbol{x})\) 的划分, 则定义 6.2.11 表明每个 $ B_{i} $ 都是某个 $ A_{t} $ 的子集, 即极小充分统计量 对应的划分是充分统计量中最粗的划分, 它实现了最大程度的数据缩减。

这段话似乎难以理解,个人认为可以用图形来描述就非常形象了,划分就是将全集所代表的区域进行分块,而极小充分统计量就是对该区域进行最简单的划分,仅仅区分了参数\(\theta\),而其他的非极小的充分统计量,则是在划分中混入了对其他量的判断,因此更加精细,划分的范围也会减小。

定理 6.2.13:设 $f(\boldsymbol{x} \mid \theta) $ 是样本 $ \boldsymbol{X} $ 的概率密度(或质量)函数. 如果存在函数 $ T(\boldsymbol{x}) $ 使得对任意两个样本点 \(\boldsymbol{x}\) 和 \(\boldsymbol{y}\) , 比值 $f(\boldsymbol{x} \mid \theta) / f(\boldsymbol{y} \mid \theta) $ 是 $\theta $ 的常函数当且仅当 $ T(\boldsymbol{x})=T(\boldsymbol{y})$ , 则 $T(\boldsymbol{X}) $ 是 $\theta $ 的极小充分统计量。

在使用该公式时,必须注意,x和y的范围若是与\(\theta\)有关,要使用示性函数代入运算!!(非常重要,这与因子分解定理中的注意点相同)

此处的极小充分统计量的判断方法和之后的似然原理公式用非常深的联系,我个人的理解是似然原理其实就是极小充分统计量判别方法的另一种表达方式,当$ T(\boldsymbol{x})=T(\boldsymbol{y})$ 时,也就是似然函数成常数比例,此时对\(\theta\)推断完全相同。此处还有一些其他的结论,在之后进行补充。

6.2.3 辅助统计量

定义 6.2.16: 如果统计量 \(S(\boldsymbol{X})\)的分布与 \(\theta\)无关, 则称 $S(\boldsymbol{X}) $为辅助统计量

辅助统计量的定义非常简单,接下来给出常用的两种辅助统计量。

  1. 位置族辅助统计量,极差\(R=X_{(n)}-X_{(1)}\)是辅助统计量

  2. 尺度族辅助统计量,设随机样本 \(X_{1}, \cdots, X_{n}\) 取自累积分布函数为 $F(x / \sigma), \sigma>0 $ 的尺度参数族总体, 则所有只 通过 $ X_{1} / X_{n}, \cdots, X_{n-1} / X_{n}$ 这 n-1 个值与样本关联的统计量都是辅助统计量, 例如

    \[\frac{X_{1}+\cdots+X_{n}}{X_{n}}=\frac{X_{1}}{X_{n}}+\cdots+\frac{X_{n-1}}{X_{n}}+1 \]

但是辅助统计量不一定独立于极小充分统计量,辅助统计量会给参数的估计带来影响,所以什么时候两者独立,是一个需要讨论的问题。

6.2.4 充分,辅助,完全统计量的区别与联系

定义 6.2.21: 设 $ f(t \mid \theta) $ 是统计量 $ T(\boldsymbol{X}) $ 的概率密度 (或质量) 函数, 如果满足: 对任意 $ \theta $都有 \(\mathrm{E}_{\theta} g(T)=0\) , 那么对任意 $\theta $ 都有 \(P_{\theta}(g(T)=0)=1\) , 则称该概率分布族是完全(complete)的, 或称 \(\boldsymbol{T}(\boldsymbol{X})\) 是完全统计量 (complete statistic)。

完全性是一个分布族所拥有的性质,如果对特定的一组或单个参数\(\theta\)进行讨论,此时的结果并不能说明其完全性,在习题6.15和6.24中我们也可以看到参数族的不完整会影响统计量的完全性。此外,完全统计量还有一个隐藏的性质,完全性是包含极小性的,所以一个完全统计量一定是一个极小充分统计量,但是反之不成立。

通常遇到的极小充分统计量都是完全统计量,但是也有例外,一种特例就是,当极小充分统计量组合的函数是辅助统计量时,可以找到一个函数\(g(T)\)为0的无偏估计。

tips: \(\mathrm{E}_{\theta} g(T)=0\)告诉我们完全估计量的函数没有0的无偏估计(除了0本身),这是一个很有用的性质,需要牢记。

定理 6. 2.24 (Basu 定理): 设 \(T(\boldsymbol{X})\) 是完全的极小充分统计量, 则 $ T(\boldsymbol{X}) $ 与任意辅助统计量都独立.

定理 6.2.25 (指数族的完全统计量) :设随机变量 \(X_{1}, \cdots, X_{n}\) 取自概率密度 (或质量) 函数为

\[f(x \mid \boldsymbol{\theta})=h(x) c(\boldsymbol{\theta}) \exp \left(\sum_{j=1}^{k} w\left(\theta_{j}\right) t_{j}(x)\right) \]

的指数族总体, 其中 $ \boldsymbol{\theta}=\left(\theta_{1}, \theta_{2}, \cdots, \theta_{k}\right)$ 。 如果参数空间 $\Theta $ 包含 $\mathbf{R}^{k} $ 的开集, 则统计量

\[T(\boldsymbol{X})=\left(\sum_{i=1}^{n} t_{1}\left(X_{i}\right), \sum_{i=1}^{n} t_{2}\left(X_{i}\right), \cdots, \sum_{i=1}^{n} t_{k}\left(X_{i}\right)\right) \]

是完全统计量.

该定理与定理6.2.10非常相似,且强调了参数空间 $\Theta $ 包含 $\mathbf{R}^{k} $ 的开集,若不包含开集,则参数空间是非满秩的,此时指数族变为曲指数族,由习题6.25可知,此时的完全统计量不符合该定理,根据具体情况所定。

6.3 似然原理

6.3.1 似然函数

定义 6.3.1:设 \(f(\boldsymbol{x} \mid \theta)\) 为样本\(\boldsymbol{X}=\left(X_{1}, \cdots, X_{n}\right)\) 的联合概率密度(或质量)函 数, 如果观测到 \(\boldsymbol{X}=\boldsymbol{x}\) , 则称 \(\theta\) 的函数

\[L(\theta \mid \boldsymbol{x})=f(\boldsymbol{x} \mid \theta) \]

为似然函数 (likelihood function).

似然函数表示了在样本x已知的情况下对参数\(\theta\)的一种估计,一种推断,我认为其本质和充分统计值类似

似然原理: 设样本点 \(\boldsymbol{x}\) 和 $\boldsymbol{y} $ 满足 $ L(\theta \mid \boldsymbol{x}) $ 与 \(L(\theta \mid \boldsymbol{y})\) 成比例, 即存在某常数 \(C(\boldsymbol{x} , \boldsymbol{y} )\)使得对任意 $\theta $ 有

\[L(\theta \mid \boldsymbol{x})=C(\boldsymbol{x}, \boldsymbol{y}) L(\theta \mid \boldsymbol{y}) \]

则由 $ \boldsymbol{x} $ 和 $ \boldsymbol{y} $ 出发所作的关于 $ \theta$ 的推断完全相同.
注意, 对于不同的样本对 \((\boldsymbol{x}, \boldsymbol{y})\) ,常数 \(C(\boldsymbol{x}, \boldsymbol{y})\) 不一定相同, 但 $ C(\boldsymbol{x}, \boldsymbol{y}) $ 始终与 $ \theta $ 无关.
特别地若 $C(\boldsymbol{x}, \boldsymbol{y})=1 $, 则似然原理表明, 如果两样本点导出相同的似然函数, 则它们所包含的关于 \(\theta\) 的信息完全相同. 似然原理本质上揭示了似然函数可以用于 比较不同参数值的似真程度: 如果 $ L\left(\theta_{2} \mid \boldsymbol{x}\right)=2 L\left(\theta_{1} \mid \boldsymbol{x}\right)$ , 则从某种意义上说 \(\theta_{2}\) 的似真性是 $\theta_{1} $ 的两倍。

信仰分布的内容在这不予展开,我认为将其放在估计的章节一起讨论更佳。

6.3.2 形式化的似然原理

首先说一下我自己对这一小节的看法,形式化的推断将数学公式转化为了更抽象更概念化的表达方式,再利用逻辑推导得出结论,因此推导过程可能令人难以理解,我也不确定自己是否理解的正确,希望读者能够对我的看法提出意见。

基本定义(此处完全照搬原书):

我们将试验 $ E $形式化地定义为三元序对 $ (\boldsymbol{X}, \theta,{f(\boldsymbol{x} \mid \theta)}) $, 其中 $\boldsymbol{X} $ 是概率密度函数为 $f(\boldsymbol{x} \mid \theta) $ 的随机向量, \(\theta\) 属于参数空间 \(\Theta\) . 试验者全程了解试验 $ E $ 的进程, 观测到样本 $ \boldsymbol{X}=\boldsymbol{x}$ 并由此作关于 $ \theta$ 的推断. 这些推断记作 $ \operatorname{Ev}(E, x) $, 解释为由 $ E $ 和 $ \boldsymbol{x} $ 得到关于 \(\theta\) 的证据。

我的理解:这里的证据函数指的是对参数\(\theta\)的推断,这是一个抽象的概念,不是具体的一个值或者解,推断可以有很低形式,所以我们抽象地去理解这一个点。那么对于实验\(E\),观察到样本\(\boldsymbol{x}\),我们就可以对\(\theta\)进行推断,这个推断记为$ \operatorname{Ev}(E, x) $。

形式化的充分性原理 考察试验 $E=(\boldsymbol{X}, \theta,{f(\boldsymbol{x} \mid \theta)}) $, 设 $T(\boldsymbol{X}) $ 是 $\theta $ 的充分统计量. 如果$ \boldsymbol{x} $ 和 \(\boldsymbol{y}\) 是满足 $T(\boldsymbol{x})=T(\boldsymbol{y}) $ 的样本点, 则 $\operatorname{Ev}(E, \boldsymbol{x})=\operatorname{Ev}(E, \boldsymbol{y}) $.

条件原理 设试验 \(E_{1}=\left(\boldsymbol{X}_{1}, \theta,\left\{f_{1}\left(\boldsymbol{x}_{1} \mid \theta\right)\right\}\right)\) 和 \(E_{2}=\left(\boldsymbol{X}_{2}, \theta,\left\{f_{2}\left(\boldsymbol{x}_{2} \mid \theta\right)\right\}\right)\) 有公共的未知参数 \(\theta\) . 考察混合试验, 该试验首先观测到随机变量 \(J\), 其中 \(P(J=1)=P(J= 2)=\frac{1}{2}\) ( 与 \(\theta, X_{1}\) 和 \(X_{2}\) 都无关), 然后执行试验 \(E_{J}\). 混合试验可以形式化地写作 \(E^{*}=\left(\boldsymbol{X}^{*}, \theta,\left\{f^{*}\left(\boldsymbol{x}^{*} \mid \theta\right)\right\}\right)\), 其中 \(\boldsymbol{X}^{*}=\left(j, \boldsymbol{X}_{j}\right)\) 且 \(f^{*}\left(\boldsymbol{x}^{*} \mid \theta\right)=f^{*}\left(\left(j, \boldsymbol{x}_{j}\right) \mid \theta\right)= \frac{1}{2} f_{j}\left(\boldsymbol{x}_{j} \mid \theta\right)\). 则

\[\quad \operatorname{Ev}\left(E^{*},\left(j, \boldsymbol{x}_{j}\right)\right)=\operatorname{Ev}\left(E_{j}, \boldsymbol{x}_{j}\right) \]

条件原理表明, 如果从两试验中随机选取一个执行并观测到样本数据 $ \boldsymbol{x}$ , 则由 此得到的有关 $ \theta$ 的信息只依耝于被执行的试验, 即与一开始就确定(并非随机选择)执行该试验且观测到样本 $ \boldsymbol{x} $ 所能得到的信息相同;这个试验被执行并末增加、 减少或者更改我们关于 $\theta $ 的信息.

由这两个定理,我们可以导出形式化的似然定理。具体的推导,不予展开,如果想要了解,可以查看书后习题的答案。

形式化的似然原理: 设试验 \(E_{1}=\left(\boldsymbol{X}_{1}, \theta,\left\{f_{1}\left(\boldsymbol{x}_{1} \mid \theta\right)\right\}\right)\) 和 \(E_{2}=\left(\boldsymbol{X}_{2}, \theta,\left\{f_{2}\left(\boldsymbol{x}_{2} \mid\right.\right.\right. \theta)\} )\) 有公共的末知参数 \(\theta \cdot \boldsymbol{x}_{1}^{*}\) 和 \(\boldsymbol{x}_{2}^{*}\) 分别是 \(E_{1}\)和 \(E_{2}\) 的样本点, 且满足: 存在只与 \(\boldsymbol{x}_{1}^{*}\)和 \(\boldsymbol{x}_{2}^{*}\) 有关的常数 $ C $, 使得对任意 \(\theta\) , 都有

\[L\left(\theta \mid \boldsymbol{x}_{2}^{*}\right)=C L\left(\theta \mid \boldsymbol{x}_{1}^{*}\right) \]

\[\operatorname{Ev}\left(E_{1}, x_{1}^{*}\right)=\operatorname{Ev}\left(E_{2}, x_{2}^{*}\right) \]

我们将\(E_{1}\)和\(E_{2}\)取成同一个实验,就可以证明似然原理是正确的,此时两个样本所作出的关于参数\(\theta\)的推断相同。

似然原理的推论: 设 $E=(\boldsymbol{x}, \theta,{f(\boldsymbol{x} \mid \theta)}) $ 为一试验, 则$\operatorname{Ev}(E, \boldsymbol{x}) $只通过 $ L(\theta \mid \boldsymbol{x}) $ 与 $E $ 和 $\boldsymbol{x} $ 关联.

6.4 同变性原理

到此已经给出了统计量,似然函数两种方式对参数\(\theta\)进行估计,而同变性原理和之前两种有什么区别。

​ 指定函数 $T(\boldsymbol{x}) $ 后, 如果 $ T(\boldsymbol{x})=T(\boldsymbol{y}) $, 则同变性原理要求观测到 $\boldsymbol{x} $ 时 所作的推断与观测到 $\boldsymbol{y} $ 时所作的推断之间存在某种联系、但 可以不同。

书本上描述如上,理解起来可能较为困难。用一句话来说就是随机变量变,则估计值也跟着改变。所以叫同变性原理。举个例子,随机变量\(\boldsymbol{Y}\)分布的与随机变量\(\boldsymbol{X}\)之间满足\(\boldsymbol{Y}=g(\boldsymbol{X})\),而参数在变换之间两者的关系为 \(\theta_{x}=\bar{g}(\theta_{y})\)。在这种前提下,设参数\(\theta_{x}\)的估计值为\(W\boldsymbol(x)\),则\(\bar{g}(W\boldsymbol(x))=W(g(\boldsymbol{X}))\)。同变性原理给出了不同样本点之间的关系,缩小了推断的范围。

同变性原理:设\(T =g(X)\)是一个度量尺度变换且满足: \(Y\)的模型和X的模型具有相同的形式结构。则推断方法应该同时满足度量同变与形式不变。

那么什么变换满足同变性条件呢,我们通过变换群的概念给出了该集函数。

定义 6.4.2: 称样本空间 \(\mathcal{X}\) 到自身上的一集函数 \(\{g(x): g \in \mathcal{G}\}\) 为 \(\mathcal{X}\) 的变换群 (group of transformations), 如果

(i) (逆) 对任意 \(g \in \mathcal{G}\) , 存在 \(g^{\prime} \in \mathcal{G}\) 使得:对任意 \(\boldsymbol{x} \in \mathcal{X}\) , 都有 \(g^{\prime}(g(\boldsymbol{x}))=\boldsymbol{x}\) ;
(ii) (复合) 对任意 \(g \in \mathcal{G}\) 以及 \(g^{\prime} \in \mathcal{G}\) , 存在 \(g^{\prime \prime} \in \mathcal{G}\) 使得: 对任意 \(\boldsymbol{x} \in \boldsymbol{X}\) , 都有 \(g^{\prime}(g(\boldsymbol{x}))=g^{\prime \prime}(\boldsymbol{x})\) ;
(iii) (单位元) \(\mathcal{G}\) 中存在单位元 \(e(\boldsymbol{x})\) , 其定义为: \(e(\boldsymbol{x})=\boldsymbol{x}\) 。

以上三点成立,则说明这一集函数变换的随机变量,是满足尺度同变的。接下来还要满足形式不变,这样我们才可以私用同变性原理。

定义 6.4.4: 设 \(\mathcal{F}=\{f(\boldsymbol{x} \mid \theta): \theta \in \Theta\}\) 是 \(\boldsymbol{X}\) 的概率密度 (或质量) 函数族, \(\mathcal{G}\) 是 样本空间 \(\mathcal{X}\) 的变换群. 如果对任意的 \(\theta \in \Theta\) 和 \(g \in \mathcal{G}\) , 都存在唯一的 \(\theta^{\prime} \in \Theta\) 使得: 若 \(\boldsymbol{X}\) 服从 \(f(\boldsymbol{x} \mid \theta)\) 分布, 则 \(\boldsymbol{Y}=g(\boldsymbol{X})\) 服从 \(f\left(\boldsymbol{y} \mid \theta^{\prime}\right)\) 分布, 则称 \(\mathcal{F}\) 在群 \(\mathcal{G}\) 下不变 。

6.5 小结

数据简化部分的定理在理解上稍有难度的,需要后续的应用才能彻底理解其作用,尤其是充分性和完全性估计值,在第七章点估计中发挥了重要作用。第六章的内容需要在后续的学习中不断巩固加深理解即可,因此在读完第六章后未完全理解是正常的,建议学习者可以快速过完本章节,继续后面章节的学习。若笔记中有错误,也恳请给出指正,不胜感激。

标签:right,boldsymbol,mid,简化,theta,第六章,原理,统计,left
From: https://www.cnblogs.com/skydarkeen-blog/p/17197397.html

相关文章