- [1.1.1 引例](#111-引例)
- [1.1.2 假设检验过程](#112-假设检验过程)
- [1.1.3 假设检验的两个错误](#113-假设检验的两个错误)
假设检验
假设检验是统计推断的一个主要部分。其想法和前面的最大似然类似:如果实际观测到得到数据在某假设下不太可能出现则认为该假设错误。
1.1 假设检验
1.1.1 引例
1. 提出声明。 (比如 “食堂的饭菜很好吃”,“菠萝应该放在披萨上”,等等)
- 我们的例子是某培训机构宣称它们的课程可以提高学生的中考分数。(去年该考试的平均分为 \(1059\),标准差为 \(210\))
2. 提出原假设 \(H_0 \text{(null hypothesis)}\) 和备选假设 \(H_A \text{(alternative hypothesis)}\)。
备选假设可以单侧假设也可以是双侧假设
-
令 \(\mu\) 为该培训机构的学生的平均分;
-
\(H_0: \mu = 1059\)。我们假设该培训机构的学生的平均分与全国的平均分相同(为了产生矛盾);
-
备选假设是我们想要表达的,即 \(H_A:\mu>1059\),或者说该培训机构的课程可以提高学生们的分数;
-
上面的备选假设是单侧假设,另一种单侧假设是 \(\mu<1059\)(该培训机构的课程会降低学生们的分数);
-
双侧假设为 \(\mu\neq 1059\),大于或小于平均分;
3. 选择一个显著性水平 \(\alpha \text{ (significance level)}\)。 (一般为 \(0.05\) 或 \(0.01\))
- 令 \(\alpha = 0.05\),稍后会解释它的作用;
4. 收集数据。
- 我们得到了该培训机构中的 \(100\) 学生的成绩,\(x_1,\ldots,x_{100}\),样本均值 \(\overline{x} = 1113\);
5. 计算 \(p\) 值,\(p = P(\text{observing data | } H_0 \text{ is true})\)。
- 假设 \(H_0\) 为真(该培训机构没有影响),\(\mu = 1059\)(我们做这些假设是想达到概率上的矛盾)。由中心极限定理,\(n=100\) 已经算比较大了,所以这 \(100\) 个样本的样本均值的分布近似均值为 \(1059\),方差为 \(\frac{210^2}{100}\) 的正态分布。
- 那么 \(p\) 值就是我们任取一个样本均值,它至少和我们计算得到的均值一样的概率。然后我们对其标准化即可,由此可得到 \(p\) 值为 \(0.0162\)\[\begin{align} p &= P(X\geqslant \overline{x}) = P\left(\frac{\overline{X} - \mu}{\sigma/\sqrt{n}}\geqslant \frac{\overline{x} - \mu}{\sigma/\sqrt{n}}\right)\nonumber\\ & = P\left(Z\geqslant \frac{1113 - 1059}{210/\sqrt{100}}\right) = P(Z\geqslant2.14)\approx0.0162\nonumber\\ \end{align} \]
6. 说明你的结论,结合问题背景进行解释。
-
如果 \(p<\alpha\),“拒绝” 原假设 \(H_0\),选择备选假设 \(H_A\)。(因为,在原假设为真的情况下,观察到的样本发生的概率 \(p\) 比所定的 \(\alpha\) 要小,由此,认为原假设发生的概率较小)
-
否则,“无法拒绝” 原假设 \(H_0\)。
因为 \(p=0.0162<0.05=\alpha\),所以当显著性水平 \(\alpha=0.05\) 我们拒绝原假设 \(H_0\)。我们可以说根据统计表明,该培训机构可以让学生在该考试中达到更高的分数。
如果 \(\alpha=0.01\) 而不是 \(0.05\),则可得到另一个结论:因为 \(p=0.0162>0.01=\alpha\),所以当显著性水平 \(\alpha=0.01\) 我们无法拒绝原假设 \(H_0\)。没有足够的证据表明,该培训机构能够提高学生们的成绩。
注意,我们永远不会说 “接受” 原假设。
1.1.2 假设检验过程
- 提出声明;
- 提出原假设 \(H_0\) 和备选假设 \(H_A\);
-
备选假设可以是单侧的也可以是双侧的
-
原假设通常是 \(\text{"baseline", "no effect", or "benefit of the doubt"}\)
-
备选假是你想要证明的论点,往往与原假设相反
-
- 选择一个显著性水平 \(\alpha\);(通常为 \(0.05\) 或 \(0.01\))
- 收集数据;
- 计算 \(p\) 值,\(p = P(\text{observing data | } H_0 \text{ is true})\);
- 说明你的结论,结合问题背景进行解释;
- 如果 \(p<\alpha\),“拒绝” 原假设 \(H_0\),选择备选假设 \(H_A\)。我们认为在该假设我们的结果具有统计学意义
- 否则,“无法拒绝” 原假设 \(H_0\)
1.1.3 假设检验的两个错误
在解决假设检验问题时,无论做出否定还是接受原假设 \(H_0\) 的决定都有可能犯错误。
- 第一类错误:\(H_0\) 成立,但是被拒绝了。(弃真);
- 第二类错误:\(H_0\) 不成立,但是被