第八章 假设检验
基础概念
假设检验就是对总体的某些未知特征提出假设,并利用样本信息来推断该假设的正确性。
比如说一批产品的预期次品率 $a_0$ 应该不超过 $\alpha$,那我从产品中抽取出一部分样品,根据这部分样品的实际次品率 $\alpha_1$ 去假设这批产品是否满足次品率要求。不难发现,我们不能通过 $\alpha_1$ 的值来确定 $\alpha$ 和 $\alpha_0$ 的大小关系,但是我们可以肯定的是,$\alpha_1$ 越大,$\alpha > \alpha_0$ 的假设越可能成立,即 $\alpha \leq \alpha_0$ 的假设越不可能成立,此时我们更倾向于相信“次品率不达标”。当然,只要产品数足够大,哪怕 $\alpha_1$ 达到了 $100\%$,我们也不能断定 $\alpha > \alpha_0$
现在我们将 $\alpha \leq \alpha_0$ 称为原假设/零假设,记为 $H_0$;将 $\alpha > \alpha_0$ 称为备择假设/对立假设,记为 $H_1$。通过样本信息去判断上述假设的成立情况,这就是假设检验
如果对立假设和原假设各居一边(像上面的例子一样),则这类假设检验问题为单边检验;如果对立假设分居原假设的两边(比如 $H_0:\alpha = \alpha_0,\;H_1:\alpha \ne \alpha_0$),则这类检验问题为双边假设问题
如果假设的成立条件只包含一个点(比如 $H_0:\alpha = \alpha_0$),则称之为简单假设;如果假设的成立条件包含多个点(比如 $H_0:\alpha \leq \alpha_0$),则称之为复合假设
对于上面的例子,我们基于样本的观测数据对未知的总体参数进行检验,这属于参数假设检验;否则我们称为非参数假设检验,比如对于某产品的直径 $X$,对零假设 $ H_0:X\sim N(\mu, \sigma^2)$ 和对应的 $H_1$ 进行检验,这种属于非参数假设检验
假设检验的步骤
以对均值 $\mu$ 的估计为例:
- 根据问题提出原假设 $H_0$ 和对立假设 $H_1$
我们的原假设是 $H_0: \mu = \mu_0$,对立假设是 $H_0: \mu \ne \mu_0$
- 构造一个合适的统计量(往往由参数估计而来),并在 $H_0$ 成立的条件下推导出该统计量的分布
已知样本均值 $\overline{X}$ 是 $\mu$ 的矩估计和极大似然估计,所以适合用 $\overline{X}$ 去估计 $\mu$。
我们知道统计量的分布 $\overline{X} \sim N(\mu_0, \dfrac{\sigma ^2}{n})$
- 给出小概率 $\alpha$,确定临界值 $k$ 和拒绝域 $W$
我们给出一个临界值 $k$,当 $|\overline{X} - \mu_0| \geq k$ 时,判定原假设不成立,对立假设成立。
界定这个临界值 $k$ 取决于“我们对假设有多大的把握度”,也即“我们有 $\alpha$ 的把握可以判断假设不成立”:
$$ P(|\overline{X} - \mu_0| \geq k) = \alpha $$
对于上面的例子,我们利用标准化变量进行解答:
$$ P\left( \left|\frac{\overline{X} - \mu_0}{\sigma / \sqrt{n}}\right| \geq \frac{k}{\sigma / \sqrt{n}} \right) = \alpha $$ $\dfrac{k}{\sigma / \sqrt{n}} = u_{\alpha / 2}$,得到 $k = \dfrac{\sigma}{\sqrt{n}} u_{\alpha / 2}$
- 由样本算出统计量的观察值,若落在拒绝域,则拒绝 $H_0$;若落在接受域,则接受 $H_0$
我们计算出样本均值,然后检验 $|\overline{X} - \mu_0| \geq \dfrac{\sigma}{\sqrt{n}} u_{\alpha / 2}$ 是否不成立,如果该不等式确实不成立,那么我们说零假设有 $\alpha$ 的把握不成立
对于上面的例子,我们记 $U = \dfrac{\overline{X} - \mu_0}{\sigma / \sqrt{n}}$ 为检验统计量,$u_{\alpha / 2} = \dfrac{k}{\sigma / \sqrt{n}}$ 称为临界值,$W = \lbrace |U| \geq u_{\alpha / 2 }\rbrace$ 称为拒绝域,$ \lbrace |U| < u_{\alpha / 2 }\rbrace$ 称为接收域
(这里 $W = \lbrace |U| \geq u_{\alpha / 2 }\rbrace = \lbrace |\overline{X} - \mu_0| \geq k \rbrace$)
假设检验的两类错误
从上面的讨论可以看出,假设检验中可能犯以下两类错误:
- 第一类错误:原假设 $H_0$ 正确,但统计量的值落在拒绝域,而拒绝了原假设 $H_0$,这类错误也称为弃真错误;
(也正是我们之前说的“零假设有 $\alpha$ 的把握不成立”)
- 第二类错误:原假设 $H_0$ 不正确,但统计量的值落在接受域,而接受了原假设 $H_0$,这类错误也称为存伪错误。
我们发现:第一类错误指的就是上面提到的小概率 $\alpha$:
$$ P(\text{拒绝 }H_0|H_0\text{ 为真})=P(U\in W|H_0\text{ 为真})=\alpha $$
相对的有第二类错误 $\beta$:
$$ P(\text{接受 }H_0|H_1\text{ 为真})=P(U\not\in W|H_1\text{ 为真})=\beta $$
我们经常将 $\alpha$ 用于计算,因为其完全由 $H_0$ 下的分布确定(不依赖于 $H_1$,和置信水平完全对应,可以由我们人为控制);相比之下 $H_1$ 更难描述,如果要利用 $\alpha$ 求出 $\beta$,其过程也很复杂
在进行假设检验时,当然希望犯两类错误的概率越小越好,但在给定样本容量的情况下,犯两类错误的概率不可能同时减小,减少其中一个,另外一个会增大。
Neyman-Pearson 原则指出:在控制第一类错误 $\alpha$ 的前提下,使犯第二类错误的概率 $\beta$ 尽量小。因此我们重点关注 $\alpha$。值得说明的是,根据 Neyman-Pearson 的基本思想,拒绝原假设 $H_0$ 是有充分证据的,但接受原假设 $H_0$ 则未必有充分的理由。只能说:目前还找不到拒绝 $H_0$ 的理由,于是我们先接受 $H_0$。此时不能认为原假设 $H_0$ 一定正确
$p$ 值检验法
$p$ 值是基于样本观察值而计算出的拒绝原假设的概率(当原假设为复合假设时,取最大概率)。由于 $p$ 值依赖于样本观察值,困此也是一个统计量。
具体的说,对于假设检验 $H_0:\theta \in \Theta_0,\;H_1:\theta \in \Theta_1$,取检验统计量 $T$,拒绝域 $W = \lbrace |T| \geq \lambda \rbrace$,计算得到检验统计量的观察值为 $t$,那么:
$$ p = \sup_{\theta \in \Theta_0} P_{\theta} (|T| \geq |t|) $$
(对 $\Theta_0$ 中所有可能的 $\theta$,取概率 $P_{\theta}(|T| \ge |t|)$ 的上确界)
一句话解释就是:当 $H_0$ 成立时,得到与当前样本同样极端或更极端的检验统计量的概率,对于复合假设取最大的极端概率