第六章 统计量与抽样分布
基础概念
在数理统计中,我们将所研究的对象的全体称为总体,而将总体中每个成员称为个体。
如果一个总体所包含的个体数量是有限的,则称之为有限总体,如果总体所包含的个体数量是无限的,则称之为无限总体(通常会将很大的有限总体近似看作无限总体,将总体分布取成连续型分布)
为了对总体 \(X\) 进行研究,通常要从总体中随机地抽取一些个体,这些个体就称为样本。抽得样本的过程称为抽样。样本中个体的数量称为样本容量。设对总体进行了 \(n\) 次观测,得到一组数据 \((x_1, x_2, \cdots, x_n)\)。我们称这组数据为样本观察值或样本值
样本具有二重性:样本观察值是确定的,因此样本有具体数的属性;样本受随机因素的影响,因此样本有随机变量的属性。在具体计算中,我们通常将样本看成一组数,通常用小写字母表示,记为 \((x_1, x_2, \cdots, x_n)\)。而在考虑一般问题时,我们谈到样本,往往将其看做一组随机变量,通常用大写字母表示,记为 \((X_1, X_2, \cdots, X_n)\)
对于 \((X_1, X_2, \cdots, X_n)\),我们对随机分布有以下要求:
(1) 代表性:样本能够代表总体.也就是说,样本的每个分量 \(X_i\); 与总体 \(X\) 具有相同的分布。
(2) 独立性:\(X_1, X_2, \cdots, X_n\) 为相互独立的随机变量。
满足上述两点性质的样本称为简单随机样本,也简称为样本。之后的“样本”都默认指简单随机样本。(和之前的“独立同分布随机变量序列”定义在数学描述上相同)
样本统计与分布
统计量
对于总体 \(X\) 的一个样本 \((X_1, X_2, \cdots, X_n)\),\(T(x_1, x_2, \cdots, x_n)\) 为不含任何未知参数的函数,则称 \(T(X_1, X_2, \cdots, X_n)\) 为一个统计量。一句话来说就是,统计量是样本的函数,不含任何未知量。统计量只需要样本即可计算出
常见的统计量包含:
-
样本均值 \(\overline{X} = \dfrac{1}{n} \displaystyle \sum _{i=1}^n X_i\)
-
样本方差 \(S^2 = \dfrac{1}{n-1} \displaystyle \sum_{i=1}^n (X_i - \overline{X})^2\),样本标准差 \(S = \sqrt{\dfrac{1}{n-1} \displaystyle \sum_{i=1}^n (X_i - \overline{X})^2}\)
(这样定义的样本方差具有无偏性,和样本二阶中心矩 \(S^{*2}\text{ or } B_2\) 不同,这点之后会说)
- 样本 \(k\) 阶原点矩 \(A_k = \dfrac{1}{n} \displaystyle \sum _{i=1}^n X_i^k\),样本均值就是样本一阶原点矩
- 样本 \(k\) 阶中心矩 \(B_k = \dfrac{1}{n} \displaystyle \sum _{i=1}^n (X_i-\overline{X})^k\)
- 样本相关系数 \(r=\dfrac{S_{XY}}{S_{X}^{\ast}\cdot S_{Y}^{\ast}}\)
抽样分布
统计量的分布称为抽样分布,由中心极限定理可知:不管总体分布如何,样本均值 \(\overline{X}\) 近似地服从均值为 \(\mu\),方差为 \(\dfrac{\sigma^2}{n}\) 的正态分布
\(\dfrac{\sum_{k=1}^{n} X_k - n \mu}{\sqrt{n}\sigma} = Y_n \sim N(0,1) \longrightarrow\sum_{k=1}^n X_k \sim N(n\mu, n\sigma ^2) \longrightarrow \overline{X} \sim N\left( \mu, \dfrac{\sigma^2}{n}\right)\)
正态总体
根据中心极限定理得到的结论,总体分布的样本均值可近似服从正态分布。现在我们给出正态总体的定义,其总体分布精确服从正态分布:\(X \sim N(\mu, \sigma^2)\)
先给出三种著名分布,这三种分布的意义会在之后解释:
\(\chi^2\) 分布
设 \(X_1, X_2, \cdots, X_n\) 为独立同分布的随机变量,且均服从标准正态分布 \(N(0,1)\),则
为服从自由度为 \(n\) 的 \(\chi^2\) 分布,记为 \(\chi^2_n \sim \chi ^2(n)\),其密度函数为:
其中 Gamma 函数:\(\Gamma(k) = \int_0^\infty t^{k-1}e^{-t}dt\)
\(\chi^2\) 分布具有一些相关性质:
1- 对于单个 \(X \sim N(0,1)\),\(X^2 \sim \chi^2(1)\)
2- 可加性:\(X \sim \chi^2(m),\;Y \sim \chi^2(n)\),若 \(X,Y\) 相互独立,则 \(X+Y \sim \chi^2(m+n)\)
3- 对于 \(X \sim \chi^2(n)\),\({\color{orange}E(X) = n,\;D(X) = 2n}\)
4- 科赫伦分解定理:
设 \(X_1, X_2, \cdots, X_n\) 为独立同分布的随机变量,且均服从标准正态分布,另设 \(Q_1, Q_2, \cdots, Q_k\) 分别是秩为 \(n_1, n_2, \cdots, n_k\) 的 \(X_1, X_2, \cdots,X_n\) 的非负二次型,满足 \(\displaystyle \sum_{i=1}^{k} Q_i = \sum_{i=1}^{n} X_i^2\)
则下面两个条件等价:
-
\(Q_i\) 相互独立,从而分别服从自由度为 \(n_i\) 的 \(\chi^2\) 分布(这符合卡方分布的可加性)
-
\(Q_i\) 的秩的和 \(\displaystyle \sum_{i=1}^{k} n_i = n\)
换种语言描述
标准正态变量 \(X_i\) 的总平方和 \(\sum_{i=1}^{n} X_i^2\) 满足卡方分布,我们现在将总平方和拆分为 \(k\) 个二次型(二次型满足 \(Q = X^TAX\),其中 \(A\) 是对称矩阵),如果这 \(k\) 个二次型的秩的和能与 \(X_i\) 的维度 \(n\) 相同,则这 \(k\) 个二次型相互独立,并且分别服从 \(n_i\) 的 \(\chi^2\) 分布
一句话说就是:总平方和可以分解成若干个独立分量的平方和,且分量与总平方和保持相似的性质
从纯线性代数的语言描述
设 \(A_1, A_2, \cdots, A_k\) 为 \(n \times n\) 的实对称矩阵,如果 \(\displaystyle \sum_{i=1}^{k} A_i = I_n\)(单位矩阵),则以下条件等价:
- \(\displaystyle \sum_{i=1}^{k} \text{rank}(A_i) = n\)
- 每个 \(A_i\) 都是幂等矩阵:\(A_i^2 = A_i\)
- \(\forall i \ne j,\; A_iA_j = 0\)(也就是说 \(A_i\) 空间正交)
- \(\text{rank}(A_i) = \text{trace}(A_i)\)
- \(\R ^n = ⨁_{i=1}^k \text{Col} (A_i)\)
\(\text{t}\) 分布 / Student 分布
设 \(X \sim N(0,1),\;Y \sim \chi^2(n)\),且 \(X\) 与 \(Y\) 相互独立,则称随机变量
为服从自由度为 \(n\) 的 \(\text{t}\) 分布,记为 \(T \sim t(n)\),其密度函数为:
其中 Gamma 函数:\(\Gamma(k) = \int_0^\infty t^{k-1}e^{-t}dt\)
\(\text{F}\) 分布
设 \(U \sim \chi^2(n_1),\;V \sim \chi^2(n_2)\),且 \(U\) 与 \(V\) 相互独立,则称随机变量
为服从自由度为 \((n_1,n_2)\) 的 \(\text{F}\) 分布,记为 \(F \sim F(n_1,n_2)\),其密度函数为:
其中 Gamma 函数:\(\Gamma(k) = \int_0^\infty t^{k-1}e^{-t}dt\)
\(F\) 分布具有一些相关性质:
1- \(F \sim F(n_1, n_2) \to \dfrac{1}{F} \sim F(n_2, n_1)\)
2- \(T \sim t(n) \to T^2 \sim F(1, n)\)
对性质 2 的证明
\(T = \dfrac{X}{\sqrt{Y/n}}\),平方后 \(T^2 = \dfrac{X^2 / 1}{Y / n}\),注意到 \(X^2 \sim \chi^2(1), \; Y \sim \chi^2(n)\),带入到 \(F\) 分布的形式即可
上 \(\alpha\) 分位点
设 \(X\) 是一个随机变量,对于 \(\alpha \in (0,1)\),我们令满足 \(P(X > \lambda_{\alpha}) = \alpha\) 的实数 \(\lambda_{\alpha}\) 为 \(X\) 的上 \(\alpha\) 分位点
当 \(X \sim N(0,1)\) 时,我们记 \(\lambda_{\alpha}\) 为 \(u_{\alpha}\),有 \(u_{1-\alpha} = -u_{\alpha}\)
当 \(X \sim \chi^2(n)\) 时,我们记 \(\lambda_{\alpha}\) 为 \(\chi^2_{\alpha}(n)\)
当 \(X \sim t(n)\) 时,我们记 \(\lambda_{\alpha}\) 为 \(t_{\alpha}(n)\),有 \(t_{1-\alpha}(n) = -t_{\alpha}(n)\)
当 \(X \sim F(n_1,n_2)\) 时,我们记 \(\lambda_{\alpha}\) 为 \(F_{\alpha}(n_1,n_2)\),有 \(F_{1-\alpha}(n_1,n_2) \cdot F_{\alpha}(n_2,n_1) = 1\)
正态总体的相关分布
下面的内容在之后求正态总体的某个参数的置信区间时,经常作为构造枢轴变量的依据
设 \(X_1, X_2, \cdots, X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的一个样本,则
(1) \(\overline{X} \sim N(\mu, \dfrac{\sigma^2}{n})\)
(2) \({\color{orange}\dfrac{(n-1)S^2}{\sigma^2}\sim \chi^2 (n-1)}\),等价为 \(\displaystyle \dfrac{1}{\sigma^2} \sum_{i=1}^{n} (X_i - \overline{X})^2 \sim \chi^2 (n-1)\)
- 这说明正态总体的样本方差经过一定的缩放后服从卡方分布
(3) \(\overline{X}\) 与 \(S^2\) 相互独立
一些其他的推论:
(4) \(\overline{X} \sim N(\mu, \dfrac{\sigma^2}{n}) \to {\color{orange}\dfrac{\sqrt{n}(\overline{X}-\mu)}{\sigma} \sim N(0,1) \to T =\dfrac{\sqrt{n}(\overline{X}-\mu)}{S} \sim t(n-1)}\)
- 这说明在对小样本均值进行推断时,用样本标准差代替总体标准差会得到一个和正态分布相近的 \(t\) 分布。事实上 \(n\to \infty\) 时 \(t\) 分布近似成为标准正态分布
(5) 设 \(X_1, X_2, \cdots, X_{n_1}\) 是来自正态总体 \(N(\mu_1, \sigma_1^2)\) 的一个样本,\(Y_1, Y_2, \cdots, Y_{n_2}\) 是来自正态总体 \(N(\mu_2, \sigma_2^2)\) 的一个样本,两样本相互独立,样本方差分别为 \(S_1, S_2\),则
- 方差分析的基础
- 用推论 2 即证
(6) 设 \(X_1, X_2, \cdots, X_{n_1}\) 是来自正态总体 \(N(\mu_1, \sigma_1^2)\) 的一个样本,\(Y_1, Y_2, \cdots, Y_{n_2}\) 是来自正态总体 \(N(\mu_2, \sigma_2^2)\) 的一个样本,两样本相互独立,则
通常会记 \(S_w = \sqrt{\dfrac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{(n_1 - 1) + (n_2 - 1)}}\) 为合并标准差



