第二章 随机变量及其概率分布
随机变量
随机变量本质上来说是一个单值函数 \(X=X(e)\),将样本空间中的样本点映射到实数轴上。随机变量的核心工作是为所有 “可能的结果” 分配一个唯一的数值
比如硬币正反面分别量化为值 0 1
随机变量的分布函数旨在精确化体现随机变量的统计学规律
比如将 0 1 分别对应到概率 \(p = 50\%\)。在上述情境(抛硬币)下,分布函数是:
分布函数的定义域是 \(\R\),值域 \([0,1]\) 且左右边界一定分别是 \(0, 1\)
并且 \(F(x_0+0) = \displaystyle \lim _{x\to x_0+0} F(x) = F(x_0)\) ,满足右连续
如何简单理解分布函数有右连续性?
从定义上来说,\(F(x)=P(X\le x)\) ,注意 \(\le\) 这里有个等号,使其天然满足右连续
如果 \(F(x)=P(X < x)\),那它就应该是左连续了
具体可以考虑在定义下,分布函数的间断点处情况
体现在抛硬币这里,\(\displaystyle \lim_{x\to 1^+} F(x) = F(1)\quad \lim_{x\to 1^-} F(x)\ne F(1)\)
离散型随机变量
对于离散型随机变量 \(X\)(有限个/可列无限个取值),称 \(P(X = x_k)=p_k,\;k=1,2,\cdots\) 为 \(X\) 的分布律
分布律也可以用表格方式给出,有时也会以矩阵的方式出现,还是以抛硬币为例:
常见的离散型随机变量
-
0-1 分布:\(X \in \{0,1\}\)
-
二项分布 \(B(n, p)\) :\({\color{orange}p_k = C_n^kp^k(1-p)^{n-k}},\;k = 0,1,\cdots,n\)
二项分布是独立进行了 \(n\) 次 0-1 分布实验的结果
- 泊松分布 \(P(\lambda)\) :\({\color{orange}p_k = \dfrac{\lambda^k}{k!}e^{-\lambda}},\;k = 0,1,\cdots,\)
泊松分布可以看作进行了大量的 0-1 分布实验的近似描述结果,虽然泊松分布对应描述的是泊松过程
- 几何分布 \(g(p)\) :\({\color{orange}p_k = (1-p)^{k-1}p},\;k=1,2,\cdots,\)
对于二项分布 \(B(n, p)\),计算得到:
(1) 当 \((n + 1)p\) 为整数时,\(p_k\) 在 \(k = (n + 1)p - 1\) 和 \(k = (n + 1)p\) 达到最大。
(2) 当 \((n + 1)p\) 不是整数时,\(p_k\) 在 \(k = ⌊(n + 1)p⌋\) 达到最大。
连续型随机变量
对于连续型随机变量 \(X\)(不可列无穷),其分布函数满足:
其中 \(p(x)\) 为概率密度函数,一定有 \(\int_{-\infty}^{\infty} p(t)dt = 1\)
可以从离散化的角度去看这个式子:\(\displaystyle\sum^{\infty} p_k = \lim_{x\to +\infty} F(x) = 1\),累加概率 \(p(x)\) 得到 \(F(x)\)
连续性来看,就是 \(p(x)\) 在一个区间(无论开闭)的曲边梯形面积
不难发现 \(P(X = x_0) = 0\),因此对应的事件为概率为 0 的事件,但并不是一个不可能事件
概率为 0 的事件 ≠ 不可能事件
根据这个性质,连续型随机变量 \(X\) 在某一区间取值的概率与区间的开或闭无关,因此:
常见的连续型随机变量
- 均匀分布 \(U[a,b]\):
- 指数分布 \(E(\lambda)\):
- 正态分布 \(N(μ,σ^2)\):
对于正态分布图像:
\(p(x)\) 图像以 \(x=μ\) 为对称轴,\((μ,\frac{1}{\sigma\sqrt{2\pi}})\) 为极大值点,\(x\) 轴为渐近线
固定 \(μ\) 时:\(σ\) 越小,最大值越大,图形越高越陡峭;\(σ\) 越大,最大值越小,图形越低越平缓
固定 \(σ\):\(μ\) 变小时,曲线沿对称轴 \(x= μ\) 向左平移;\(μ\) 变大时,曲线沿对称轴 \(x= μ\) 向右平移
标准正态分布
有定理:\(X\sim N(μ,σ^2) \to \frac{x-μ}{σ} \sim N(0,1)\) ,其中后者为标准正态分布,其密度函数和分布函数特别记为 \(\varphi(x)\) 和 \(\Phi(x)\) $$ \varphi(x) = \dfrac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}, \qquad \Phi(x) = \int_{-\infty}^{x} \dfrac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt $$
将其他的正态分布转化为标准正态分布可以方便查表计算
操作是 \(P(a<x<b) = P(\frac{a-μ}{σ} < \frac{x-μ}{σ} < \frac{b-μ}{σ}) = \Phi(\frac{b-μ}{σ}) - \Phi(\frac{a-μ}{σ})\)
实际题目中通常只会给出 \(\Phi\) 值,因此通常需要先转化为标准二项分布再查表计算
无记忆性
对于非负随机变量 \(X\),如果有
$$ P(X>s+t∣X>s)=P(X>t),\;∀s,t≥0 $$ 我们称 \(X\) 的分布具有无记忆性
对于连续型随机变量,只有指数分布具有无记忆性;对于离散型随机变量,只有几何分布具有无记忆性
指数分布的无记忆性在可靠性工程中具有重要价值。以电子元件寿命为例,若已知元件在1000小时工作后仍正常,其后续使用寿命仍遵循原指数分布规律,无需重新评估剩余寿命的分布参数。该特性简化了系统维护策略制定与剩余寿命预测的复杂度。
几何分布的无记忆性则体现在赌博策略分析中。假设赌徒连续经历 \(n\) 次失败后,其后续需要再进行 \(m\) 次尝试才能首次获胜的概率,与赌徒刚开始赌博时的概率分布完全一致。这种特性揭示了独立重复试验中概率规律的稳定性。
随机变量函数的分布
考虑已知概率分布的随机变量 \(X\),求 \(Y=g(X)\) (连续实函数映射)的概率分布:
- \(X,Y\) 为离散型随机变量,此时根据分布律带值计算即可
- \(X,Y\) 为连续型随机变量,此时的常见做法是:
- 先求 \(\displaystyle F_Y(y) = P(g(X) \leq Y) = \int_{x:g(x)\leq y} p_X(x)dx\)
- 然后求 \(p_Y(y) = F'_Y(y)\)
可以据此推导出定理:设随机变量 \(X\) 的可能取值范围为 \((a, b)\),\(X\) 的概率密度为 \(p_X(x)\),\(a < x < b\) (其中 \(a\) 可为 \(-\infty\),\(b\) 可为 \(+\infty\)),设函数 \(y = g(x)\) 处处可导,且恒有 \(g'(x) > 0\) [或恒有 \(g'(x) < 0\)],则 \(Y = g(X)\) 为连续型随机变量,其概率密度为
其中,\(\alpha = \min(g(a), g(b))\),\(\beta = \max(g(a), g(b))\),\(g^{-1}(y)\) 为 \(y = g(x)\) 的反函数。