发布日期: 2025-05-16

更新日期: 2025-05-18

文章字数: 4.2k

本系列概率论博文基于Bilibili宋浩老师发布的概率论教学视频整理而来, 仅用作复习参考. 在此感谢宋浩老师的开源工作.

概率论与数理统计 Chap.2 随机变量及其分布

2.1 随机变量

首先要引入一个非常核心的概念, 这个概念贯穿着我们此后概率论内容的始终.

概念: 随机变量
对于一个样本空间 $ \Omega = {\omega_i} $ , 我们对其中每一个样本点 $ \omega_i $ 设置一个不同的实数 $ X(\omega) $ , 此时我们记这个 $ X $ 为一个随机变量.
随机变量通常用一个大写字母来进行标识.

需要读者理解这个定义, 这实质上是将一个 $ \geq 1 $ 维的样本空间, 转化到了一个 1维的数轴上, 实际上代表了一种 映射关系 .

那我们引入这玩意有啥用呢? 当然是要用它表示事件求概率啊!
我们通常可以用以下式子来表示一个事件及其概率:

$$ \lbrace X \leq x \rbrace , P \lbrace X \leq x \rbrace $$

这里还请各位读者理解这个表示方式, 它有点像微积分里面的 变上限积分函数 . 这个 $ x $ 本身也是个变量, 但是在这个式子中, 它取到某一个特定的值时, 这个事件是能有一个准确的概率值的.

2.2 离散型随机变量及其分布律

刚刚说的随机变量既然是一种映射, 那它的取值自然分为 离散型 和 连续型 . 这一节先从离散型开始.

2.2.1 概率分布?

对于离散型而言, 其概率分布就是: $ P \lbrace X = x_k \rbrace = p_k , k = 1, 2, … $ .
其实就是随机变量取到每一个离散值的概率是多少. 它也通常使用表格来表示:

$$
\begin{array}{c|c|c|c|c}
X & x_1 & x_2 & x_3 & … \\
\hline
P & p_1 & p_2 & p_3 & …
\end{array}
$$

对于离散型的概率分布, 有这么几个要求:

$ \lbrace X = x_1 \rbrace, \lbrace X = x_2 \rbrace, \lbrace X = x_3 \rbrace, … $ 是一个完备事件组.
- 就是所有样本点都包含在里面了
$ p_k \geq 0 $
- 概率基本性质, 不说了
$ \Sigma_{k = 1}^{\infty} = 1 $
- 就是所有样本点的概率加起来应该是1, 也就是不能有缺少的样本点.
- 也叫 归一性

下面会写一些常见的离散型概率分布.

2.2.2 0-1分布

这种是最好处理的, 本质上就是伯努利事件, 其样本空间仅有两个样本点, 因此我们将其抽象为 0, 1.
给出概率分布:

$$
\begin{array}{c|c|c}
X & 0 & 1 \\
\hline
P & 1-p & p
\end{array}
$$

或者我们用一个表达式来写它:

$$ P \lbrace X = k \rbrace = p^k (1-p)^{1-k} , k = 0, 1 $$

2.2.3 二项分布

二项分布实际上就是 n重伯努利实验 , $ P(A) = p $ , 我们引入随机变量X表示A发生的次数.

$$ P \lbrace X = k \rbrace = C_n^k p^k (1-p)^{n-k} , k = 0, 1, 2, …, n $$

我们将其记作: $ X \sim B(n, p) $

n: 伯努利实验总次数
p: 单次事件发生的概率

其实读者能看出来, 二项分布中 $ n = 1 $ 时, 就是 0-1分布了.

这玩意也是肯定满足归一性的:
$ \Sigma_{k = 0}^{\infty} C_n^k p^k (1-p)^{n-k} = (p+(1-p))^n = 1 $
这个式子读者如果有疑惑可以去搜索 二项式展开 , 这里不费笔墨了.

2.2.4 泊松分布

泊松分布有点复杂, 我们先给定义:

$$ X \sim P \lbrace X = k \rbrace = \frac{\lambda^k}{k!} e^{- \lambda} , k = 0, 1, 2, … $$

我们记作 $ X \sim P(\lambda) $

这东西的归一性需要一个高数中比较重要的泰勒展开式: $ e^x = \Sigma_{k = 0}^{\infty} \frac{x^k}{k!} $
这个式子这里就不证明了, 读者忘记了可以自己搜一下.
有了这个式子, 我们推一下归一性:
$ \Sigma_{k = 0}^{\infty} \frac{\lambda^k}{k!} e^{- \lambda} = e^{- \lambda} \Sigma_{k = 0}^{\infty} \frac{\lambda^k}{k!} = e^{- \lambda} * e^{\lambda} = 1 $

泊松分布有一个非常重要的应用, 它能够用于近似实验量极大的二项分布:

设 $ X \sim B(n, p) , n \geq 100 , np \leq 10 $ , 则上述二项分布可以使用泊松分布 $ X \sim P(\lambda) , \lambda = np $ 来近似.

这样近似的目的显而易见, 当二项分布的 n 过大时, 会涉及到超大指数的幂运算, 而泊松分布能够极大程度上简化这一计算过程.

2.2.5 几何分布

我们还是先给定义:

$$ P \lbrace X = k \rbrace = (1-p)^{k-1} p , k = 1, 2, 3, … $$

我们记作 $ X \sim G(p) $

同样的, 我们推一下归一性:
$ \Sigma_{k = 1}^{\infty} (1-p)^{k-1} p = p \Sigma_{k = 1}^{\infty} (1-p)^{k-1} = p \frac{1}{1-(1-p)} = 1 $

几何分布针对的场景是这样:
一个事件A, 其发生的概率是p, 一直独立的重复这个实验直到A发生为止. X描述的是A发生时的实验总次数.

2.2.6 超几何分布

超几何分布针对的场景是这样:
两类共N个物体, 第一类 $ N_1 $ 个, 第二类 $ N_2 $ 个. 从中取出n个, 引入X表示从第一类中取出的物体个数.

$$ P \lbrace X = k \rbrace = \frac{ C_{N_1}^k C_{N_2}^{n-k} }{ C_N^n } , k = 0, 1, …, min \lbrace n, N_1 \rbrace $$

这其实就对应着我们的 不放回抽取 .

当然, 我们也会碰到一种很难办的情况, 就是N特别大, 并且 N >> n , 这种情况我们通常使用二项分布 $ X \sim B(N, \frac{N_1}{N_1 + N_2}) $ 来对超几何分布进行近似.
本质上就是在总实验量过大的时候, 用放回抽取来近似不放回抽取.

至于二项分布在这种数据量极大的情况下怎么算?
请移步刚刚的泊松分布.

2.3 随机变量的分布函数

2.3.1 分布函数的定义

先给出定义:

$$ F(x) = P \lbrace X \leq x \rbrace , x \in (- \infty, + \infty) $$

请读者明确两点:

这个函数的自变量是 $ x $ , 即理解为一个随机变量的 取值限值 .
这个函数的因变量是 一个概率 , 即 $ X $ 取到的值比 $ x $ 小这个事件的概率.

它的含义与微积分中变上限积分函数的感觉非常相似. 还请读者尽可能理解.

2.3.2 分布函数的性质

分布函数的性质还是比较重要的, 这里单拉出来开一小部分:

$ 0 \leq F(x) \leq 1 $
- 因为分布函数的函数值是个概率嘛
$ F(- \infty) = 0 , F(+ \infty) = 1 $
- 通过x取值范围得到的结论
F(x)一定是一个 不减函数 .
- 理解上: x增加时, X能够取到的样本点一定是不减的, 那取到这些样本点的概率也一定是不减的.
- 证明上: $ F(x_2) - F(x_1) = P \lbrace X \leq x_2 \rbrace - P \lbrace X \leq x_1 \rbrace = P \lbrace x_1 < X \leq x_2 \rbrace $ , 显然这个值 $ \geq 0 $ , 得证.
F(x)是一个 右连续函数

理解这些性质之后, 有仨比较常用的公式, 做题常用, 也比较好理解, 这里提一下:

$ P \lbrace a < X \leq B \rbrace = F(b) - F(a) $
$ P \lbrace X > a \rbrace = 1 - F(a) $
$ P \lbrace X < a \rbrace = F(a) - P \lbrace X = a \rbrace $

2.4 连续型随机变量及其概率密度函数

连续型相比于离散型的区别在于其随机变量的取值, 它能取 一段区间内的全部实数 . 因此不是很好理解.

2.4.1 概率密度函数

我们先来捯饬一下这个概率密度函数是个啥意思:

设X为随机变量, 存在一个非负可积的函数 $ f(x) , f(x) \geq 0 $
并且 $ \forall a < b, P \lbrace a < X \leq b \rbrace = \int_a^b f(x) dx $

我们称这样的 $ f(x) $ 就是随机变量X的 概率密度函数 .

这玩意确实不好理解, 读者请先明确, 这玩意是将概率用一个积分的形式来给出的. 也可以粗略的理解成函数图像的线下面积.

这玩意有好几个性质:

$ f(x) \geq 0 $
- 如果这玩意能小于0, 那线下面积就是负的了, 概率显然不可能为负数.
$ \int_{- \infty}^{+ \infty} f(x) dx = 1 $
- 随机变量X取遍整个实数域的概率显然是1
取个别点的概率为0
- $ 0 \leq P \lbrace X = x_0 \rbrace \leq P \lbrace x_0 - \Delta x \leq X \leq x_0 \rbrace = \int_{x_0 - \Delta x}^{x_0} f(x) dx $
- 显然, 当 $ \Delta x \to 0 $ 时, 右式趋近于0. 因此得证.
- 也正是由于这个性质, 在连续型随机变量求概率时 , 这几个式子是没区别的: $ P \lbrace a \leq X \leq b \rbrace = P \lbrace a < X \leq b \rbrace = P \lbrace a \leq X < b \rbrace = P \lbrace a < X < b \rbrace $
$ F(x) = P \lbrace - \infty < X \leq x \rbrace = \int_{- \infty}^x f(x)dx $
- 根据密度函数的定义来的
连续性随机变量的分布函数 $ F(x) = \int_{- \infty}^x f(x) dx $ 一定是个连续函数.
对 $ F(x) $ 的连续点, 有 $ F’(x) = f(x) $
- 积分的逆过程就是求导嘛

2.4.2 概率密度函数 Vs 连续性随机变量的分布函数

我们直接给一个表, 展示一下这俩玩意的区别:

$$
\begin{array}{c|c}
f(x) & F(x) \\
\hline
0 \leq f(x) & 0 \leq F(x) \leq 1 \\
\hline
\int_{- \infty}^{+ \infty} f(x) dx = 1 & F(x) = \int_{- \infty}^x f(x) dx \\
\hline
可积, 不一定连续 & 一定连续 \\
\hline
增减性无要求 & 一定是不减函数 \\
\end{array}
$$

接下来我们给几个比较常见的连续型随机变量分布.

2.4.3 均匀分布

算是连续型里面最简单的一个, 我们直接给概率密度函数:

$$
X \sim f(x) = \begin{cases}
\frac{1}{b-a} & a \leq x \leq b \\
0 & else
\end{cases}
$$

我们将这种情况记作: $ X \sim U[a, b] $ , 它通常用于描述 概率在整个区间内均匀分布 的情况.

$$
F(x) = \begin{cases}
0 & x<a \\
\frac{x-a}{b-a} & a \leq x < b \\
1 & b \leq x
\end{cases}
$$

读者如果像得到这个 $ F(x) $ 求个积分就可以了, 应该不算难.

2.4.4 指数分布

还是先给概率密度函数:

$$
X \sim f(x) = \begin{cases}
\lambda e^{- \lambda x} & x>0 \\
0 & x \leq 0
\end{cases}
$$

我们将这种情况记作 $ X \sim E(\lambda) $ , 常用来描述各种电子元件的使用寿命(越长概率越小).

$$
F(x) = \begin{cases}
0 & x\leq 0 \\
1 - e^{- \lambda x} & x > 0
\end{cases}
$$

指数分布有个特别重要的性质, 在一些电子产品, 以至于信息行业中都广泛应用, 即它的 无记忆性 .
给出公式是这样的:

$$
\begin{align*}
\because & X \sim E(\lambda) , s>0, t>0 \\
\therefore & P \lbrace X>t \rbrace = P \lbrace X>s+t | X>s \rbrace
\end{align*}
$$

这玩意是啥意思呢? 我们翻译一下:
你的电子产品的使用寿命如果严格服从指数分布, 那么: 你刚拿到它能用t天不损坏的概率, 与你过一段时间拿到它能够再用t天不损坏的概率是相等的!

2.4.5 正态分布

老样子, 先给概率密度函数:

$$
X \sim f(x) = \frac{1}{\sqrt{2 \pi } \sigma} e^{- \frac{(x- \mu)^2}{2 \sigma^2}} , - \infty < x < + \infty
$$

我们将其记作 $ X \sim N(\mu, \sigma^2) $ , 这里的 $ \sigma > 0 $

那这玩意的分布密度函数:

$$
F(x) = \frac{1}{\sqrt{2 \pi } \sigma } \int_{- \infty}^x e^{- \frac{(x- \mu)^2}{2 \sigma^2}} dx, - \infty < x < + \infty
$$

这玩意如果想证明归一性需要用到微积分中的一个公式:
$ \int_{- \infty}^{+ \infty} e^{x^2} dx = \sqrt{\pi} $
这个公式读者想知道怎么证明应该可以上网搜, 挺多的.

有这个公式之后应该就好整了, 凑个微分就行, 在这就不详细说了.

了解完这个, 我们来看一下正态分布的曲线, 这也是为啥它这么重要:
正态分布是一个以 $ x = \mu $ 为对称轴的 钟形曲线 .
长这样: ( $ \mu = 12 , \sigma = 3 $ )

这玩意着实比较有特点:

$ x < \mu $ , 函数增, $ x > \mu $ , 函数减.
$ \mu $ 只能影响函数的对称轴(左右移动)
最大值 $ x = \mu $ , $ y = \frac{1}{\sqrt{2 \pi } \sigma } $
又由于这个函数的积分值(线下面积)恒为1, 因此:
- $ \sigma $ 越大, 最大值越小, 取值越分散, 曲线越胖
- $ \sigma $ 越小, 最大值越大, 取值越集中, 曲线越瘦

2.4.6 标准正态分布

标准正态分布是正态分布的一种特殊情况:

$$
x \sim \phi(x) = \frac{1}{\sqrt{2 \pi }} e^{- \frac{x^2}{2}} , - \infty < x < + \infty
$$

记作 $ X \sim N(0, 1) $ , 其分布函数记作 $ \Phi(x) $

根据我们上面的结论, 能得到:

关于y轴对称 ( $ \phi(-x) = \phi(x) $ )
$ \Phi(-x) = 1 - \Phi(x) $
- $ \Phi(0) = \frac{1}{2} $
- $ P \lbrace | X | \leq x \rbrace = \Phi(x) - \Phi(-x) = 2 \Phi(x) - 1 $

上图中的红线其实就是 标准正态分布 .

有这么标准的一条曲线, 我们能不能把所有正态分布都放在这条曲线上进行操作?
当然是可以滴.

定理如下:
$ X \sim N(\mu, \sigma^2) , f(x), F(x) $
则:

$ f(x) = \frac{1}{\sigma} \phi(\frac{x- \mu }{\sigma}) $
$ F(x) = \Phi(\frac{x- \mu }{\sigma}) $

有了这俩玩意, 我们就能算任意正态分布的 $ f(x), F(x) $ 了(只要知道 $ \mu , \sigma $ )

这个公式还有个更快捷的方式:
定理2:
对于 $ X \sim N(\mu, \sigma^2) , f(x), F(x) $ , 令 $ Y = \frac{x - \mu}{\sigma} $ , 则 $ Y \sim N(0, 1) $

因此:
$ P \lbrace a \leq X \leq b \rbrace = P \lbrace \frac{a - \mu}{\sigma} \leq \frac{x - \mu}{\sigma} \leq \frac{b - \mu}{\sigma} \rbrace = \Phi(\frac{b - \mu}{\sigma}) - \Phi(\frac{a - \mu}{\sigma}) $

这个玩意叫做 正态分布的标准化 .

除此之外, 还有个小结论, 读者想自己算一下也可以, 直接记住也行:
$ X \sim N(\mu, \sigma^2) $ ,
则:
X落在 $ | x - \mu | \leq \sigma $ 的范围内的概率为 0.6826;
X落在 $ | x - \mu | \leq 2 \sigma $ 的范围内的概率为 0.9544;
X落在 $ | x - \mu | \leq 3 \sigma $ 的范围内的概率为 0.9974;

可以通过这个结论记住这个 $ 3 \sigma $ 原则, 即正态分布几乎不会落在距离 $ \mu $ $ 3 \sigma $ 的范围外.

2.5 随机变量函数的分布

这里的 随机变量函数 指的是通过我们上面学过的几种典型的随机变量 构造出的新随机变量 .

2.5.1 离散型随机变量函数

非常简单, 离散型只有几个取值点对吧, 只需要将对应的取值点按照给出的函数操作即可.
给个例子: $ Y = 2X $

$$
\begin{array}{c|c|c|c}
X & 1 & 2 & 3 \\
\hline
Y & 2 & 4 & 6 \\
\hline
P & 0.3 & 0.3 & 0.4
\end{array}
$$

2.5.2 连续型随机变量函数

这种情况是最麻烦的, 因为往往涉及到函数的转换操作.

通常有两种解法:

通过 $ f(x) $ 求出分布函数 $ F_Y(y) $ , 随后 $ F_Y(y) $ 对 y 求导得到概率密度函数
- 通过 $ Y = G(X) $ 反解出 $ X = G^{-1}(Y) $ , 从而把 $ P \lbrace Y \leq y \rbrace $ 转化为 $ P \lbrace X \leq G’(y) \rbrace $ , 再通过讨论y的范围进行积分计算.
通过 $ f(x) $ 求出概率密度函数 $ f_Y(y) $ , 随后 $ f_Y(y) $ 对 y 积分得到分布函数
- 同样的 , 将 $ P \lbrace Y \leq y \rbrace $ 转化为 $ P \lbrace X \leq G^{-1}(y) \rbrace $ , 也就是 $ F_Y(y) = F_X(G^{-1}(y)) $
- 等式两侧同时对 $ y $ 求导, 得到 $ f_Y(y) = f_X(G^{-1}(y)) * G^{-1}(y)’ $ , 得到Y的概率密度函数
- 积分即可.

通过如上的步骤, 有这么两个结论要记一下:

对于均匀分布: $ X \sim U[a, b] , Y = cX + d $ .
$ Y \sim U[ac + d, bc + d] $

对于正态分布: $ X \sim N(\mu, \sigma^2) , Y = aX + b $
$ Y \sim N(a \mu + b, a^2 \sigma^2) $

当然, 上面只是非常简要的结论, 真正到比较复杂的函数变换时, 还是要照着此前的两种解法老老实实的干…

本章的内容就到这里了, 主要是关于随机变量的一些概念上的明晰, 以及几种重要的概率分布需要读者了解.

这篇博文就到这里~

MUG-chen

http://mug-chen.github.io/posts/3956.html