本系列概率论博文基于Bilibili宋浩老师发布的概率论教学视频整理而来, 仅用作复习参考. 在此感谢宋浩老师的开源工作.
概率论与数理统计 Chap.3 多维随机变量及其分布
3.1 二维随机变量
3.1.1 二维随机变量的联合分布
第二章讲的是一维的, 第三章我们进入多个随机变量的问题.
首先仿照二维随机变量给出多维随机变量的定义:
有两个随机变量 X, Y.
给出它们两个的联合概率分布 $ F(x, y) = P \lbrace X \leq x, Y \leq y \rbrace $
我们先明确一种建模方式, 即通过二维笛卡尔坐标系来表示随机变量的落点.
考虑 $ F(x, y) $ , 用二维坐标系来表示:
3.1.2 二维随机变量的性质
性质我们就直接给了, 因为这里的性质跟一维很类似:
- $ 0 \leq F(x, y) \leq 1 $
- $ F(- \infty , y) = F(x, - \infty) = F(- \infty, - \infty) = 0 $
- $ F(+ \infty, + \infty) = 1 $
- F(x, y) 关于x不减, 关于y不减, 这意味着
- $ F(x_1, y) < F(x_2, y), x_1 < x_2 $
- $ F(x, y_1) < F(x, y_2), y_1 < y_2 $
接下来还有几个公式, 读者大概画个图就能明白是啥意思哈:
- $ P \lbrace x_1 < X \leq x_2, y_1 < Y \leq y_2 \rbrace = F(x_2, y_2) - F(x_1, y_2) - F(x_2, y_1) + F(x_1, y_1) $
- $ P \lbrace x_1 < X \leq X_2, Y \leq y \rbrace = F(x_2, y) - F(x_1, y) $
- $ P \lbrace X \leq x, y_1 < Y \leq y_2 \rbrace = F(x, y_2) - F(x, y_1) $
3.2 边缘分布
3.2.1 边缘分布的定义
边缘分布指的是 仅对其中一个随即变量进行限制的概率分布函数 .
具体而言, 我们可以这么写:
$ F_X(x) = P \lbrace X \leq x \rbrace = P \lbrace X \leq x, Y < + \infty \rbrace = F(x, + \infty) = lim_{y \to + \infty} F(x, y) $
$ F_Y(y) = P \lbrace Y \leq y \rbrace = P \lbrace X < + \infty , Y \leq y \rbrace = F(+ \infty, y) = lim_{x \to + \infty} F(x, y) $
3.2.2 二维离散型随机变量的边缘分布
离散型的是很好求的, 因为任何一点理论上都给出了:
$$
\begin{array}{c|c|c|c|c|c}
X \backslash Y & y_1 & y_2 & … & y_n & total \\
x_1 & … & … & … & … & sum_{X = x_1} \\
x_2 & … & … & … & … & sum_{X = x_2} \\
… & … & … & … & … & … \\
x_n & … & … & … & … & sum_{X = x_n} \\
total & sum_{Y = y_1} & sum_{Y = y_2} & … & sum_{Y = y_n} & \\
\end{array}
$$
假如说我想求 $ F_X(x_{10}) $ ?
既然对Y没限制, 那就把所有满足要求的全加起来, 也就是: $ sum_{X = x_1} + sum_{X = x_2} + … + sum_{X = x_{10}} $
3.2.3 二维连续型随机变量的边缘分布
相比于离散型, 连续型要麻烦一些, 但本质上是一样的, 都是求和!
给定义:
对于二维随机变量的密度函数 $ f(x, y) $ ,
$ f_X(x) = \int_{- \infty}^{+ \infty} f(x, y) dy $
$ f_Y(y) = \int_{- \infty}^{+ \infty} f(x, y) dx $
我们首先要明白这给的是一个类似于 分布密度 的东西, 也就是上一章连续型随机变量的 概率密度函数 , 相应的, 我们求出来的也是 边缘密度函数的密度函数 , 也可以叫做 边缘密度 .
那 $ f_X(x) $ 指的是什么? 就是X落在这一条线上的密度分布对吧, 那可不就是对这一条线上所有的y做积分(加和)嘛.
上面这段话有些绕, 还请读者尽可能理解, 因为这是求二维连续随机变量边缘分布的基本.
接下来我们得给几个结论:
- 在 长方形 区域上的二维均匀分布, 其关于X, Y的边缘分布仍然是均匀分布
- 如果理解了上面的思路, 那这句话应该不难懂. 相当于一条线沿着x / y轴扫过长方形, 那X / Y落在这条线上的概率应该不会变, 因为这条线的长度始终没有变.
- 如果X, Y服从二维正态分布(记作 $ (X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho) $ ) , 则它的边缘分布同样服从正态分布, 即 $ X \sim N(\mu_1, \sigma_1^2) , Y \sim N(\mu_2, \sigma_2^2) $
- 这个结论反过来并不成立 .
- 如果反过来, 即 $ X \sim N(\mu_1, \sigma_1^2) , Y \sim N(\mu_2, \sigma_2^2) $ , 且 X, Y相互独立 , 则有 $ (X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, 0) $
这玩意证明起来实在是忒麻烦了, 笔者偷个懒, 就不证明了, 读者想请自行搜索吧, 这个结论尽量记住.
3.3 条件分布
条件分布, 都叫这个名了, 肯定跟条件概率脱不开干系对吧.
3.3.1 二维离散型随机变量的条件分布
同样的, 还是离散型简单一些, 我们还得搬出来这个表:
$$
\begin{array}{c|c|c|c|c|c}
X \backslash Y & y_1 & y_2 & … & y_n & total \\
x_1 & … & … & … & … & sum_{X = x_1} \\
x_2 & … & … & … & … & sum_{X = x_2} \\
… & … & … & … & … & … \\
x_n & … & … & … & … & sum_{X = x_n} \\
total & sum_{Y = y_1} & sum_{Y = y_2} & … & sum_{Y = y_n} & \\
\end{array}
$$
我现在问:
$ P \lbrace X = x_1 | Y = y_7 \rbrace $ 的概率?
我们无论是按照上一章条件概率的公式, 还是单纯从理解这个事情来考虑, 都能得到一个很简单的式子:
$$ P \lbrace X = x_1 | Y = y_7 \rbrace = \frac{P \lbrace X = x_1, Y = y_7 \rbrace }{ P \lbrace Y = y_7 \rbrace } = \frac{P \lbrace X = x_1, Y = y_7 \rbrace }{ sum_{Y = y_7} } $$
好啦, 结束了, 这就是二维离散型的条件分布. 很简单哈~
3.3.2 二维连续型随机变量的条件分布
有了离散型的基础, 我们回过头来接着看连续型, 应该能好理解一些.
先看定义:
给定随机变量X, Y, 以及其边缘概率密度 $ f_X(x) ,f_Y(y) $ , 现在给定y, 在 $ f_Y(y) > 0 $ 的前提下:
$ f_{X | Y}(x | y) = \frac{f(x, y)}{f_Y(y)} $
同样的, 给定x, 在 $ f_X(x) > 0 $ 的前提下:
$ f_{Y | X}(y | x) = \frac{f(x, y)}{f_X(x)} $
读者理解这个式子的时候要重点观察密度函数的下标, 下标在后的说明其值是给定的.
在明确这是个密度函数, 以及其概念之后, 给出如下性质:
- $ f_{X | Y}(x | y) \geq 0 $
- $ \int_{- \infty}^{+ \infty} f_{X | Y}(x | y) dx = 1 $
- 在y给定的条件下对所有x取值的概率密度求积分(概率求和), 最终结果一定是1.
- 如果X, Y互相独立, 则 $ f(x, y) = f_X(x) * f_Y(y) $
3.4 二维随机变量相互独立的判定
我们老样子从离散型开始给
3.4.1 离散型二维随机变量相互独立的判定
离散型的公式最简单:
$ P \lbrace X = x_i, Y = y_j \rbrace = P \lbrace X = x_i \rbrace * P \lbrace Y = y_j \rbrace $
还是从独立相互独立的那个概念来理解嘛, 就我落在哪跟你没关系, 你爱在哪在哪.
因此还有个性质, 即如果X, Y相互独立, 则其条件分布等于其边缘分布.
用数学语言解释是这样:
$ P \lbrace X = x_i | Y = y_i \rbrace = \frac{ P \lbrace X = x_i, Y = y_i \rbrace }{ P \lbrace y = y_i \rbrace } = P \lbrace X = x_i \rbrace $
看起来还蛮简单的哈.