2.3 条件概率分布与随机变量的独立性 您所在的位置:网站首页 xy相互独立条件 2.3 条件概率分布与随机变量的独立性

2.3 条件概率分布与随机变量的独立性

2024-07-01 10:48| 来源: 网络整理| 查看: 265

2.3 条件概率分布与随机变量的独立性⚓︎ 2.3 条件概率分布与随机变量的独立性⚓︎ 0.1. 1 条件概率分布的概念⚓︎

一个随机变量或向量 \(X\) 的条件概率分布, 就是在某种给定的

70 • 条件之下, \(X\) 的概率分布.一如以前我们在讨论条件概率时所指 出的,任何事件的概率都是 “有条件的”, 即与这事件联系着的试验 的条件, 如骰子是均匀的立方体且抛郑的高度是足够大之类. 以 此,任何随机变量或向量的分布, 也无不是在一定条件下. 但此处 所谈的条件分布, 是在试验中所规定的“基本” 条件之外再附加的 条件. 它一般采取如下的形式: 设有两个随机变量或向量 \(X, Y\),在 给定了 \(Y\) 取某个或某些值的条件下,去求 \(X\) 的条件分布.

例如, 考虑一大群人, 从其中随机抽取一个, 分别以 \(X_{1}\) 和 \(X_{2}\) 记其体重和身高, 则 \(X_{1}, X_{2}\) 都是随机变量, 它们都有一定的概率 分布. 现在如限制 \(1.7 \leqslant X_{2} \leqslant 1.8\) (米), 在这个条件下去求 \(X_{1}\) 的 条件分布, 这就意味着要从这一大群人中把其身高在 1.7 米和 1.8 米的那些人都挑出来, 然后在挑出的人群中求其体重的分布. 容易想像, 这个分布与不设这个条件的分布 (无条件分布) 会很不 一样.例如,在条件分布中体重取大值的概率会显著增加.

从这个例子也看出条件分布这个概念的重要性. 在本例中, 弄 清了 \(X_{1}\) 的条件分布随 \(X_{2}\) 之值而变化的情况, 就能了解身高对体 重的影响在数量上的表述. 由于在许多问题中有关的变量往往是 彼此有影响的, 这使条件分布成为研究变量之间的相依关系的一 个有力工具. 这一点以后在第六章中还要作更深入的发挥.

0.2. 2 离散型随机变至的条件概率分布⚓︎

这个情况比较简单,实际上无非是第一章讲过的条件概率概 念在另一种形式下的重复. 设 \(\left(X_{1}, X_{2}\right)\) 为一个二维离散型随机向 量, \(X_{1}\) 的全部可能值为 \(a_{1}, a_{2}, \cdots ; X_{2}\) 的全部可能值为 \(b_{1}, b_{2}, \cdots\), 而 \(\left(X_{1}, X_{2}\right)\) 的联合概率分市为

\[ p_{i j}=P\left(X_{1}=a_{i}, X_{2}=b_{j}\right), i, j=1,2, \cdots \]

现考虑 \(X_{1}\) 在给定 \(X_{2}=b_{j}\) 的条件下的条件分布,那无非是要找条 件概率 \(P\left(X_{1}=a \mid X_{2}=b_{j}\right)\) ,依条件概率的定义,有

\[ \begin{aligned} P\left(X_{1}\right. & \left.=a_{i} \mid X_{2}=b_{j}\right)=P\left(X_{1}=a_{i}, X_{2}=b_{j}\right) / P\left(X_{2}=b_{j}\right) \\ & =p_{i j} / P\left(X_{2}=b_{j}\right) \end{aligned} \]

再据公式 (2.8)( \(n=2\) 的情况), 有 \(P\left(X_{2}=b_{j}\right)=\sum_{k} p_{k j}\). 于是 类似地有

\[ P\left(X_{1}=a_{i} \mid X_{2}=b_{j}\right)=p_{i j} / \sum_{k} p_{k j}, i=1,2, \cdots \] \[ P\left(X_{2}=b_{j} \mid X_{1}=a_{i}\right)=p_{i j} / \sum_{k} p_{i k}, j=1,2, \cdots \]

例 3.1 再考虑例 2.6. 据公式 (3.1) 和 (3.2), 不难算出在给 定 \(X_{2}\) 时 \(X_{1}\) 的条件分布, 与给定 \(X_{1}\) 时 \(X_{2}\) 的条件分布. 例如, 在 给定 \(X_{2}=0\) 时有

\[ \begin{aligned} & P\left(X_{1}=1 \mid X_{2}=0\right)=0.05 / 0.33=5 / 33 \\ & P\left(X_{1}=3 \mid X_{2}=0\right)=0.28 / 0.33=28 / 33 \end{aligned} \]

例 3.2 设 \(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\) 服从多项分布 \(M\left(N ; p_{1}, \cdots\right.\), \(\left.p_{n}\right)\). 试求在给定 \(X_{2}=k_{2}\) 的条件下, \(X_{1}\) 的条件分布.

先计算概率 \(P\left(X_{1}=k_{2}, X_{2}=k_{2}\right)\). 这里假定 \(k_{1}, k_{2}\) 都是非负 整数, 且 \(k_{1} \leqslant N-k_{2}\). 按 \((2.3)\) 式, 有

\[ P\left(X_{1}=k_{1}, X_{2}=k_{2}\right)=\sum_{k_{3}, \cdots, k_{n}}^{\prime} \frac{N !}{k_{1} 1 k_{2} ! k_{3} ! \cdots k_{n}} p_{1}^{k_{1}} p_{2}^{k_{2}} p_{3}^{k_{3} \cdots p_{n^{n}}^{k^{n}}} \]

这里 \(\sum_{k_{3}, \cdots, k_{n}}^{\prime}\) 表示求和的范围为 \(k_{3}, \cdots, k_{n}\) 都是非负整数, 且 \(k_{3}+\cdots\)

\[ \begin{aligned} +k_{n}=N-\left(k_{1}+k_{2}\right) \text {. 令 } p_{i}^{\prime}= & p_{i} /\left(1-p_{1}-p_{2}\right), i \geqslant 3, \text { 有 } \\ P\left(X_{1}=k_{1}, X_{2}=k_{2}\right)= & \frac{N !}{k_{1} ! k_{2} !\left(N-k_{1}-k_{2}\right) !} \\ & \cdot p_{1}^{k_{1}} p_{2^{2}}^{k_{1}}\left(1-p_{1}-p_{2}\right)^{N-k_{1}-k_{2}} C \end{aligned} \]

其中

\[ C=\sum_{k_{3}, \cdots, k_{n}} \frac{\left(N-k_{1}-k_{2}\right) !}{k_{3} ! \cdots k_{n} !} p_{3}^{\prime k_{3} \cdots} p_{n}^{\prime k_{n}} \]

由于 \(p_{3}^{\prime}+\cdots+p_{n}^{\prime}=1\), 考虑到上式求和的范围及多项展开式 (2.4), 即知 \(C=1\), 因此

\[ \begin{aligned} & P\left(X_{1}=k_{1}, X_{2}=k_{2}\right) \\ & \quad=\frac{N !}{k_{1} ! k_{2} !\left(N-k_{1}-k_{2}\right) !} \cdot p_{1}^{k_{1}} p_{2}^{k_{2}}\left(1-p_{1}-p_{2}\right)^{N-k_{1}-k_{2}} \end{aligned} \]

再根据例 \(2.7, X_{2}\) 的分布就是二项分布 \(B\left(N, p_{2}\right)\). 因此

\[ \begin{aligned} & P\left(X_{1}=k_{1} \mid X_{2}=k_{2}\right) \\ = & P\left(X_{1}=k_{1}, X_{2}=k_{2}\right) / P\left(X_{2}=k_{2}\right) \\ = & \frac{N !}{k_{1} ! k_{2} !\left(N-k_{1}-k_{2}\right) !} p_{1}^{k_{1}} p_{2}^{k_{2}}\left(1-p_{1}-p_{2}\right)^{N-k_{1}-k_{2}} \\ & \cdot / \frac{N !}{k_{2} !\left(N-K_{2}\right) !} p_{2}^{k^{2}}\left(1-p_{2}\right)^{N-k_{2}} \\ = & \frac{\left(N-k_{2}\right) !}{k_{1} !\left(N-k_{1}-k_{2}\right)}\left(\frac{p_{1}}{1-p_{2}}\right)^{k_{1}}\left(1-\frac{p_{1}}{1-p_{2}}\right)^{N-k_{1}-k_{2}} \\ = & b\left(k_{1} ; N-k_{2}, p_{1} /\left(1-p_{2}\right)\right), k=0,1, \cdots, N-k_{2} \end{aligned} \]

由此可知: 在给定 \(X_{2}=k_{2}\) 的条件下, \(X_{1}\) 的条件分布就是分布 \(B\left(N-k_{2}, p_{1} /\left(1-p_{2}\right)\right)\).

0.3. 3 连续型随机变是的条件分布⚓︎

设二维随机向量 \(X=\left(X_{1}, X_{2}\right)\) 有概率密度函数 \(f\left(x_{1}, x_{2}\right)\). 我们先来考虑在限定 \(a \leqslant x_{2} \leqslant b\) 的条件下, \(X_{1}\) 的条件分布. 有

\[ \begin{aligned} & P\left(X_{1} \leqslant x_{1} \mid a \leqslant X_{2} \leqslant b\right) \\ = & P\left(X_{1} \leqslant x_{1}, a \leqslant X_{2} \leqslant b\right) / P\left(a \leqslant X_{2} \leqslant b\right) \end{aligned} \]

\(X_{2}\) 的边缘分布的密度函数 \(f_{2}\) 由 \((2.10)\) 给出. 有

\[ \begin{gathered} P\left(X_{1} \leqslant x_{1}, a \leqslant X_{2} \leqslant b\right) \\ =\int_{-\infty}^{x_{1}} \mathrm{~d} t_{1} \int_{a}^{b} f\left(t_{1}, t_{2}\right) \mathrm{d} t_{2} \\ P\left(a \leqslant X_{2} \leqslant b\right)=\int_{a}^{b} f_{2}\left(t_{2}\right) \mathrm{d} t_{2} \end{gathered} \]

由此得到

\[ \begin{aligned} & P\left(X_{1} \leqslant x_{1} \mid a \leqslant X_{2} \leqslant b\right) \\ &=\int_{-\infty}^{x_{1}} \mathrm{~d} t_{1} \int_{a}^{b} f\left(t_{1}, t_{2}\right) \mathrm{d} t_{2} / \int_{a}^{b} f_{2}\left(t_{2}\right) \mathrm{d} t_{2} \end{aligned} \]

这是 \(X_{1}\) 的条件分布函数. 对 \(x_{1}\) 求导数,得到条件密度函数为

\[ f_{1}\left(x_{1} \mid a \leqslant X_{2} \leqslant b\right)=\int_{a}^{b} f\left(x_{1}, t_{2}\right) \mathrm{d} t_{2} / \int_{a}^{b} f_{2}\left(t_{2}\right) \mathrm{d} t_{2} \]

更有兴趣的是 \(a=b\) 的情况, 即在 \(X_{2}\) 给定等于一个值之下, \(X_{1}\) 的条件密度函数. 这不能通过直接在 (3.3) 中令 \(a=b\) 得出, 但 可用极限步骤:

\[ \begin{aligned} f_{1}\left(x_{1} \mid x_{2}\right) & =f_{1}\left(x_{1} \mid X_{2}=x_{2}\right) \\ & =\lim _{h \rightarrow 0} f_{1}\left(x_{1} \mid x_{2} \leqslant X_{2} \leqslant x_{2}+h\right) \\ & =\lim _{h \rightarrow 0} \frac{1}{h} \int_{t_{2}}^{x_{2}+h} f\left(x_{1}, t_{2}\right) \mathrm{dt}_{2} / \lim _{h \rightarrow 0} \frac{1}{h} \int_{x_{2}}^{x_{2}+h} f_{2}\left(t_{2}\right) \mathrm{d} t_{2} \\ & =f\left(x_{1}, x_{2}\right) / f_{2}\left(x_{2}\right) \end{aligned} \]

这就是在给定 \(X_{2}=x_{2}\) 的条件下, \(X_{1}\) 的条件密度函数. 此式当然 只有在 \(f_{2}\left(x_{2}\right)>0\) 时才有意义. 在上述取极限的过程中, 还得假 定函数 \(f_{2}\) 在 \(x_{2}\) 点连续, 及 \(f\left(x_{1}, t_{2}\right)\) 作为 \(t_{2}\) 的函数, 在 \(t_{2}=x_{2}\) 处 连续. 然而, 用高等概率论的知识, 可以在没有这种连续的假定下 证明 (3.4).

(3.4) 式可改写为

\[ f\left(x_{1}, x_{2}\right)=f_{2}\left(x_{2}\right) f_{1}\left(x_{1} \mid x_{2}\right) \]

就是说: 两个随机变量 \(X_{1}\) 和 \(X_{2}\) 联合概率密度, 等于其中之一的 概率密度乘以在给定这一个之下另一个的条件概率密度. 这个公 式相应于条件概率的公式 \(P(A B)=P(B) P(A \mid B)\). 除 (3.5) 外, 当然也有

\[ f\left(x_{1}, x_{2}\right)=f_{1}\left(x_{1}\right) f_{2}\left(x_{2} \mid x_{1}\right) \]

其中 \(f_{1}\) 为 \(x_{1}\) 的边缘密度, 而

\[ f_{2}\left(x_{2} \mid x_{1}\right)=f\left(x_{1}, x_{2}\right) / f_{1}\left(x_{1}\right) \]

则是在给定 \(X_{1}=x_{1}\) 的条件下, \(X_{2}\) 的条件密度. 这些公式反映的 实质可推广到任意多个变量的场合: 设有 \(n\) 维随机向量 \(\left(X_{1}, \cdots\right.\), \(\left.X_{n}\right)\), 其概率密度函数为 \(f\left(x_{1}, \cdots, x_{n}\right)\). 则

\[ f\left(x_{1}, \cdots, x_{n}\right)=g\left(x_{1}, \cdots, x_{k}\right) h\left(x_{k+1}, \cdots, x_{n} \mid x_{1}, \cdots, x_{k}\right) \]

其中 \(\mathrm{g}\) 是 \(\left(X_{1}, \cdots, X_{k}\right)\) 的概率密度,而 \(h\) 则是在给定 \(X_{1}=x_{1}, \cdots\), \(X_{k}=x_{k}\) 的条件下, \(X_{k+1}, \cdots, X_{n}\) 的条件概率密度. (3.8) 可视为 (3.6) 的直接推广, 又可视为 \(h\left(x_{k+1}, \cdots, x_{n} \mid x_{1}, \cdots, x_{k}\right)\) 的定义.

例 3.3 设 \(\left(X_{1}, X_{2}\right)\) 服从二维正态分布 \(N\left(a, b, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)\). 求在给定 \(X_{1}=x_{1}\) 的条件下, \(X_{2}\) 的条件密度函数 \(f_{2}\left(x_{2} \mid x_{1}\right)\).

利用公式 (3.7), (2.7) 和 (2.12), 经过简单的计算, 得出

\[ \begin{aligned} f_{2}\left(x_{2} \mid x_{1}\right)= & \frac{1}{\sqrt{2 \pi} \sigma_{2} \sqrt{1-\rho^{2}}} \\ & \cdot \exp \left[-\frac{\left(x_{2}-\left(b+\rho \sigma_{2} \sigma_{1}^{-1}\left(x_{1}-a\right)\right)\right)^{2}}{2\left(1-\rho^{2}\right) \sigma_{2}^{2}}\right] \end{aligned} \]

这正是正态分布 \(N\left(b+\rho \sigma_{2} \sigma_{1}^{-1}\left(x_{1}-a\right), \sigma_{2}^{2}\left(1-\rho^{2}\right)\right)\) 的概率密度 函数 (注意在 (3.9) 式中, \(x_{1}\) 当常数看). 因此,正态变量的条件分 布仍为正态, 这是正态分布的一个重要性质.

如我们在图 \(2.2 b\) 中所显示的, 正态分布 \(N\left(\mu, \sigma^{2}\right)\) 关于 \(\mu\) 点一 对称, \(\mu\) 就是分布的中心位置,对正态分布 (3.9), 这个中心位置在

\[ m\left(x_{1}\right)=b+\rho \sigma_{2} \sigma_{1}^{-1}\left(x_{1}-a\right) \]

处,由这里可以看出 \(\rho\) 刻画了 \(X_{1}, X_{2}\) 之间的相依关系. 其解释如 下: 若 \(\rho>0\), 则随着 \(x_{1}\) 的增加, \(X_{2}\) (在 \(X_{1}=x_{1}\) 之下) 的条件分布 的中心点 \(m\left(x_{1}\right)\) 随 \(x_{1}\) 的增加而增加. 可以看出: 这意味着当 \(x_{1}\) 增加时, \(X_{2}\) 取大值的可能性增加, 即 \(X_{2}\) 有随着 \(X_{1}\) 的增长而增长 的倾向 (如体重与身高的关系那样). 反之, 若 \(\rho0\) 的情况称为 “正相关”, 而 \(\rho



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有