随机变量及其分布

发布于 16 天前  4 次阅读


随机变量及其分布

——数学选修 2-3 第二章

[TOC]

离散型随机变量

首先明确,随机变量(\text{discrete random variable})到底是什么东西?

随机变量是一种 (事件 \rightarrow 值) 的映射,常用字母 X, Y, \xi, \eta 来表示。而本章研究的离散,是只取有限个值1。而形如:

X x_1 x_2 x_3
P p_1 p_2 p_3

表格被称作随机变量 X 的概率分布列。也可用等式
P(X = x_i) = p_i, i = 1, 2, 3, \cdots , n
来表示 X 的分布列。

离散型随机变量的分布列满足性质。p_i \ge 0, i = 1, 2, \cdots, n\sum{p_i} = 1

知道了有关分布列的性质,看一个简单的例题。

ep1

有一盒子,3 颗球,其中有 1 颗白球。

每次取一球,不放回,直到取到白球为止,设 X 为取球次数,求 X 的分布列。

第一次取到的概率,P(X = 1) = \frac{1}{3}。而第二次取到的概率是,P(X = 2) = \frac{2}{3} \times \frac{1}{2} = \frac{1}{3}。第三次取到的概率是,前两次都没取到,P(X = 3) = \frac{2}{3} \times \frac{2}{1} = \frac{1}{3}

X 1 2 3
P \frac{1}{3} \frac{1}{3} \frac{1}{3}

\sum{p_i} = 1。满足分布列。

变形一下。

每次取一球,放回,直到取到白球为止,设 X 为取球次数,求 X 的分布列。

这个倒是简单,P(X = i) = \frac{2}{3}^{i - 1} \times \frac{1}{3}, i = 1, 2, 3, \cdots, n

注意,\sum{p_i} 就是 1\lim\limits_{n \to \infty}f(n) = \frac{1}{3} \times \frac{1 - \frac{2}{3}^n}{1 - \frac{2}{3}} = 1

再变式一下,每次取一球,放回,直到取到白球为止,但次数 \le 5,求 X 的分布列。

问题就来了,次数 \le 5 的问题怎么解决?不,问题就在 P(X=5)上。当 X = 5,可能是真好取到白球,也可能是都没取到,这两者都满足限制条件,于是 P(X = 5) = \frac{2^4}{3^5} + \frac{2}{3}^5。当然,也可以用 1 - \sum_{i = 1}^{4}{p_i},也就是 \frac{2}{3}^4

分布列我就懒的画了。

离散型随机变量的均值和方差

啥啥分布的一会儿再谈。我们先看一些统计学问题。

首先,离散型随机变量的均值是啥?一个均值。随机变量 X 的期望用 E(X) 来表示,E(X) = \sum{x_ip_i}

期望有性质 E(Y = ax_i + b) = P(X = x_i), i = 1, 2, 3, \cdots, n,则 E(aX + b) = aE(X) + b

稍等,我们来看一个例题。

ep2

(2017・课标全国三,理)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶 4 元,售价每瓶 6 元,未售出的酸奶降价处理,以每瓶 2 元的价格当天全部处理完。根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关、如果最高气温不低于 25 ,需求量为 500 瓶。如果最高气温位于区间 [20, 25),需求量为 300 瓶;如果最高气温低于 20,需求量为 200 瓶。为了确定本目份的订购计划,统计了前三年六月份各天的最高气温数,得下面的频数分布表:

最高气温 [10, 15) [15, 20) [20, 25) [25, 30) [30, 35) [35,40)
天数 2 16 36 25 7 4

以最高气温位于各区间的频率代替最高气温位于该区间的概率。

(1)求六月份这种酸奶一天的需求量 X(单位:瓶)的分布列;
(2)设六月份一天销售这种酸奶的利润为 Y(单位:元)。当六月份这种酸奶一天的进货量 n(单位:瓶)为多少时,Y 的数学期望达到最大值?

先来看第一问,后面的都是正式考试的书写过程。

(1) X 的取值可能是 200, 300, 500。

每天需求量是 200 时,P(X = 200) = \frac{18}{90} = \frac{1}{5}

每天需求量是 300 时,P(X = 300) = \frac{36}{90} = \frac{2}{5}

每天需求量是 500 时,P(x = 500) = \frac{36}{90} = \frac{2}{5}

所以 X 的分布列是:

X 200 300 500
P \frac{1}{5} \frac{2}{5} \frac{2}{5}

(2)当需求量气温 \le 20,需求量 X = 200 时,进货 x = 200 瓶。需求量 X = 500 时,进货量 n = 500 最划算。无论如何,不可能超出此区间,则 n \in [200, 500]。(这部分的正确性证明可能复杂一点,不过考场上可能不需要)

n \in [200, 300) 时,有最高温 < 20 时,Y = 800 - 2n,最高温 \ge 20 时,Y = 2n

于是期望 E(X) = \frac{800 - 2n}{5} + \frac{4 \cdot (2n)}{5}

n \in [300, 500]时,有最高气温 < 20 时,Y = 800 - 2n,最高温 \in [20, 25)时,Y = 1200 - 2n,最高温 \ge 25 时,Y = 2n

于是期望为 E(X) = \frac{800 - 2n}{5} + \frac{2 \cdot (1200 - 2n)}{5} + \frac{2 \cdot 2n}{5}
E(X) = \begin{cases} \frac{800 - 2n}{5} + \frac{4 \cdot (2n)}{5}, & n \in [200, 300) \\ \frac{800 - 2n}{5} + \frac{2 \cdot (1200 - 2n)}{5} + \frac{2 \cdot 2n}{5}, & n \in [300, 500] \end{cases}
得到 X = 300 时,E(X) = 520

答:在进货量为 300 时,利润 Y 的数学期望达到最大值 520。

然后我们来看随机变量的方差。方差存在的目的是反映样本数据和样本平均值的偏移程度,用于刻画样本数据的稳定性。

方差公式的描述如下:
D(X) = \sum{(x_i - E(x))^2p_i}
而其算术平方根 \sqrt{D(X)} 被称作标准差。

对于方差有推广结论:
D(aX + b) = a^2D(x)
证明如下:

Y = aX + b,则:
\begin{aligned} D(Y) &= \sum{(ax_i + b - (aE(x) + b))^2p_i} \\ &= \sum{(a^2(x_i - E(X))^2)p_i} \\ &=a^2D(X) \end{aligned}

分布类型

伯努利分布

这个伯努利不是伯努利原理那个。

伯努利分布指,伯努利实验成功,则随机变量为 1,失败则为 0。记其成功的概率为 p(0 \le p \le 1),失败的概率则为 1 - p

伯努利分布的期望 E(X)p,方差为 D(X) = (1 - p)^2p + (0 - p)^2(1 - p) = p(1 - p)

超几何分布

从含 M 件次品的 N 件产品中抽取 n 件,其中恰好有 X 件次品,求 X 的分布列。注意并没有放回。
P(X = k) = \frac{\binom{M}{k}\binom{N - M}{n - k}}{\binom{N}{n}}
如果 n = 1,则超几何分布为伯努利分布(抽到次品与没有抽到次品)。

超几何分布的记号为 X \sim H(n, K, N)


  1. https://zh.wikipedia.org/wiki/%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83 ↩︎

WHO YOU ARE