离散概率

离散概率分析

概率分析四步法:

  1. 选定样本空间(Find the sample space)
  2. 定义相关事件(Define events of interests)
  3. 确定结果概率(Determine outcome probabilities)
  4. 计算事件概率(Compute event probabilities)

选定样本空间

样本空间是所有可能结果的集合。

定义相关事件

事件是样本空间的一个子集。

概率的定义

古典概率(Laplacian probability):对于结果具有相同可能性的有限样本空间 S\mathcal{S} 及其一个事件 EE,则称事件 EE 的概率为

P(E)=ESP(E) = \frac{|E|}{|\mathcal{S}|}

频率主义的概率(frequentist probability):定义事件 EE 的概率为

P(E)=limnnEnP(E) = \lim_{n \to \infty} \frac{n_E}{n}

伯特兰悖论(Bertrand's paradox):对于一个圆上的随机弦,其长度的概率分布是不确定的。

随机端点:2πr32πr=13\dfrac{\frac{2 \pi r}{3}}{2 \pi r} = \dfrac{1}{3}

随机弦:r2r=12\dfrac{\frac{r}{2}}{r} = \dfrac{1}{2}

随机中点:π(r2)2πr2=14\dfrac{\pi \left(\frac{r}{2}\right)^2}{\pi r^2} = \dfrac{1}{4}

其原因在于「随机」的定义不明确,从而使样本空间不确定。

基于集合论的概率

基于集合论的概率定义

可数样本空间 S\mathcal{S} 是一个可数集合,S\mathcal{S} 的每一个元素 ω\omega 称为一个结果

满足下列条件的函数 Pr ⁣:SR\Pr\colon \mathcal{S} \to \R 称为样本空间 S\mathcal{S} 上的一个概率函数

  • 非负性:对于任意 ωS\omega \in \mathcal{S},有 Pr[ω]0\Pr[\omega] \ge 0
  • 规范性:ωSPr[ω]=1\displaystyle \sum_{\omega \in \mathcal{S}} \Pr[\omega] = 1

样本空间 S\mathcal{S} 的一个子集 ESE \subseteq \mathcal{S} 称为一个事件。事件 EE概率定义为 Pr[E]=ωEPr[ω]\Pr[E] = \displaystyle \sum_{\omega \in E} \Pr[\omega][1]

基于集合论的概率计算

EE 是样本空间 S\mathcal{S} 的一个事件,EE补事件 Eˉ\bar{E} 的概率定义为 Pr[Eˉ]=1Pr[E]\Pr[\bar{E}] = 1 - \Pr[E]

E1,E2E_1, E_2 是样本空间 S\mathcal{S} 的两个事件,E1E2E_1 \cup E_2 的概率定义为 Pr[E1E2]=Pr[E1]+Pr[E2]Pr[E1E2]\Pr[E_1 \cup E_2] = \Pr[E_1] + \Pr[E_2] - \Pr[E_1 \cap E_2]

假设 S\mathcal{S} 是一个含 nn 个元素的样本空间,均匀分布(Uniform Distribution)赋给 S\mathcal{S} 中的每一个元素的概率都是 1n\dfrac{1}{n}

条件概率

E,FE, F 为事件,且 Pr[F]>0\Pr[F] > 0,则 EE 在事件 FF 发生的条件下条件概率(Conditional Probability)定义为 Pr[EF]=Pr[EF]Pr[F]\Pr[E \mid F] = \dfrac{\Pr[E \cap F]}{\Pr[F]}

贝叶斯定理

贝叶斯定理

E,FE, F 是样本空间 S\mathcal{S} 中的事件,且 Pr[E],Pr[F]0\Pr[E], \Pr[F] \ne 0,则

Pr[EF]=Pr[FE]Pr[E]Pr[F]=Pr[FE]Pr[E]Pr[FE]Pr[E]+Pr[FEˉ]Pr[Eˉ]\begin{aligned} \Pr[E \mid F] &= \dfrac{\Pr[F \mid E] \Pr[E]}{\Pr[F]} \\ &= \dfrac{\Pr[F \mid E] \Pr[E]}{\Pr[F \mid E] \Pr[E] + \Pr[F \mid \bar{E}] \Pr[\bar{E}]} \end{aligned}


证明:

由条件概率,有

Pr[EF]Pr[E]=Pr[EF]=Pr[FE]=Pr[FE]Pr[E]\begin{aligned} \Pr[E \mid F] \Pr[E] &= \Pr[E \cap F]\\ &= \Pr[F \cap E]\\ &= \Pr[F \mid E] \Pr[E] \end{aligned}

Pr[F]=Pr[(EF)(EˉF)]=Pr[EF]+Pr[EˉF]=Pr[FE]Pr[E]+Pr[FEˉ]Pr[Eˉ]\begin{aligned} \Pr[F] &= \Pr[(E \cap F) \cup (\bar{E} \cap F)]\\ &= \Pr[E \cap F] + \Pr[\bar{E} \cap F]\\ &= \Pr[F \mid E] \Pr[E] + \Pr[F \mid \bar{E}] \Pr[\bar{E}] \end{aligned}

  • Pr[A]\Pr[A]AA先验概率(Prior Probability),因为它是在考虑任何新证据(BB)之前的概率
  • Pr[AB]\Pr[A \mid B] 是已知 BB 发生后 AA后验概率(Posterior Probability)
  • Pr[BA]\Pr[B \mid A] 是已知 AA 发生后 BB 的后验概率
  • Pr[B]\Pr[B]BB 的先验概率,也作标准化常量(Normalizing Constant)

贝叶斯定理在罕见病的例子,可以见 3Blue1Brown[2] 视频:医检阳性≠得了病?重新理解贝叶斯定理

事件独立性

事件 E,FE, F独立的,当且仅当 Pr[EF]=Pr[E]Pr[F]\Pr[E \cap F] = \Pr[E] \cdot \Pr[F]

随机变量、期望和方差

随机变量

随机变量

一个随机变量 XX 是一个定义域为样本空间 S\mathcal{S} 的函数。

其伴域可为任意非空集合,但通常取为实数集 R\R,即 X ⁣:SRX\colon \mathcal{S} \to \R

随机变量既不「随机」,也非「变量」,而是一个函数。[3]

随机变量的分布

XX 是样本空间 S\mathcal{S} 上的一个随机变量,XX分布(Distribution)是形如 (r,Pr[X=r])(r, \Pr[X = r]) 的二元组集合,其中 rX(S)r \in X(\mathcal{S})Pr[X=r]\Pr[X = r]XX 取值为 rr 的概率。

期望

期望

XX 是样本空间 S\mathcal{S} 上的一个随机变量,XX期望(Expectation)定义为[1]

E[X]=ωSX(ω)Pr[ω]\mathbb{E}[X] = \sum_{\omega \in \mathcal{S}} X(\omega) \cdot \Pr[\omega]


  1. 课件用的是 Ex\operatorname{Ex} \operatorname{Ex},太长了,也懒得加宏了,就用 E\mathbb{E} \mathbb{E}(这个有 snippets 加持),也是高中时用的吧。 ↩︎

X(ω)E[X]X(\omega) - \mathbb{E}[X] 称为 XXω\omega 处的偏差(Deviation)。

显然有

E[1X]1E[X]\mathbb{E}\left[\dfrac{1}{X}\right] \ne \dfrac{1}{\mathbb{E}[X]}

等价定义:

E[X]=xX(S)xPr[X=x]\mathbb{E}[X] = \sum_{x \in X(\mathcal{S})} x \cdot \Pr[X = x]

因为有

E[X]=ωSX(ω)Pr[ω]=xX(S)ω[X=x]X(ω)Pr[ω]=xX(S)ω[X=x]xPr[ω]=xX(S)x(ω[X=x]Pr[ω])=xX(S)xPr[X=x]\begin{aligned} \mathbb{E}[X] &= \sum_{\omega \in \mathcal{S}} X(\omega) \cdot \Pr[\omega]\\ &= \sum_{x \in X(\mathcal{S})} \sum_{\omega \in [X = x]} X(\omega) \cdot \Pr[\omega]\\ &= \sum_{x \in X(\mathcal{S})} \sum_{\omega \in [X = x]} x \cdot \Pr[\omega]\\ &= \sum_{x \in X(\mathcal{S})} x \cdot \left(\sum_{\omega \in [X = x]} \Pr[\omega]\right)\\ &= \sum_{x \in X(\mathcal{S})} x \cdot \Pr[X = x] \end{aligned}

条件期望

给定随机变量 RRRR 在已知事件 AA 条件下的期望值是 RRAA 中结果上的取值的概率加权平均值,即

E[RA]=rR(S)rPr[R=rA]\mathbb{E}[R \mid A] = \sum_{r \in R(\mathcal{S})} r \cdot \Pr[R = r \mid A]

全期望公式

RR 为样本空间 S\mathcal{S} 上的一个随机变量,且 S\mathcal{S} 可以分解为一系列互斥事件 A1,A2,A_1, A_2, \cdots,则

E[R]=iE[RAi]Pr[Ai]\mathbb{E}[R] = \sum_{i} \mathbb{E}[R \mid A_i] \cdot \Pr[A_i]

期望的线性性质:

  • E[i=1nXi]=i=1nE[Xi]\displaystyle \mathbb{E}\left[\sum_{i=1}^{n}X_i\right] = \sum_{i=1}^{n}\mathbb{E}[X_i]
  • E[aX+b]=aE[X]+b\mathbb{E}[aX + b] = a\mathbb{E}[X] + b

独立随机变量

样本空间 S\mathcal{S} 上的随机变量 X,YX, Y独立的,当且仅当对于所有 xX(S)x \in X(\mathcal{S})yY(S)y \in Y(\mathcal{S}),有 Pr[X=xY=y]=Pr[X=x]Pr[Y=y]\Pr[X = x \land Y = y] = \Pr[X = x] \cdot \Pr[Y = y]

对于样本空间 S\mathcal{S}独立的随机变量 X,YX, Y,有 E[XY]=E[X]E[Y]\mathbb{E}[XY] = \mathbb{E}[X] \cdot \mathbb{E}[Y]

方差

方差

XX 是样本空间 S\mathcal{S} 上的一个随机变量,XX方差(Variance)定义为[1]

V[X]=E[(XE[X])2]\mathbb{V}[X] = \mathbb{E}\left[(X - \mathbb{E}[X])^2\right]

即方差是「随机变量 XXω\omega 处偏差的平方的加权平均值」。


  1. 一样的,课件用的是 Var\operatorname{Var} \operatorname{Var},我还是用 V\mathbb{V} \mathbb{V}…当然其实还能用 σ2\sigma^2 \sigma^2 等。 ↩︎

标准差

随机变量 XX标准差(Standard Deviation)定义为 V[X]\sqrt{\mathbb{V}[X]},记作 σX\sigma_Xσ(X)\sigma(X)

样本空间 S\mathcal{S} 上的随机变量 XX 的方差有

V[X]=E[X2]E[X]2\mathbb{V}[X] = \mathbb{E}[X^2] - \mathbb{E}[X]^2

  • 对于样本空间 S\mathcal{S} 上的两两独立随机变量 X1,X2,XnX_1, X_2, \cdots X_n,有 V[i=1nXi]=i=1nV[Xi]\displaystyle \mathbb{V}\left[\sum_{i=1}^{n}X_i\right] = \sum_{i=1}^{n}\mathbb{V}[X_i]
  • V[aX+b]=a2V[X]\mathbb{V}[aX + b] = a^2\mathbb{V}[X]

Bienaymé 公式

对样本空间 S\mathcal{S}独立的随机变量 X,YX, Y 有:

V[X+Y]=V[X]+V[Y]\mathbb{V}[X + Y] = \mathbb{V}[X] + \mathbb{V}[Y]

并推广到 nn 个独立随机变量的情况:

V[i=1nXi]=i=1nV[Xi]\mathbb{V}\left[\sum_{i=1}^n X_i\right] = \sum_{i=1}^n \mathbb{V}[X_i]


  1. 课件用的是 =\Coloneqq \Coloneqq,我比较懒,反正也没歧义……下同。 ↩︎

  2. 3B 一出来,Copilot 就有提示了。 ↩︎

  3. lf 好像提到过?似乎要与「随机事件」区分开来? ↩︎