概率空间

样本空间

样本空间(sample space)Ω\Omega 是一个集合,包含一次试验的所有可能结果。

每个 ωΩ\omega \in \Omega 称为一个样本(sample)或基本事件(elementary event)。

离散概率空间

对于离散概率空间(即 Ω\Omega 有限或可数无穷):

  • 概率质量函数(probability mass function, pmfp ⁣:Ω[0,1]p\colon \Omega \to [0, 1] 满足 ωΩp(ω)=1\displaystyle \sum_{\omega \in \Omega} p(\omega) = 1
  • 事件 AΩA \subseteq \Omega概率(probability)定义为 Pr(A)=ωAp(ω)\displaystyle \Pr(A) = \sum_{\omega \in A} p(\omega)。即 Pr ⁣:2Ω[0,1]\Pr\colon 2^\Omega \to [0, 1]

样本空间与事件

事件(event)满足:

  • ,Ω\empty, \Omega 都是事件(称为不可能事件必然事件);
  • AA 是事件,则 AcA^c 也是事件;
  • A1,A2,A_1, A_2, \cdots 是事件,则 iAi\bigcup_i A_i 也是事件。

σ\sigma-代数

Ω\Omega 的子集 Σ2Ω\Sigma \subseteq 2^{\Omega} 称为 σ\sigma-代数σ\sigma-algebra)或 σ\sigma-域σ\sigma-field)满足:

  • Σ\empty \in \Sigma
  • AΣ    AcΣA \in \Sigma \implies A^c \in \Sigma
  • A1,A2,Σ    iAiΣA_1, A_2, \cdots \in \Sigma \implies \bigcup_i A_i \in \Sigma

概率空间的经典例子

  • 古典概型(classic probability):离散均匀分布。对于有限样本空间 Ω\Omega,任意的结果 ωΩ\omega \in \Omega 都有相同的概率。则对于任意事件 AΩA \subseteq \Omega,有 Pr(A)=AΩ\Pr(A) = \dfrac{|A|}{|\Omega|}
  • 几何概型(geometric probability):连续概率空间使得,对于任意事件 AΣA \subset \Sigma,有 Pr(A)=Vol(A)Vol(Ω)\Pr(A) = \dfrac{\operatorname{Vol}(A)}{\operatorname{Vol}(\Omega)}

几何概型的例子有蒲丰投针问题(Buffon's Needle Problem),这个三年前有写过短篇笔记,方法比较粗糙,格式也比较差劲,但作为一段历史还是放在下面。

2021 年 7 月 4 日

下面是课件上的证明,记号有所不同。

记事件 A={(x,y)[0,π]×[0,d2]|yl2sinx}A = \left\lbrace (x, y) \in [0, \pi] \times \left[0, \dfrac{d}{2}\right] \middle| y \le \dfrac{l}{2} \sin x \right\rbrace,则

Pr(A)=Vol(A)Vol(Ω)=2dπ0πl2sinx ⁣dx=2ldπ\begin{aligned} \Pr(A) &= \dfrac{\operatorname{Vol}(A)}{\operatorname{Vol}(\Omega)} \\ &= \dfrac{2}{d \pi} \int_0^{\pi} \dfrac{l}{2} \sin x \d x\\ &= \dfrac{2l}{d \pi} \end{aligned}

概率空间

一般而言,三元组 (Ω,Σ,Pr)(\Omega, \Sigma, \Pr) 称为一个概率空间(probability space),若:

  • Σ2Ω\Sigma \subseteq 2^{\Omega}σ\sigma-代数;
  • 概率测度(probability measure),亦称概率律(probability law),是一个函数 Pr ⁣:Σ[0,1]\Pr\colon \Sigma \to [0, 1] 满足:
    • 归一性/标准化(unitary/normalized):Pr(Ω)=1\Pr(\Omega) = 1
    • σ\sigma-可加性(σ\sigma-additive):若 A1,A2,ΣA_1, A_2, \cdots \in \Sigma 两两互斥(disjoint),则 Pr(iAi)=iPr(Ai)\Pr\left(\bigcup_i A_i\right) = \sum_i \Pr(A_i)

可从上面的概率空间公理推导出以下性质:

  • Pr()=0\Pr(\empty) = 0Pr(A)>0    A\Pr(A) > 0 \implies A \neq \empty);
  • Pr(Ac)=1Pr(A)\Pr(A^c) = 1 - \Pr(A)
  • Pr(A\B)=Pr(A)Pr(AB)\Pr(A \backslash B) = \Pr(A) - \Pr(A \cap B)
  • AB    Pr(A)Pr(B)A \subseteq B \implies \Pr(A) \le \Pr(B)
  • Pr(AB)=Pr(A)+Pr(B)Pr(AB)\Pr(A \cup B) = \Pr(A) + \Pr(B) - \Pr(A \cap B)

仅从上面的叙述似乎感觉不到这个定义的意义所在,下面通过两个例子阐释一下我的理解。

  1. 「任意一个自然数是偶数的概率为 12\dfrac{1}{2}
  2. [0,1][0, 1] 中随机抽取一个实数是有理数的概率为 00
解释

第一个是错误的,甚至是 not even wrong 的。因为无法定义这样的「均匀分布」。

若是要均匀分布,为其中每一个自然数分配一个概率 pp,那么我们有

n=1p=1\sum_{n=1}^\infty p = 1

这显然是不可能的。因此,我们无法定义一个均匀分布在自然数上的概率测度。

第二个是正确的。一开始我还有疑问,为什么这个就不会出现像上面那样,每个数概率为 00,但是和为 11 的无良定义的情况呢?于是我去问了 ChatGPT 得到了满意的答案,下面就是我的理解了:

原因就是上面的概率测度。面对不可数集时,常常使用连续概率分布,这时的概率并不是像之前的例子一样是离散的,在这种情况下,概率分布不是通过单个点的概率来处理,而是通过区间的长度来计算。因此「均匀分布」是有合理的定义在的。

存在不可数的 [0,1][0, 1] 的子集,使得其概率为 00。答案是康托尔集

并集界

并集界(Union bound, 布尔不等式)

对任意事件 A1,A2,,AnΣA_1, A_2, \cdots, A_n \in \Sigma,有

Pr(i=1nAi)i=1nPr(Ai)\Pr\left(\bigcup_{i=1}^n A_i\right) \le \sum_{i=1}^n \Pr(A_i)

Balls into bins 问题

nn 个球随机扔到 nn 个盒中,kk 是盒中球最多的个数,则 kk 高概率(with high probability, w.h.p., 以 1O(1/n)1 - O(1/n) 概率)是 O(lnnlnlnn)O\left( \dfrac{\ln n}{\ln \ln n} \right)

证明

  • 事件 AA:存在盒接受到不少于 kk 个球(kk 是待定常数)
  • 事件 AiA_i:盒-ii 接受到不少于 kk 个球

并集界有

Pr(A)=Pr(i=1nAi)i=1nPr(Ai)1n\Pr(A) = \Pr\left( \bigcup_{i=1}^n A_i \right) \le \sum_{i=1}^n \Pr(A_i) \le \dfrac{1}{n}

因为此时有 Pr(Ac)11n\Pr(A^c) \ge 1 - \dfrac{1}{n}

对于任意 S([n]k)S \in \dbinom{[n]}{k}(其中 [n]={1,2,,n}[n] = \left\lbrace 1, 2, \cdots, n \right\rbrace),记事件 Ai,SA_{i, S} 为盒-ii 接受到的球都是 SS 中的球。则根据并集界有

Pr(Ai)\begin{aligned} \Pr(A_i) \end{aligned}

容斥原理

容斥原理(Principle of Inclusion-Exclusion)

对任意事件 A1,A2,,AnΣA_1, A_2, \cdots, A_n \in \Sigma,有

Pr(i=1nAi)=i=1nPr(Ai)i<jPr(AiAj)+i<j<kPr(AiAjAk)=S{1,2,,n}S(1)S1Pr(iSAi)\begin{aligned} \Pr\left(\bigcup_{i=1}^n A_i\right) &= \sum_{i=1}^n \Pr(A_i) - \sum_{i < j} \Pr(A_i \cap A_j) + \sum_{i < j < k} \Pr(A_i \cap A_j \cap A_k) -\\ &= \sum_{\substack{S \subseteq \left\lbrace 1, 2, \cdots, n \right\rbrace\\ S \ne \empty}} (-1)^{|S| - 1} \Pr\left(\bigcap_{i \in S} A_i\right) \end{aligned}

布尔-邦费罗尼不等式(Boole-Bonferroni inequality)

由布尔不等式可得事件并集的上下界。

对任意事件 A1,A2,,AnΣA_1, A_2, \cdots, A_n \in \Sigma 与任意 k>0k > 0,有

S{1,2,,n}1S2k(1)S1Pr(iSAi)Pr(i=1nAi)S{1,2,,n}1S2k+1(1)S1Pr(iSAi)\sum_{\substack{S \subseteq \left\lbrace 1, 2, \cdots, n \right\rbrace\\ 1 \le |S| \le 2k}} (-1)^{|S| - 1} \Pr\left(\bigcap_{i \in S} A_i\right) \le \Pr\left(\bigcup_{i=1}^n A_i\right) \le \sum_{\substack{S \subseteq \left\lbrace 1, 2, \cdots, n \right\rbrace\\ 1 \le |S| \le 2k+1}} (-1)^{|S| - 1} \Pr\left(\bigcap_{i \in S} A_i\right)

错排问题(Derangement)

随机排列 π ⁣:[n]1-1 onto[n]\pi\colon [n] \xrightarrow{\text{1-1 onto}} [n] 不存在不动点的概率。

解答

AiA_iπ(i)=i\pi(i) = i 的事件,有

Pr(i=1nAi)=k=1nS([n]k)(1)k1Pr(iSAi)=k=1nS([n]k)(1)k1(nS)!n!=k=1n(nk)(1)k1(nk)!n!=k=1n(1)kk!\begin{aligned} \Pr\left( \bigcup_{i=1}^n A_i \right) &= \sum_{k=1}^n \sum_{S \in \binom{[n]}{k}} (-1)^{k-1} \Pr\left( \bigcap_{i \in S} A_i \right)\\ &= \sum_{k=1}^n \sum_{S \in \binom{[n]}{k}} (-1)^{k-1} \dfrac{(n - |S|)!}{n!}\\ &= \sum_{k=1}^n \dbinom{n}{k} (-1)^{k-1} \dfrac{(n-k)!}{n!}\\ &= -\sum_{k=1}^n \dfrac{(-1)^{k}}{k!} \end{aligned}

Pr[π 没有不动点]=Pr(i=1nAic)=1Pr(i=1nAi)=1+k=1n(1)kk!=k=0n(1)kk!1e(n)\begin{aligned} \Pr[\pi \text{ 没有不动点}] &= \Pr\left( \bigcap_{i=1}^n A_i^c \right)\\ &= 1 - \Pr\left( \bigcup_{i=1}^n A_i \right)\\ &= 1 + \sum_{k=1}^n \dfrac{(-1)^{k}}{k!}\\ &= \sum_{k=0}^n \dfrac{(-1)^{k}}{k!}\\ &\to \dfrac{1}{\e}\quad (n \to \infty ) \end{aligned}

概率测度的连续性(continuity of probability measures)*

A1A2A_1 \subseteq A_2 \subseteq \cdots 是一个递增的事件序列,并记 AA 是它们的极限

A=i=1=limnAnA = \bigcup_{i=1}^{\infty } = \lim_{n \to \infty} A_n

于是

Pr(A)=limnPr(An)\Pr(A) = \lim_{n \to \infty} \Pr(A_n)

证明

AA 表示为不相交的并集

A=A1(A2\A1)(A3\A2)A = A_1 \uplus (A_2 \backslash A_1) \uplus (A_3 \backslash A_2) \uplus \cdots

于是

Pr(A)=Pr(A1)+i=1Pr(Ai+1\Ai)=Pr(A1)+limni=1n1[Pr(Ai+1Pr(Ai))]=limnPr(An)\begin{aligned} \Pr(A) &= \Pr(A_1) + \sum_{i=1}^{\infty } \Pr(A_{i+1} \backslash A_i)\\ &= \Pr(A_1) + \lim_{n\to \infty } \sum_{i=1}^{n-1} [\Pr(A_{i+1} - \Pr(A_i))]\\ &= \lim_{n\to \infty } \Pr(A_n) \end{aligned}

类似地,记 B1B2B_1 \supseteq B_2 \supseteq \cdots 是一个递减的事件序列,并记 BB 是它们的极限

B=i=1=limnBnB = \bigcap_{i=1}^{\infty } = \lim_{n \to \infty} B_n

于是

Pr(B)=limnPr(Bn)\Pr(B) = \lim_{n \to \infty} \Pr(B_n)

证明

考虑它们的补集 BncB_n^c,有 B1cB2cB_1^c \subseteq B_2^c \subseteq \cdots,于是这是一个递增的事件序列,根据上面的结论得证。

几乎从不和几乎必然事件*

  • 一个事件 AΣA \in \Sigma 称为 null(几乎从不),若 Pr(A)=0\Pr(A) = 0
    • null 事件并不一定是 impossible(不可能) 事件 \empty
  • 一个事件 AΣA \in \Sigma almost sure(a.s.,几乎必然) 发生,若 Pr(A)=1\Pr(A) = 1
    • 一个事件 a.s. 发生 事件并不一定是 certain(必然) 事件 Ω\Omega
  • 一个概率空间称为 complete,若 Σ\Sigma 包含所有 null 事件的补集。
    • 不失一般性,我们仅考虑 complete 概率空间(因为若考虑 incomplete 的,可以将其 complete 而不改变其概率)