独立性

半英文授课(课件全英文,专有名词也是讲英文),因此一些不好翻译的专有名词以 English (中文) 形式出现;一些可能翻错的词语在后面补充原词,即 词语(phrase);一些难以翻译的句子在后面给出原文,即 句子(sentence)

后面可能也难以维持,而也像另一个也带有「数据」的课程一样,改成英文笔记。

独立性

两个事件的独立性

BB 的发生对于 AA 的发生没有影响,即 Pr(AB)=Pr(A)\Pr(A \mid B) = \Pr(A),则称事件 AA 与事件 BB 独立AA is said to be independent of BB)。

两个事件 A,BA, B 独立

Pr(AB)=Pr(A)Pr(B)\Pr(A \cap B) = \Pr(A) \Pr(B)

命题:

  • Pr(B)>0\Pr(B) > 0,则 Pr(AB)=Pr(A)    Pr(AB)=Pr(A)Pr(B)\Pr(A \mid B) = \Pr(A) \iff \Pr(A \cap B) = \Pr(A) \Pr(B)
  • Pr(AB)=Pr(A)Pr(B)    Pr(ABc)=Pr(A)Pr(Bc)\Pr(A \cap B) = \Pr(A) \Pr(B) \iff \Pr(A \cap B^c) = \Pr(A) \Pr(B^c)

多个事件的独立性

一个事件的集合(family){AiiI}\left\lbrace A_i \mid i \in I \right\rbrace 称为 (相互)独立如果对于所有有限子集 JIJ \subseteq I,有

Pr(iJAi)=iJPr(Ai)\Pr\left(\bigcap_{i \in J} A_i\right) = \prod_{i \in J} \Pr(A_i)

一个事件 AA 称为与一个事件的集合 {BiiI}\left\lbrace B_i \mid i \in I \right\rbrace(相互)独立,如果对于所有互斥的有限子集 J+JIJ^{+},J^{-} \subseteq I,有

Pr(A)=Pr(AiJ+BiiJBic)\Pr(A) = \Pr\left(A \Biggm| \bigcap_{i \in J^{+}} B_i \cap \bigcap_{i \in J^{-}} B_i^c\right)

给定事件集合 A={AiiI}\mathscr{A} = \left\lbrace A_i \mid i \in I\right\rbrace,有下面表述等价:

  1. 对任意 eIe \in IJ=I{e}J = I \setminus \left\lbrace e \right\rbrace 都有 Pr(AeiJ+AiiJAic)=Pr(Ae)\displaystyle \Pr\left( A_e \Biggm| \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) = \Pr(A_e),其中 J+,JJ^{+}, J^{-}JJ 任意两个互斥子集,且 J+J=JJ^{+} \cup J^{-} = J
  2. 对任意 JIJ \subseteq I,有 Pr(iJAi)=iJPr(Ai)\displaystyle \Pr\left( \bigcap_{i \in J} A_i \right) = \prod_{i \in J} \Pr(A_i)
证明

先证明 1.     \implies 2.:

即对于任意 eIe \in IJ=I{e}J = I \setminus \{ e \},有

Pr(AeiJ+AiiJAic)=Pr(Ae)\Pr\left( A_e \Biggm| \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) = \Pr(A_e)

使用数学归纳法。当 J=1|J| = 1 时,显然成立。假设对于所有 J=k|J| = k 的子集,也成立。

考虑 J=k+1|J| = k + 1 的情况。设 J={i1,i2,,ik+1}J = \{ i_1, i_2, \dots, i_{k+1} \},并令 J=J{ik+1}J' = J \setminus \{ i_{k+1} \},有

Pr(Aik+1iJAi)=Pr(Aik+1)\Pr\left( A_{i_{k+1}} \Biggm| \bigcap_{i \in J'} A_i \right) = \Pr(A_{i_{k+1}})

因此

Pr(iJAi)=Pr(Aik+1iJAi)Pr(iJAi)=Pr(Aik+1)iJPr(Ai)=iJPr(Ai)\begin{aligned} \Pr\left( \bigcap_{i \in J} A_i \right) &= \Pr\left( A_{i_{k+1}} \Biggm| \bigcap_{i \in J'} A_i \right) \cdot \Pr\left( \bigcap_{i \in J'} A_i \right) \\ &= \Pr(A_{i_{k+1}}) \cdot \prod_{i \in J'} \Pr(A_i) \\ &= \prod_{i \in J} \Pr(A_i) \end{aligned}

得证。


再证明 2.     \implies 1.:

即对于任意 JIJ \subseteq I,有

Pr(iJAi)=iJPr(Ai)\Pr\left( \bigcap_{i \in J} A_i \right) = \prod_{i \in J} \Pr(A_i)

要证明对于任意 eIe \in IJ=I{e}J = I \setminus \{ e \},有

Pr(AeiJ+AiiJAic)=Pr(Ae)\Pr\left( A_e \Biggm| \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) = \Pr(A_e)

其中 J+J^{+}JJ^{-}JJ 任意两个互斥子集,且 J+J=JJ^{+} \cup J^{-} = J

条件概率有

Pr(AeiJ+AiiJAic)=Pr(AeiJ+AiiJAic)Pr(iJ+AiiJAic)\Pr\left( A_e \Biggm| \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) = \frac{\Pr\left( A_e \cap \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right)}{\Pr\left( \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right)}

根据 2. 有

{Pr(AeiJ+AiiJAic)=Pr(Ae)iJ+Pr(Ai)iJPr(Aic)Pr(iJ+AiiJAic)=iJ+Pr(Ai)iJPr(Aic)\left\lbrace\begin{aligned} \Pr\left( A_e \cap \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) &= \Pr(A_e) \cdot \prod_{i \in J^{+}} \Pr(A_i) \cdot \prod_{i \in J^{-}} \Pr(A_i^c)\\ \Pr\left( \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) &= \prod_{i \in J^{+}} \Pr(A_i) \cdot \prod_{i \in J^{-}} \Pr(A_i^c) \end{aligned}\right.

因此

Pr(AeiJ+AiiJAic)=Pr(Ae)iJ+Pr(Ai)iJPr(Aic)iJ+Pr(Ai)iJPr(Aic)=Pr(Ae)\Pr\left( A_e \Biggm| \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) = \frac{\Pr(A_e) \cdot \prod_{i \in J^{+}} \Pr(A_i) \cdot \prod_{i \in J^{-}} \Pr(A_i^c)}{\prod_{i \in J^{+}} \Pr(A_i) \cdot \prod_{i \in J^{-}} \Pr(A_i^c)} = \Pr(A_e)

得证。

Product Probability Space (积概率空间)

概率空间由一系列独立实验构成。

考虑离散概率空间 (Ω1,p1),(Ω2,p2),,(Ωn,pn)(\Omega_1, p_1),\, (\Omega_2, p_2),\, \cdots,\, (\Omega_n, p_n)product probability space(积概率空间)被定义为

  • 样本空间 Ω=Ω1×Ω2××Ωn\Omega = \Omega_1 \times \Omega_2 \times \cdots \times \Omega_n
  • ω=(ω1,ω2,,ωn)Ω ⁣:pmfp(ω)=p1(ω1)p2(ω2)pn(ωn)\forall \omega = (\omega_1, \omega_2, \cdots, \omega_n) \in \Omega\colon \operatorname{pmf} p(\omega) = p_1(\omega_1) p_2(\omega_2) \cdots p_n(\omega_n)(pmf 即「概率质量函数」)

对于一般(general)的概率空间 (Ω1,Σ1,Pr1),,(Ωn,Σn,Prn)(\Omega_1, \Sigma_1, \Pr_1), \cdots, (\Omega_n, \Sigma_n, \Pr_n),product probability space (Ω,Σ,Pr)(\Omega, \Sigma, \Pr) 可以被类似地构造。

其中 Σ\Sigma 是唯一的(unique)最小 σ\sigma-代数,使得其包括(contain)Σ1××Σn\Sigma_1 \times \cdots \times \Sigma_n,同时概率测度 Pr\Pr 是一个在 Σ\Sigma 上的自然拓展(the law Pr\Pr is a natural extension onto such Σ\Sigma from the product probabilities):

A=A1××AnΣ ⁣:Pr(A)=Pr1(A1)Prn(An)\forall A = A_1 \times \cdots \times A_n \in \Sigma\colon \Pr(A) = \Pr\nolimits_1(A_1) \cdots \Pr\nolimits_n(A_n)

有限独立性(Limited Independence)

成对独立(Pairwise Independence)

一个事件的集合 {AiiI}\left\lbrace A_i \mid i \in I \right\rbrace 称为 成对独立(pairwise independent),如果对于所有不同的 i,jIi, j \in I,有

Pr(AiAj)=Pr(Ai)Pr(Aj)\Pr(A_i \cap A_j) = \Pr(A_i) \Pr(A_j)

类似地可定义 k-wise Independence

一个事件的集合 {AiiI}\left\lbrace A_i \mid i \in I \right\rbrace 称为 kk-wise 独立kk-wise independent),如果对于所有不同的 i1,i2,,ikIi_1, i_2, \cdots, i_k \in I,有

Pr(i=1kAi)=i=1kPr(Ai)\Pr\left(\bigcap_{i=1}^{k} A_{i}\right) = \prod_{i=1}^{k} \Pr(A_{i})

(相互)独立一定是成对独立,但反之不一定成立。

triply independent 不一定是 pairwise independent。

Error Reduction (one-sided case)

对于 decision problem f ⁣:{0,1}{0,1}f\colon \left\lbrace 0, 1 \right\rbrace^{*} \to \left\lbrace 0, 1 \right\rbrace ,蒙特卡罗(Monte Carlo)随机算法 A\mathscr{A} 有 one-sided error:

  • x{0,1} ⁣:f(x)=1    A(x)=1\forall x \in \left\lbrace 0, 1 \right\rbrace^{*}\colon f(x) = 1 \implies \mathscr{A}(x) = 1
  • x{0,1} ⁣:f(x)=0    Pr[A(x)=0]p\forall x \in \left\lbrace 0, 1 \right\rbrace^{*}\colon f(x) = 0 \implies \Pr[\mathscr{A}(x) = 0] \ge p

An\mathscr{A}^n独立运行 A\mathscr{A} nn 次,输出结果的 \land (即「与」),因为

f(x)=0    Pr[An(x)=1](1p)nf(x) = 0 \implies \Pr[\mathscr{A}^n(x) = 1] \le (1 - p)^n

为将 one-sided error 减小到 ε\varepsilon,大致需要重复 n1pln1εn \approx \dfrac{1}{p} \ln \dfrac{1}{\varepsilon} 次。

Binomial Probability (二项概率)

考虑 nn 个独立抛掷硬币实验,每个硬币正面朝上相互独立,且概率为 pp

我们称我们有一系列(sequence)伯努利实验(Bernoulli trials),其中每个实验成功(succeed)的概率为 pp

Binomial Probability (二项概率) p(k)p(k) 定义为 nn 次实验中成功 kk 次的概率:

p(k)=S([n]k)Pr(iS ⁣:第 i 次成功)Pr(i[n]\S ⁣:第 i 次失败)=S([n]k)pS(1p)nS=(nk)pk(1p)nk\begin{aligned} p(k) &= \sum_{S \in \binom{[n]}{k}} \Pr(\forall i \in S\colon \text{第 $i$ 次成功}) \Pr(\forall i \in [n] \backslash S\colon \text{第 $i$ 次失败}) \\ &= \sum_{S \in \binom{[n]}{k}} p^{|S|} (1 - p)^{n - |S|} \\ &= \dbinom{n}{k} p^k (1 - p)^{n - k} \end{aligned}

p(k)p(k) 是在 Ω={0,1,,n}\Omega = \left\lbrace 0, 1, \cdots, n \right\rbrace 良定义的概率密度函数,即 k=0np(k)=1\displaystyle \sum_{k=0}^{n} p(k) = 1(二项式定理)。

如何操纵 2024 美国大选?假设在一个社会上有 nn 个独立随机投票的选民,需要大概多少人才能以 t=95%t = 95\% 的概率操纵选举(假设只有两个候选人)?

下面推导用硬币的 HEAD 和 TAIL 替代(因为想不到合适的词):

Pr[HEADsTAILst]=Pr[HEADsn2t2]+Pr[HEADsn2+t2]=knt2(nk)2n+kn+t2(nk)2n=21nknt2(nk)21n+nH(12t2n)2exp(t2n)\begin{aligned} \Pr[|\text{HEADs} - \text{TAILs}| \ge t] &= \Pr\left[\text{HEADs} \le \tfrac{n}{2} - \tfrac{t}{2}\right] + \Pr\left[\text{HEADs} \ge \tfrac{n}{2} + \tfrac{t}{2}\right] \\ &= \sum_{k \le \frac{n-t}{2}} \dbinom{n}{k} 2^{-n} + \sum_{k \ge \frac{n+t}{2}} \dbinom{n}{k} 2^{-n} \\ &= 2^{1-n} \sum_{k \le \frac{n-t}{2}} \dbinom{n}{k}\\ &\le 2^{1-n+nH(\frac{1}{2} - \frac{t}{2n})}\\ &\approx 2 \exp\left(-\tfrac{t^2}{n}\right) \end{aligned}

t2nt \ge 2 \sqrt{n} 时有 Pr[HEADsTAILst]0.05\Pr[|\text{HEADs} - \text{TAILs}| \ge t] \le 0.05

Error Reduction (two-sided case)

对于 decision problem f ⁣:{0,1}{0,1}f\colon \left\lbrace 0, 1 \right\rbrace^{*} \to \left\lbrace 0, 1 \right\rbrace ,蒙特卡罗(Monte Carlo)随机算法 A\mathscr{A} 有 two-sided error:

  • x{0,1} ⁣:f(x)=1    Pr[A(x)=f(x)]12+p\forall x \in \left\lbrace 0, 1 \right\rbrace^{*}\colon f(x) = 1 \implies \Pr[\mathscr{A}(x) = f(x)] \ge \dfrac{1}{2} + p

An\mathscr{A}^n独立运行 A\mathscr{A} nn 次,输出 nn 次结果的「多数」(majority),因为

Pr[An(x)f(x)]k<n2(nk)(12+p)k(12p)nkexp(np2)\Pr[\mathscr{A}^n(x) \ne f(x)] \le \sum_{k < \frac{n}{2}} \dbinom{n}{k} \left( \dfrac{1}{2} + p \right)^{k} \left( \dfrac{1}{2} - p \right)^{n - k} \textcolor{FF0099}{\le \exp(-np^2)}

n1p2ln1εn \ge \dfrac{1}{p^2} \ln \dfrac{1}{\varepsilon} 时有 Pr[An(x)f(x)]ε\Pr[\mathscr{A}^n(x) \ne f(x)] \le \varepsilon

彩色部分如何计算?集中不等式(concentration inequality)。暂略。

条件独立性(Conditional Independence)

两个事件 A,BA, B 在给定事件 CCPr(C)>0\Pr(C) > 0)下条件独立(conditionally independent),如果

Pr(ABC)=Pr(AC)Pr(BC)\Pr(A \cap B \mid C) = \Pr(A \mid C) \Pr(B \mid C)

Pr(BC)>0\Pr(B \cap C) > 0,则 Pr(ABC)=Pr(AC)Pr(BC)    Pr(ABC)=Pr(AC)\Pr(A \cap B \mid C) = \Pr(A \mid C) \Pr(B \mid C) \iff \Pr(A \mid B \cap C) = \Pr(A \mid C)

两个独立事件可能并不是条件独立的。两个非独立事件可能是条件独立的。

例如:

  1. 第一个例子:显然 A,BA, B 独立,但不条件独立。
    • AA:第一个硬币 HEAD
    • BB:第二个硬币 HEAD
    • CC:两个硬币结果不同
  2. 第二个例子:AAAA 在给定 AA 的情况下是条件独立的,但 AAAA 并不一定独立。

例子

布隆过滤器(Bloom Filter)是一种空间效率高的概率型数据结构,用于检测一个元素是否在一个集合中。

假设数据集 SUS \subseteq U,大小为 nn,决定查询 xUx \in U 是否在 SS 当中。

采用布隆过滤器这个数据结构。设一个字节数组(bit array)A{0,1}mA \in \left\lbrace 0, 1 \right\rbrace^m,其被初始化为全 00

kk 个均匀独立(uniform & independent)哈希函数 h1,,hk ⁣:U[m]h_1, \cdots, h_k\colon U \to [m]。对于任意 xiSx_i \in S,将 A[h1(xi)],,A[hk(xi)]A[h_1(x_i)], \cdots, A[h_k(x_i)] 置为 11

查询时,若 A[h1(x)],,A[hk(x)]A[h_1(x)], \cdots, A[h_k(x)] 均为 11,则返回 xSx \in S;否则返回 xSx \notin S

xSx \in S 时,查询结果一定是正确的;当 xSx \notin S 时,查询结果可能误报(false positive)。对这种可能进行概率分析:

Pr[1jk ⁣:A[hj(x)]=1]=(Pr[A[hj(x)]=1])k=(1Pr[A[hj(x)]=0])k(1(11m)kn)k(1exp(knm))k=2cln20.6185c\begin{aligned} \Pr\left[\forall 1 \le j \le k\colon A[h_{j}(x)] = 1\right] &\textcolor{FF0099}{=} \left( \Pr[A[h_{j}(x)] = 1] \right)^{k}\\ &= \left( 1 - \Pr[A[h_{j}(x)] = 0] \right)^{k}\\ &\le \left( 1 - \left( 1 - \dfrac{1}{m} \right)^{kn} \right)^{k}\\ &\approx \left(1 - \exp\left(- \dfrac{kn}{m}\right)\right)^{k}\\ &= 2^{-c \ln 2}\\ &\le 0.6185^{c} \end{aligned}

其中取 {k=cln2m=cn\left\lbrace\begin{aligned} k &= c \ln 2\\ m &= cn \end{aligned}\right.

但是这个分析实际上是错误的,在第一个等号就出问题了。不同的 hj(x)h_{j}(x) 实际上可以映射到同一个位置(希望我没理解错)。

这部分可见英文维基部分