半英文授课(课件全英文,专有名词也是讲英文),因此一些不好翻译的专有名词以 English (中文)
形式出现;一些可能翻错的词语在后面补充原词,即 词语(phrase)
;一些难以翻译的句子在后面给出原文,即 句子(sentence)
。
后面可能也难以维持,而也像另一个也带有「数据」的课程一样,改成英文笔记。
独立性
两个事件的独立性
若 B B B 的发生对于 A A A 的发生没有影响,即 Pr ( A ∣ B ) = Pr ( A ) \Pr(A \mid B) = \Pr(A) Pr ( A ∣ B ) = Pr ( A ) ,则称事件 A A A 与事件 B B B 独立 (A A A is said to be independent of B B B )。
两个事件 A , B A, B A , B 独立 若
Pr ( A ∩ B ) = Pr ( A ) Pr ( B ) \Pr(A \cap B) = \Pr(A) \Pr(B)
Pr ( A ∩ B ) = Pr ( A ) Pr ( B )
命题:
若 Pr ( B ) > 0 \Pr(B) > 0 Pr ( B ) > 0 ,则 Pr ( A ∣ B ) = Pr ( A ) ⟺ Pr ( A ∩ B ) = Pr ( A ) Pr ( B ) \Pr(A \mid B) = \Pr(A) \iff \Pr(A \cap B) = \Pr(A) \Pr(B) Pr ( A ∣ B ) = Pr ( A ) ⟺ Pr ( A ∩ B ) = Pr ( A ) Pr ( B )
Pr ( A ∩ B ) = Pr ( A ) Pr ( B ) ⟺ Pr ( A ∩ B c ) = Pr ( A ) Pr ( B c ) \Pr(A \cap B) = \Pr(A) \Pr(B) \iff \Pr(A \cap B^c) = \Pr(A) \Pr(B^c) Pr ( A ∩ B ) = Pr ( A ) Pr ( B ) ⟺ Pr ( A ∩ B c ) = Pr ( A ) Pr ( B c )
多个事件的独立性
一个事件的集合(family){ A i ∣ i ∈ I } \left\lbrace A_i \mid i \in I \right\rbrace { A i ∣ i ∈ I } 称为 (相互)独立 如果对于所有有限子集 J ⊆ I J \subseteq I J ⊆ I ,有
Pr ( ⋂ i ∈ J A i ) = ∏ i ∈ J Pr ( A i ) \Pr\left(\bigcap_{i \in J} A_i\right) = \prod_{i \in J} \Pr(A_i)
Pr ( i ∈ J ⋂ A i ) = i ∈ J ∏ Pr ( A i )
一个事件 A A A 称为与一个事件的集合 { B i ∣ i ∈ I } \left\lbrace B_i \mid i \in I \right\rbrace { B i ∣ i ∈ I } (相互)独立 ,如果对于所有互斥的有限子集 J + , J − ⊆ I J^{+},J^{-} \subseteq I J + , J − ⊆ I ,有
Pr ( A ) = Pr ( A ∣ ⋂ i ∈ J + B i ∩ ⋂ i ∈ J − B i c ) \Pr(A) = \Pr\left(A \Biggm| \bigcap_{i \in J^{+}} B_i \cap \bigcap_{i \in J^{-}} B_i^c\right)
Pr ( A ) = Pr ( A i ∈ J + ⋂ B i ∩ i ∈ J − ⋂ B i c )
给定事件集合 A = { A i ∣ i ∈ I } \mathscr{A} = \left\lbrace A_i \mid i \in I\right\rbrace A = { A i ∣ i ∈ I } ,有下面表述等价:
对任意 e ∈ I e \in I e ∈ I 与 J = I ∖ { e } J = I \setminus \left\lbrace e \right\rbrace J = I ∖ { e } 都有 Pr ( A e ∣ ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c ) = Pr ( A e ) \displaystyle \Pr\left( A_e \Biggm| \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) = \Pr(A_e) Pr ( A e i ∈ J + ⋂ A i ∩ i ∈ J − ⋂ A i c ) = Pr ( A e ) ,其中 J + , J − J^{+}, J^{-} J + , J − 是 J J J 任意两个互斥子集,且 J + ∪ J − = J J^{+} \cup J^{-} = J J + ∪ J − = J 。
对任意 J ⊆ I J \subseteq I J ⊆ I ,有 Pr ( ⋂ i ∈ J A i ) = ∏ i ∈ J Pr ( A i ) \displaystyle \Pr\left( \bigcap_{i \in J} A_i \right) = \prod_{i \in J} \Pr(A_i) Pr ( i ∈ J ⋂ A i ) = i ∈ J ∏ Pr ( A i )
证明
先证明 1. ⟹ \implies ⟹ 2.:
即对于任意 e ∈ I e \in I e ∈ I 和 J = I ∖ { e } J = I \setminus \{ e \} J = I ∖ { e } ,有
Pr ( A e ∣ ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c ) = Pr ( A e ) \Pr\left( A_e \Biggm| \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) = \Pr(A_e)
Pr ( A e i ∈ J + ⋂ A i ∩ i ∈ J − ⋂ A i c ) = Pr ( A e )
使用数学归纳法。当 ∣ J ∣ = 1 |J| = 1 ∣ J ∣ = 1 时,显然成立。假设对于所有 ∣ J ∣ = k |J| = k ∣ J ∣ = k 的子集,也成立。
考虑 ∣ J ∣ = k + 1 |J| = k + 1 ∣ J ∣ = k + 1 的情况。设 J = { i 1 , i 2 , … , i k + 1 } J = \{ i_1, i_2, \dots, i_{k+1} \} J = { i 1 , i 2 , … , i k + 1 } ,并令 J ′ = J ∖ { i k + 1 } J' = J \setminus \{ i_{k+1} \} J ′ = J ∖ { i k + 1 } ,有
Pr ( A i k + 1 ∣ ⋂ i ∈ J ′ A i ) = Pr ( A i k + 1 ) \Pr\left( A_{i_{k+1}} \Biggm| \bigcap_{i \in J'} A_i \right) = \Pr(A_{i_{k+1}})
Pr ( A i k + 1 i ∈ J ′ ⋂ A i ) = Pr ( A i k + 1 )
因此
Pr ( ⋂ i ∈ J A i ) = Pr ( A i k + 1 ∣ ⋂ i ∈ J ′ A i ) ⋅ Pr ( ⋂ i ∈ J ′ A i ) = Pr ( A i k + 1 ) ⋅ ∏ i ∈ J ′ Pr ( A i ) = ∏ i ∈ J Pr ( A i ) \begin{aligned}
\Pr\left( \bigcap_{i \in J} A_i \right) &= \Pr\left( A_{i_{k+1}} \Biggm| \bigcap_{i \in J'} A_i \right) \cdot \Pr\left( \bigcap_{i \in J'} A_i \right) \\
&= \Pr(A_{i_{k+1}}) \cdot \prod_{i \in J'} \Pr(A_i) \\
&= \prod_{i \in J} \Pr(A_i)
\end{aligned}
Pr ( i ∈ J ⋂ A i ) = Pr ( A i k + 1 i ∈ J ′ ⋂ A i ) ⋅ Pr ( i ∈ J ′ ⋂ A i ) = Pr ( A i k + 1 ) ⋅ i ∈ J ′ ∏ Pr ( A i ) = i ∈ J ∏ Pr ( A i )
得证。
再证明 2. ⟹ \implies ⟹ 1.:
即对于任意 J ⊆ I J \subseteq I J ⊆ I ,有
Pr ( ⋂ i ∈ J A i ) = ∏ i ∈ J Pr ( A i ) \Pr\left( \bigcap_{i \in J} A_i \right) = \prod_{i \in J} \Pr(A_i)
Pr ( i ∈ J ⋂ A i ) = i ∈ J ∏ Pr ( A i )
要证明对于任意 e ∈ I e \in I e ∈ I 和 J = I ∖ { e } J = I \setminus \{ e \} J = I ∖ { e } ,有
Pr ( A e ∣ ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c ) = Pr ( A e ) \Pr\left( A_e \Biggm| \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) = \Pr(A_e)
Pr ( A e i ∈ J + ⋂ A i ∩ i ∈ J − ⋂ A i c ) = Pr ( A e )
其中 J + J^{+} J + 和 J − J^{-} J − 是 J J J 任意两个互斥子集,且 J + ∪ J − = J J^{+} \cup J^{-} = J J + ∪ J − = J 。
条件概率有
Pr ( A e ∣ ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c ) = Pr ( A e ∩ ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c ) Pr ( ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c ) \Pr\left( A_e \Biggm| \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) = \frac{\Pr\left( A_e \cap \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right)}{\Pr\left( \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right)}
Pr ( A e i ∈ J + ⋂ A i ∩ i ∈ J − ⋂ A i c ) = Pr ( ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c ) Pr ( A e ∩ ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c )
根据 2. 有
{ Pr ( A e ∩ ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c ) = Pr ( A e ) ⋅ ∏ i ∈ J + Pr ( A i ) ⋅ ∏ i ∈ J − Pr ( A i c ) Pr ( ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c ) = ∏ i ∈ J + Pr ( A i ) ⋅ ∏ i ∈ J − Pr ( A i c ) \left\lbrace\begin{aligned}
\Pr\left( A_e \cap \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) &= \Pr(A_e) \cdot \prod_{i \in J^{+}} \Pr(A_i) \cdot \prod_{i \in J^{-}} \Pr(A_i^c)\\
\Pr\left( \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) &= \prod_{i \in J^{+}} \Pr(A_i) \cdot \prod_{i \in J^{-}} \Pr(A_i^c)
\end{aligned}\right.
⎩ ⎨ ⎧ Pr ( A e ∩ i ∈ J + ⋂ A i ∩ i ∈ J − ⋂ A i c ) Pr ( i ∈ J + ⋂ A i ∩ i ∈ J − ⋂ A i c ) = Pr ( A e ) ⋅ i ∈ J + ∏ Pr ( A i ) ⋅ i ∈ J − ∏ Pr ( A i c ) = i ∈ J + ∏ Pr ( A i ) ⋅ i ∈ J − ∏ Pr ( A i c )
因此
Pr ( A e ∣ ⋂ i ∈ J + A i ∩ ⋂ i ∈ J − A i c ) = Pr ( A e ) ⋅ ∏ i ∈ J + Pr ( A i ) ⋅ ∏ i ∈ J − Pr ( A i c ) ∏ i ∈ J + Pr ( A i ) ⋅ ∏ i ∈ J − Pr ( A i c ) = Pr ( A e ) \Pr\left( A_e \Biggm| \bigcap_{i \in J^{+}} A_i \cap \bigcap_{i \in J^{-}} A_i^c \right) = \frac{\Pr(A_e) \cdot \prod_{i \in J^{+}} \Pr(A_i) \cdot \prod_{i \in J^{-}} \Pr(A_i^c)}{\prod_{i \in J^{+}} \Pr(A_i) \cdot \prod_{i \in J^{-}} \Pr(A_i^c)} = \Pr(A_e)
Pr ( A e i ∈ J + ⋂ A i ∩ i ∈ J − ⋂ A i c ) = ∏ i ∈ J + Pr ( A i ) ⋅ ∏ i ∈ J − Pr ( A i c ) Pr ( A e ) ⋅ ∏ i ∈ J + Pr ( A i ) ⋅ ∏ i ∈ J − Pr ( A i c ) = Pr ( A e )
得证。
Product Probability Space (积概率空间)
概率空间由一系列独立实验 构成。
考虑离散概率空间 ( Ω 1 , p 1 ) , ( Ω 2 , p 2 ) , ⋯ , ( Ω n , p n ) (\Omega_1, p_1),\, (\Omega_2, p_2),\, \cdots,\, (\Omega_n, p_n) ( Ω 1 , p 1 ) , ( Ω 2 , p 2 ) , ⋯ , ( Ω n , p n ) ,product probability space (积概率空间)被定义为
样本空间 Ω = Ω 1 × Ω 2 × ⋯ × Ω n \Omega = \Omega_1 \times \Omega_2 \times \cdots \times \Omega_n Ω = Ω 1 × Ω 2 × ⋯ × Ω n
∀ ω = ( ω 1 , ω 2 , ⋯ , ω n ) ∈ Ω : pmf p ( ω ) = p 1 ( ω 1 ) p 2 ( ω 2 ) ⋯ p n ( ω n ) \forall \omega = (\omega_1, \omega_2, \cdots, \omega_n) \in \Omega\colon \operatorname{pmf} p(\omega) = p_1(\omega_1) p_2(\omega_2) \cdots p_n(\omega_n) ∀ ω = ( ω 1 , ω 2 , ⋯ , ω n ) ∈ Ω : pmf p ( ω ) = p 1 ( ω 1 ) p 2 ( ω 2 ) ⋯ p n ( ω n ) (pmf 即「概率质量函数」)
对于一般(general)的概率空间 ( Ω 1 , Σ 1 , Pr 1 ) , ⋯ , ( Ω n , Σ n , Pr n ) (\Omega_1, \Sigma_1, \Pr_1), \cdots, (\Omega_n, \Sigma_n, \Pr_n) ( Ω 1 , Σ 1 , Pr 1 ) , ⋯ , ( Ω n , Σ n , Pr n ) ,product probability space ( Ω , Σ , Pr ) (\Omega, \Sigma, \Pr) ( Ω , Σ , Pr ) 可以被类似地构造。
其中 Σ \Sigma Σ 是唯一的(unique)最小 σ \sigma σ -代数,使得其包括(contain)Σ 1 × ⋯ × Σ n \Sigma_1 \times \cdots \times \Sigma_n Σ 1 × ⋯ × Σ n ,同时概率测度 Pr \Pr Pr 是一个在 Σ \Sigma Σ 上的自然拓展(the law Pr \Pr Pr is a natural extension onto such Σ \Sigma Σ from the product probabilities):
∀ A = A 1 × ⋯ × A n ∈ Σ : Pr ( A ) = Pr 1 ( A 1 ) ⋯ Pr n ( A n ) \forall A = A_1 \times \cdots \times A_n \in \Sigma\colon \Pr(A) = \Pr\nolimits_1(A_1) \cdots \Pr\nolimits_n(A_n)
∀ A = A 1 × ⋯ × A n ∈ Σ : Pr ( A ) = Pr 1 ( A 1 ) ⋯ Pr n ( A n )
有限独立性(Limited Independence)
成对独立(Pairwise Independence)
一个事件的集合 { A i ∣ i ∈ I } \left\lbrace A_i \mid i \in I \right\rbrace { A i ∣ i ∈ I } 称为 成对独立 (pairwise independent),如果对于所有不同的 i , j ∈ I i, j \in I i , j ∈ I ,有
Pr ( A i ∩ A j ) = Pr ( A i ) Pr ( A j ) \Pr(A_i \cap A_j) = \Pr(A_i) \Pr(A_j)
Pr ( A i ∩ A j ) = Pr ( A i ) Pr ( A j )
类似地可定义 k-wise Independence
一个事件的集合 { A i ∣ i ∈ I } \left\lbrace A_i \mid i \in I \right\rbrace { A i ∣ i ∈ I } 称为 k k k -wise 独立 (k k k -wise independent),如果对于所有不同的 i 1 , i 2 , ⋯ , i k ∈ I i_1, i_2, \cdots, i_k \in I i 1 , i 2 , ⋯ , i k ∈ I ,有
Pr ( ⋂ i = 1 k A i ) = ∏ i = 1 k Pr ( A i ) \Pr\left(\bigcap_{i=1}^{k} A_{i}\right) = \prod_{i=1}^{k} \Pr(A_{i})
Pr ( i = 1 ⋂ k A i ) = i = 1 ∏ k Pr ( A i )
(相互)独立一定是成对独立,但反之不一定成立。
triply independent 不一定是 pairwise independent。
Error Reduction (one-sided case)
对于 decision problem f : { 0 , 1 } ∗ → { 0 , 1 } f\colon \left\lbrace 0, 1 \right\rbrace^{*} \to \left\lbrace 0, 1 \right\rbrace f : { 0 , 1 } ∗ → { 0 , 1 } ,蒙特卡罗(Monte Carlo)随机算法 A \mathscr{A} A 有 one-sided error:
∀ x ∈ { 0 , 1 } ∗ : f ( x ) = 1 ⟹ A ( x ) = 1 \forall x \in \left\lbrace 0, 1 \right\rbrace^{*}\colon f(x) = 1 \implies \mathscr{A}(x) = 1 ∀ x ∈ { 0 , 1 } ∗ : f ( x ) = 1 ⟹ A ( x ) = 1
∀ x ∈ { 0 , 1 } ∗ : f ( x ) = 0 ⟹ Pr [ A ( x ) = 0 ] ⩾ p \forall x \in \left\lbrace 0, 1 \right\rbrace^{*}\colon f(x) = 0 \implies \Pr[\mathscr{A}(x) = 0] \ge p ∀ x ∈ { 0 , 1 } ∗ : f ( x ) = 0 ⟹ Pr [ A ( x ) = 0 ] ⩾ p
A n \mathscr{A}^n A n 为独立 运行 A \mathscr{A} A n n n 次,输出结果的 ∧ \land ∧ (即「与」),因为
f ( x ) = 0 ⟹ Pr [ A n ( x ) = 1 ] ⩽ ( 1 − p ) n f(x) = 0 \implies \Pr[\mathscr{A}^n(x) = 1] \le (1 - p)^n
f ( x ) = 0 ⟹ Pr [ A n ( x ) = 1 ] ⩽ ( 1 − p ) n
为将 one-sided error 减小到 ε \varepsilon ε ,大致需要重复 n ≈ 1 p ln 1 ε n \approx \dfrac{1}{p} \ln \dfrac{1}{\varepsilon} n ≈ p 1 ln ε 1 次。
Binomial Probability (二项概率)
考虑 n n n 个独立抛掷硬币实验,每个硬币正面朝上相互独立,且概率为 p p p 。
我们称我们有一系列(sequence)伯努利实验 (Bernoulli trials),其中每个实验成功(succeed)的概率为 p p p 。
Binomial Probability (二项概率) p ( k ) p(k) p ( k ) 定义为 n n n 次实验中成功 k k k 次的概率:
p ( k ) = ∑ S ∈ ( [ n ] k ) Pr ( ∀ i ∈ S : 第 i 次成功 ) Pr ( ∀ i ∈ [ n ] \ S : 第 i 次失败 ) = ∑ S ∈ ( [ n ] k ) p ∣ S ∣ ( 1 − p ) n − ∣ S ∣ = ( n k ) p k ( 1 − p ) n − k \begin{aligned}
p(k) &= \sum_{S \in \binom{[n]}{k}} \Pr(\forall i \in S\colon \text{第 $i$ 次成功}) \Pr(\forall i \in [n] \backslash S\colon \text{第 $i$ 次失败}) \\
&= \sum_{S \in \binom{[n]}{k}} p^{|S|} (1 - p)^{n - |S|} \\
&= \dbinom{n}{k} p^k (1 - p)^{n - k}
\end{aligned}
p ( k ) = S ∈ ( k [ n ] ) ∑ Pr ( ∀ i ∈ S : 第 i 次成功 ) Pr ( ∀ i ∈ [ n ] \ S : 第 i 次失败 ) = S ∈ ( k [ n ] ) ∑ p ∣ S ∣ ( 1 − p ) n − ∣ S ∣ = ( k n ) p k ( 1 − p ) n − k
p ( k ) p(k) p ( k ) 是在 Ω = { 0 , 1 , ⋯ , n } \Omega = \left\lbrace 0, 1, \cdots, n \right\rbrace Ω = { 0 , 1 , ⋯ , n } 良定义的概率密度函数,即 ∑ k = 0 n p ( k ) = 1 \displaystyle \sum_{k=0}^{n} p(k) = 1 k = 0 ∑ n p ( k ) = 1 (二项式定理)。
如何操纵 2024 美国大选 ?假设在一个社会上有 n n n 个独立随机投票的选民,需要大概多少人才能以 t = 95 % t = 95\% t = 95% 的概率操纵选举(假设只有两个候选人)?
下面推导用硬币的 HEAD 和 TAIL 替代(因为想不到合适的词):
Pr [ ∣ HEADs − TAILs ∣ ⩾ t ] = Pr [ HEADs ⩽ n 2 − t 2 ] + Pr [ HEADs ⩾ n 2 + t 2 ] = ∑ k ⩽ n − t 2 ( n k ) 2 − n + ∑ k ⩾ n + t 2 ( n k ) 2 − n = 2 1 − n ∑ k ⩽ n − t 2 ( n k ) ⩽ 2 1 − n + n H ( 1 2 − t 2 n ) ≈ 2 exp ( − t 2 n ) \begin{aligned}
\Pr[|\text{HEADs} - \text{TAILs}| \ge t] &= \Pr\left[\text{HEADs} \le \tfrac{n}{2} - \tfrac{t}{2}\right] + \Pr\left[\text{HEADs} \ge \tfrac{n}{2} + \tfrac{t}{2}\right] \\
&= \sum_{k \le \frac{n-t}{2}} \dbinom{n}{k} 2^{-n} + \sum_{k \ge \frac{n+t}{2}} \dbinom{n}{k} 2^{-n} \\
&= 2^{1-n} \sum_{k \le \frac{n-t}{2}} \dbinom{n}{k}\\
&\le 2^{1-n+nH(\frac{1}{2} - \frac{t}{2n})}\\
&\approx 2 \exp\left(-\tfrac{t^2}{n}\right)
\end{aligned}
Pr [ ∣ HEADs − TAILs ∣ ⩾ t ] = Pr [ HEADs ⩽ 2 n − 2 t ] + Pr [ HEADs ⩾ 2 n + 2 t ] = k ⩽ 2 n − t ∑ ( k n ) 2 − n + k ⩾ 2 n + t ∑ ( k n ) 2 − n = 2 1 − n k ⩽ 2 n − t ∑ ( k n ) ⩽ 2 1 − n + n H ( 2 1 − 2 n t ) ≈ 2 exp ( − n t 2 )
当 t ⩾ 2 n t \ge 2 \sqrt{n} t ⩾ 2 n 时有 Pr [ ∣ HEADs − TAILs ∣ ⩾ t ] ⩽ 0.05 \Pr[|\text{HEADs} - \text{TAILs}| \ge t] \le 0.05 Pr [ ∣ HEADs − TAILs ∣ ⩾ t ] ⩽ 0.05 。
Error Reduction (two-sided case)
对于 decision problem f : { 0 , 1 } ∗ → { 0 , 1 } f\colon \left\lbrace 0, 1 \right\rbrace^{*} \to \left\lbrace 0, 1 \right\rbrace f : { 0 , 1 } ∗ → { 0 , 1 } ,蒙特卡罗(Monte Carlo)随机算法 A \mathscr{A} A 有 two-sided error:
∀ x ∈ { 0 , 1 } ∗ : f ( x ) = 1 ⟹ Pr [ A ( x ) = f ( x ) ] ⩾ 1 2 + p \forall x \in \left\lbrace 0, 1 \right\rbrace^{*}\colon f(x) = 1 \implies \Pr[\mathscr{A}(x) = f(x)] \ge \dfrac{1}{2} + p ∀ x ∈ { 0 , 1 } ∗ : f ( x ) = 1 ⟹ Pr [ A ( x ) = f ( x )] ⩾ 2 1 + p
A n \mathscr{A}^n A n 为独立 运行 A \mathscr{A} A n n n 次,输出 n n n 次结果的「多数」(majority),因为
Pr [ A n ( x ) ≠ f ( x ) ] ⩽ ∑ k < n 2 ( n k ) ( 1 2 + p ) k ( 1 2 − p ) n − k ⩽ exp ( − n p 2 ) \Pr[\mathscr{A}^n(x) \ne f(x)] \le \sum_{k < \frac{n}{2}} \dbinom{n}{k} \left( \dfrac{1}{2} + p \right)^{k} \left( \dfrac{1}{2} - p \right)^{n - k} \textcolor{FF0099}{\le \exp(-np^2)}
Pr [ A n ( x ) = f ( x )] ⩽ k < 2 n ∑ ( k n ) ( 2 1 + p ) k ( 2 1 − p ) n − k ⩽ e x p ( − n p 2 )
在 n ⩾ 1 p 2 ln 1 ε n \ge \dfrac{1}{p^2} \ln \dfrac{1}{\varepsilon} n ⩾ p 2 1 ln ε 1 时有 Pr [ A n ( x ) ≠ f ( x ) ] ⩽ ε \Pr[\mathscr{A}^n(x) \ne f(x)] \le \varepsilon Pr [ A n ( x ) = f ( x )] ⩽ ε 。
彩色部分如何计算?集中不等式(concentration inequality) 。暂略。
条件独立性(Conditional Independence)
两个事件 A , B A, B A , B 在给定事件 C C C (Pr ( C ) > 0 \Pr(C) > 0 Pr ( C ) > 0 )下条件独立 (conditionally independent),如果
Pr ( A ∩ B ∣ C ) = Pr ( A ∣ C ) Pr ( B ∣ C ) \Pr(A \cap B \mid C) = \Pr(A \mid C) \Pr(B \mid C)
Pr ( A ∩ B ∣ C ) = Pr ( A ∣ C ) Pr ( B ∣ C )
若 Pr ( B ∩ C ) > 0 \Pr(B \cap C) > 0 Pr ( B ∩ C ) > 0 ,则 Pr ( A ∩ B ∣ C ) = Pr ( A ∣ C ) Pr ( B ∣ C ) ⟺ Pr ( A ∣ B ∩ C ) = Pr ( A ∣ C ) \Pr(A \cap B \mid C) = \Pr(A \mid C) \Pr(B \mid C) \iff \Pr(A \mid B \cap C) = \Pr(A \mid C) Pr ( A ∩ B ∣ C ) = Pr ( A ∣ C ) Pr ( B ∣ C ) ⟺ Pr ( A ∣ B ∩ C ) = Pr ( A ∣ C ) 。
两个独立事件可能并不是条件独立的。两个非独立事件可能是条件独立的。
例如:
第一个例子:显然 A , B A, B A , B 独立,但不条件独立。
A A A :第一个硬币 HEAD
B B B :第二个硬币 HEAD
C C C :两个硬币结果不同
第二个例子:A A A 与 A A A 在给定 A A A 的情况下是条件独立的,但 A A A 和 A A A 并不一定独立。
例子
布隆过滤器(Bloom Filter) 是一种空间效率高的概率型数据结构,用于检测一个元素是否在一个集合中。
假设数据集 S ⊆ U S \subseteq U S ⊆ U ,大小为 n n n ,决定查询 x ∈ U x \in U x ∈ U 是否在 S S S 当中。
采用布隆过滤器这个数据结构。设一个字节数组(bit array)A ∈ { 0 , 1 } m A \in \left\lbrace 0, 1 \right\rbrace^m A ∈ { 0 , 1 } m ,其被初始化为全 0 0 0 。
有 k k k 个均匀独立(uniform & independent)哈希函数 h 1 , ⋯ , h k : U → [ m ] h_1, \cdots, h_k\colon U \to [m] h 1 , ⋯ , h k : U → [ m ] 。对于任意 x i ∈ S x_i \in S x i ∈ S ,将 A [ h 1 ( x i ) ] , ⋯ , A [ h k ( x i ) ] A[h_1(x_i)], \cdots, A[h_k(x_i)] A [ h 1 ( x i )] , ⋯ , A [ h k ( x i )] 置为 1 1 1 。
查询时,若 A [ h 1 ( x ) ] , ⋯ , A [ h k ( x ) ] A[h_1(x)], \cdots, A[h_k(x)] A [ h 1 ( x )] , ⋯ , A [ h k ( x )] 均为 1 1 1 ,则返回 x ∈ S x \in S x ∈ S ;否则返回 x ∉ S x \notin S x ∈ / S 。
当 x ∈ S x \in S x ∈ S 时,查询结果一定是正确的;当 x ∉ S x \notin S x ∈ / S 时,查询结果可能误报(false positive)。对这种可能进行概率分析:
Pr [ ∀ 1 ⩽ j ⩽ k : A [ h j ( x ) ] = 1 ] = ( Pr [ A [ h j ( x ) ] = 1 ] ) k = ( 1 − Pr [ A [ h j ( x ) ] = 0 ] ) k ⩽ ( 1 − ( 1 − 1 m ) k n ) k ≈ ( 1 − exp ( − k n m ) ) k = 2 − c ln 2 ⩽ 0.618 5 c \begin{aligned}
\Pr\left[\forall 1 \le j \le k\colon A[h_{j}(x)] = 1\right] &\textcolor{FF0099}{=} \left( \Pr[A[h_{j}(x)] = 1] \right)^{k}\\
&= \left( 1 - \Pr[A[h_{j}(x)] = 0] \right)^{k}\\
&\le \left( 1 - \left( 1 - \dfrac{1}{m} \right)^{kn} \right)^{k}\\
&\approx \left(1 - \exp\left(- \dfrac{kn}{m}\right)\right)^{k}\\
&= 2^{-c \ln 2}\\
&\le 0.6185^{c}
\end{aligned}
Pr [ ∀1 ⩽ j ⩽ k : A [ h j ( x )] = 1 ] = ( Pr [ A [ h j ( x )] = 1 ] ) k = ( 1 − Pr [ A [ h j ( x )] = 0 ] ) k ⩽ ( 1 − ( 1 − m 1 ) kn ) k ≈ ( 1 − exp ( − m kn ) ) k = 2 − c l n 2 ⩽ 0.618 5 c
其中取 { k = c ln 2 m = c n \left\lbrace\begin{aligned} k &= c \ln 2\\ m &= cn \end{aligned}\right. { k m = c ln 2 = c n 。
但是这个分析实际上是错误的,在第一个等号就出问题了。不同的 h j ( x ) h_{j}(x) h j ( x ) 实际上可以映射到同一个位置(希望我没理解错)。
这部分可见英文维基部分 。