对于伯努利的大数定理,其收敛的具体速率有:
- 切比雪夫不等式给出:<nε2p(1−p)⩽4nε21
- CLT 给出 Gaussian-like exp(−Ω(ε2n))
对于 X1,…,Xn∈{0,1} 为独立随机试验(independent trials, 泊松试验, Poisson trials),它们不一定同分布,并令
Sn=i=1∑nXi
为泊松二项随机变量(Poisson binomial random vairable)
下面讨论其偏差集中的尾界(Deviation/concentration/tail bounds):
Pr(∣Sn−E[Sn]∣⩾?)⩽?
切尔诺夫-霍夫丁界(Chernoff-Hoeffding Bound)
切尔诺夫界
令 X1,…,Xn∈{0,1} 是独立试验,有
X=i=1∑nXiμ=E[X]
对任意 δ>0 有
Pr(X⩾(1+δ)μ)⩽((1+δ)1+δeδ)μ
证明
Pr(X⩾(1+δ)μ)=Pr(etX⩾et(1+δ)μ)⩽e−t(1+δ)μE[etX](Markov 不等式)
随机变量 X 的 MGF 为
MX(t)=E[etX]=k⩾0∑k!tkE[Xk]
若 X1,…,Xn∈{0,1} 是独立的,且 X=i=1∑nXi 与 μ=E[X],则有
MX(t)=E[etX]⩽e(et−1)μ
因为
E[etX]=E[i=1∏netXi]=i=1∏nE[etXi]=i=1∏n(etpi+(1−pi))(pi=E[Xi])⩽i=1∏nepi(et−1)=e(et−1)μ
继续上面的步骤有
Pr(X⩾(1+δ)μ)=Pr(etX⩾et(1+δ)μ)⩽e−t(1+δ)μE[etX](Markov 不等式)⩽e−t(1+δ)μe(et−1)μ=eμ(et−1−t(1+δ))=((1+δ)1+δeδ)μ(t=ln(1+δ))
对任意 0<δ<1 有
Pr(X⩽(1−δ)μ)⩽((1−δ)1−δe−δ)μ
证明
类似地,有
Pr(X⩽(1−δ)μ)=Pr(etX⩾et(1−δ)μ)(t<0)⩽e−t(1−δ)μE[etX]⩽e−t(1−δ)μe(et−1)μ=eμ(et−1−t(1−δ))=((1−δ)1−δe−δ)μ(t=ln(1−δ))
对任意 δ>0 有
Pr(X⩾(1+δ)μ)⩽((1+δ)1+δeδ)μ⩽{e−3μδ22−(1+δ)μif 0<δ⩽1if (1+δ)⩾2e
对任意 0<δ<1 有
Pr(X⩽(1−δ)μ)⩽((1−δ)1−δe−δ)μ⩽e−2μδ2
Balls into Bins
将 m 个球 u.a.r. 扔进 n 个桶,随机变量 Xi 表示第 i 个桶中的球数,有 (X1,X2,…,Xn)∼ 参数为 m,(n1,…,n1n) 的多项式分布。
占用问题(Occupancy problem):最大负载(load)1⩽i⩽nmaxXi w.h.p.
1⩽i⩽nmaxXi=⎩⎨⎧O(loglognlogn)O(nm)if m=nif m⩾nlnn
边缘分布有 Xi∼Bin(m,n1) 与 μ=E[Xi]=nm。
当 m=n 时,有 μ=1,有
Pr(Xi⩾L)=Pr(Xi⩾Lμ)⩽eLLeL⩽n21
对于 L=lnlnnelnn 成立。因为切尔诺夫界 Pr(Xi⩾(1+δ)μ)⩽((1+δ)1+δeδ)μ。
并集界(Union bound)给出
Pr(1⩽i⩽nmaxXi⩾L)⩽i=n∑nPr(Xi⩾L)⩽n1
因此 1⩽i⩽nmaxXi=O(loglognlogn) w.h.p.
当 m⩾nlnn 时,有 μ⩾lnn,有
Pr(Xi⩾n2em)=Pr(Xi⩾2eμ)⩽2−2eμ⩽2−2elnn⩽n21
因为 L⩾2eμ 时有 Pr(Xi⩾L)⩽2−L(切尔诺夫界)。
同样使用并集界可以得到 1⩽i⩽nmaxXi=O(nm) w.h.p.
霍夫丁界
切尔诺夫不等式(Chernoff's Inequality)
令 X1,…,Xn∈{0,1} 为独立随机变量,且 Sn=i=1∑nXi,则对任意 t>0 有
Pr(∣Sn−E[Sn]∣⩾t)⩽2exp(−n2t2)
霍夫丁不等式(Hoeffding's Inequality)
令 X1,…,Xn 是独立随机变量,Sn=i=1∑nXi,且 Xi∈[ai,bi],则对任意 t>0 有
Pr(∣Sn−E[Sn]∣⩾t)⩽2exp(−∑i=1n(bi−ai)22t2)
霍夫丁引理(Hoeffding's Lemma)*
霍夫丁引理(Hoeffding's Lemma)
若 X∈[a,b] a.s. 且 E[X]=0,则
MX(λ)=E[eλX]⩽eλ2(b−a)2/8
证明
因为 eλx 是凸函数,有
eλx⩽b−ab−xeλa+b−ax−aeλb
对任意 x∈[a,b] 成立。
于是
E[eλX]⩽b−ab−E[X]eλa+b−aE[X]−aeλb=b−abeλa−b−aaeλb
令 L(h)=b−aha+ln(1+b−aa−eha),则有
eL(λ(b−a))=exp(aλ+lnb−ab−aeλ(b−a))=eaλ(b−ab−aeλ(b−a))=b−abeλa−b−aaeλb
即 E[eλX]⩽eL(λ(b−a))。
而泰勒公式有
L(h)=L(0)+L′(0)h+2L′′(ξ)h2(0<ξ<h)=2L′′(ξ)h2=(b+∣a∣eξ)2∣a∣beξ⋅21h2⩽(2b∣a∣eξ)2∣a∣beξ⋅21h2=81h2
从而 E[eλX]⩽eL(λ(b−a))⩽eλ2(b−a)2/8。
霍夫丁界证明
令 Yi=Xi−E[Xi] 与 Y=Sn−E[Sn]=∑i=1nYi,于是 E[Y]=E[Yi]=0。
则
Pr(Sn−E[Sn]⩾t)=Pr(Y⩾t)⩽Pr(eλY⩾eλt)⩽e−λtE[eλY]=e−λtE[i=1∏neλYi]=e−λti=1∏nE[eλYi]⩽exp(−λt+8λ2i=1∑n(bi−ai)2)=exp(−∑i=1n(bi−ai)22t2)(λ>0)(Markov 不等式)(Hoeffding 引理)(λ=∑i=1n(bi−ai)24t)
亚高斯尾(Sub-Gaussian Tail)
若 X1,…,Xn∈{0,1} 是独立泊松试验,同时 Sn=i=1∑nXi,则对任意 t>0 有切尔诺夫-霍夫丁界
Pr(n/2Sn−E[Sn]⩾t)⩽2exp(−2t2)
注意到 σ(Sn)=i=1∑nVar[Xi]⩽2n(伯努利随机方差至多为 41),于是标准化的 Sn 最差程度上有「亚高斯尾」(Sub-Gaussian Tail)e−Ω(t2)。
对于一般的独立的 Xi∈[ai,bi],令 Sn=i=1∑nXi,则对任意 t>0 有
Pr(∑i=1n(bi−ai)2/4Sn−E[Sn]⩾t)⩽2exp(−2t2)
而 Z∈[a,b] 可得 Z−2a+b⩽2b−a。于是有
Var[Z]=Var[Z−2a+b]⩽E[(Z−2a+b)2]⩽4(b−a)2
最后一个不等号是因为,对于任意 Z∈[a,b],有
E[(Z−2a+b)2]⩽21(a−2a+b)2+21(b−2a+b)2=4(b−a)2
于是同样的有标准化的 Sn 最差程度上有「亚高斯尾」e−Ω(t2)。
控制公平投票
前提假设不完全提及了。在一个社会中有 n 个独立随机选民。令 Sn=X1+⋯+Xn 是 n 个 i.i.d. 的参数为 21 的伯努利随机变量的和,则有
Pr(∣Sn−(n−Sn)∣⩾t)=Pr(∣2Sn−n∣⩾t)=Pr(Sn−2n⩾2t)=Pr(∣Sn−E[Sn]∣⩾2t)⩽2exp(−2nt2)⩽δ
于是只需令 t⩾2nln(2/δ) 即可以 1−δ 的确定性操纵一个公平的投票。
双侧误差减小(Error Reduction two-sided case)
前提假设跟上面一样不认真写了,毕竟前面都有:
- 决定性问题 f:{0,1}∗→{0,1};
- 蒙特卡洛随机算法 A 有双侧误差 ∀x∈{0,1}∗,Pr(A(x)=f(x))⩾21+p;
- An 为独立运行 A 算法 n 次,返回 n 次结果的多数。
令 Sn=X1,…,Xn,其中 Xi 是第 i 次运行 A 正确与否的指示随机变量,则有
Pr(An(x)=f(x))=Pr(Sn⩽2n)=Pr(Sn⩽E[Sn]−pn)⩽exp(−2p2n)⩽δ
于是 n⩾2p21lnδ1 时,可以有 1−δ 的确定性输出正确的结果。
- 计算性问题(Computation problem)f:{0,1}∗→R;
- 随机近似算法 A:{0,1}∗,Pr(A(x)∈(1±ϵ)f(x))⩾21+p;
- An 为独立运行 A 算法 n 次,返回 n 次结果的中位数。
令 Xi 是第 i 次运行 A 的输出在 f(x) 的 ϵ 邻域的指示随机变量,则 E[Xi]⩾21+p。
则有 An(x)∈(1±ϵ)f(x) 若 Sn=X1,…,Xn>2n。
于是
Pr(A(x)∈/(1±ϵ)f(x))⩽Pr(Sn⩽2n)⩽Pr(Sn⩽E[Sn]−np)⩽exp(−2p2n)⩽δ
于是可令 n⩾2p21lnδ1 时,可以有 1−δ 的确定性输出正确的结果。
k 阶矩界
假设 X 期望为 0,切尔诺夫界实际上是
Pr[∣X∣⩾δ]⩽t⩾0minE[et∣X∣]e−tδ
对于 k 阶矩有
Pr[∣X∣⩾δ]⩽E[∣X∣k]δ−k
The Method of Bounded Differences (有界差分方法)
McDiarmid 不等式
McDiarmid 不等式
令 X1,…,Xn 是独立随机变量,且 Xi∈Xi,若 f:X1,…,Xn→R 满足「有界差分性质」(bounded differences property)
∀i,xi∈Xi,xj′∈Xjsupf(x1,…,xn)−f(x1,…,xj−1,xj′,xj+1,…,xn)⩽cj
则对任意 t>0 有
Pr(∣f(X1,…,Xn)−E[f(X1,…,Xn)]∣⩾t)⩽2exp(−∑i=1nci22t2)
霍夫丁不等式:f 为 [ai,bi] 有界变量的和。
任意满足利普希茨条件(Lipschitz)的函数近似是一个乘积测度上的常函数(瞎翻译,原文看下面)。
Hoeffding's inequality: f is sum of [ai,bi]-bounded variables
Every Lipschitz function is approximately a constant function in product measures.
模式匹配
相关内容可参考前面的笔记。
s=(s1,…,sn)∈Qn 为均匀随机字符串,有 n 个从字母表 Q 中独立随机选择的字符,其中 ∣Q∣=q。
对于模式 π∈Qk,令 X 是 s 中 π 出现的次数,线性性质有
E[X]=i=1∑n−k+1=E[Ii]=(n−k+1)q−k
其中 Ii 是从 i 开始的子串是否匹配 π。
McDiarmid 不等式有
Pr(∣X−E[X]∣>t)⩽2exp(−nk22t2)
空桶
m 球扔进 n 桶,令 Y 为空桶的数目,有
Y=i=1∑nIi
其中 Ii 是第 i 个桶是否为空的指示随机变量。
期望的线性性质有
E[Y]=n(1−n1)m
那么偏差 Pr(∣Y−E[Y]∣⩾t) 的上界应该为多少呢?
令 Xi∈[n] 表示获得第 i 个球的桶的编号。则有
Y=n−∣{X1,…,Xm}∣
有 1 有界差分(1-bounded differences)。
于是运用 McDiarmid 不等式有
Pr(∣Y−E[Y]∣⩾t)⩽2exp(−m2t2)
Doob 序列
n 元函数 f:Rn→R 上随机变量 X1,…,Xn 的 Doob 序列(Doob sequence)Y0,Y1,…,Yn 定义为
{Y0Yi=E[f(X1,…,Xn)]=E[f(X1,…,Xn)∣X1,…,Xi]
也就是说有从 Y0=E[f(X1,…,Xn)] 无信息,到 Yn=f(X1,…,Xn),给出了全信息。
鞅性质(Martingale Property)
E[Yi∣X1,…,Xi−1]=Yi−1
证明
E[Yi∣X1,…,Xi−1]=E[E[f(X1,…,Xn)∣X1,…,Xi]∣X1,…,Xi−1]=E[f(X1,…,Xn)∣X1,…,Xi−1]=Yi−1
第二个等号是因为 E[E[Z∣Y,X]∣X]=E[Z∣X],证明如下:
E[E[Z∣Y,X]∣X]=e∑e⋅Pr(E[Z∣Y,X]=e∣X)=e∑e⋅Pr(Z=e∣X)=E[Z∣X]
鞅
亏损加仓投注赌博策略也称为「鞅」(Martingale)策略。
定义
鞅
鞅是一个随机过程,其条件期望是给定过去所有信息的期望。
令 {Xn:n⩾0} 是一个随机过程,若 {Yn:n⩾0} 对任意 n 有「鞅性质」(martingale property):
E[Yn+1∣X0,X1,…,Xn]=Yn
且 E[∣Yn∣]<∞,则称序列 {Yn:n⩾0} 是一个鞅(martingale)。
根据定义,Yn 是 X0,X1,…,Xn 的函数。
鞅是一个公平的过程,因为在任意时刻 n,Yn 的期望等于 Yn−1 的期望。另有:
- 上鞅(super-martingale):E[Yn+1∣X1,…,Xn]⩽Yn
- 下鞅(sub-martingale):E[Yn+1∣X1,…,Xn]⩾Yn
{Xn:n⩾0} 定义在概率空间 (Ω,Σ,Pr) 上,有:
- (X0,X1,…,Xn) 定义了一个子 σ-代数 Σn⊆Σ;
- 也是最小的使得 (X0,…,Xn) 是 Σn 可测的 σ-代数。
- {Σn:n⩾0} 是 Σ 的一个过滤(filtration),即 Σ0⊆Σ1⊆⋯⊆Σ;
- 鞅性质可表示为 E[Yn+1∣Σn]=Yn。
随着 n 的增大,Σn 表示越来越多的已知信息。Σn 包含了从 t=0 到 t=n 的所有信息。
例子
- Doob 鞅
- 公平赌博游戏
- 公平一维随机游走(unbiased 1D random walk)
- 棣莫弗鞅
- Polya 的瓮:瓮有不同颜色的弹珠,每轮均匀随机选择一个弹珠,然后换成 k 个相同颜色的弹珠。
研究
- 鞅的测度集中(尾不等式):在什么情况下有 Pr(∣Yn−Y0∣⩾t)⩽?。
- 可选停止定理(OST, optional stopping theorem
original sound track):在什么情况下对于一个停止时 τ 有 E[Yτ]=E[Y0]。
鞅尾不等式
吾妻不等式(Azuma's inequality)
若序列 {Yn:n⩾0} 是对某个序列 {Xn:n⩾0} 的一个鞅,且对任意 n⩾1 有
∣Yn−Yn−1∣⩽cn
则对任意 n⩾1 与 t>0 有
Pr(∣Yn−Y0∣⩾t)⩽2exp(−∑i=1nci22t2)
该不等式以日本数学家「吾妻一兴」(Azuma Kazuoki)命名。
证明
差分 Di=Yi−Yi−1 与和 Sn=i=1∑nDi=Yn−Y0,则目标是证明
Pr(∣Sn∣⩾t)⩽2exp(−∑i=1nci22t2)
{Yn:n⩾0} 是鞅 w.r.t. {Xn:n⩾0},则有
E[Dn∣X0,…,Xn−1]=E[Yn−Yn−1∣X0,…,Xn−1]=E[Yn∣X0,…,Xn−1]−E[Yn−1∣X0,…,Xn−1]=Yn−1−Yn−1=0
由于 Di 是有界的,则
Dn=Yn−Yn−1∈[−an,bn]
其中 bn−an=cn。
霍夫丁引理有,因为 E[Dn∣X0,…,Xn−1]=0 与 Dn∈[−an,bn] 对于 bn−an=cn,则有
E[eλDn∣X0,…,Xn−1]⩽eλ2cn2/8
而
E[eλSn]=E[E[eλSn∣X0,…,Xn−1]]=E[E[eλ(Sn−1+Dn)∣X0,…,Xn−1]]=E[eλSn−1E[eλDn∣X0,…,Xn−1]]⩽E[eλSn−1eλ2cn2/8]=eλ2cn2/8E[eλSn−1]
从而得
E[eλSn]⩽exp(8λ2i=1∑nci2)
上尾
Pr(Yn−Y0⩾t)=Pr(Sn⩾t)⩽Pr(eλSn⩾eλt)⩽e−λtE[eλSn]⩽exp(−λt+8λ2i=1∑nci2)=exp(−∑i=1nci22t2)(Markov 不等式)(λ=∑i=1nci24t)
下尾(类似,不过 λ<0)
Pr(Yn−Y0⩽−t)=Pr(Sn⩽−t)⩽Pr(e−λSn⩾e−λt)⩽eλtE[e−λSn]⩽exp(λt+8λ2i=1∑nci2)=exp(−∑i=1nci22t2)(Markov 不等式)(λ=−∑i=1nci24t)
Doob 序列与吾妻不等式可得到 McDiarmid 不等式:
若随机向量 X=(X1,…,Xn) 的函数 f(X) 满足平均情况差分有界性质(average-case bounded differences property):
∣E[f(X)∣X1,…,Xi]−E[f(X∣X1,…,Xi−1)]∣⩽ci
则有对任意 t>0 有
Pr(∣f(X)−E[f(X)]∣⩾t)⩽2exp(−∑i=1nci22t2)
若 Xi∈Xi 相互独立,且 f:X1,…,Xn→R 满足有界差分性质,那么 f(X) 满足平均情况差分有界性质,从而有 McDiarmid 不等式。
随机图
图参数(graph parameter)f(G) 可以是:上色数、团数等。
边 exposure 鞅是
Yi=E[f(G)∣X1,…,Xi],1⩽i⩽(2n)
其中 X1,…,X(2n) 是以 p 为参数的 i.i.d. 伯努利随机变量,使得 Xi 是第 i 条边是否在图中的指示随机变量。
点 exposure 鞅是
Yi=E[f(G)∣X1,…,Xi],1⩽i⩽n
其中 Xi=G[{1,…,i}] 是 G 的一个从开始 i 个顶点诱导出来的子图。
上色数(chromatic number)χ(G) 是最小的颜色数去涂色 G 的顶点,使得相邻的顶点颜色不同。
任意顶点都可以指定一个新的颜色,即 ∣Yi−Yi−1∣⩽1,于是吾妻不等式有
Pr(∣χ(G)−E[χ(G)]∣⩾cn)⩽2e−2c