测度集中

对于伯努利的大数定理,其收敛的具体速率有:

  • 切比雪夫不等式给出:<p(1p)nε214nε2< \dfrac{p(1-p)}{n \varepsilon^2} \le \dfrac{1}{4n \varepsilon^2}
  • CLT 给出 Gaussian-like exp(Ω(ε2n))\exp\left(-\Omega(\varepsilon^2 n)\right)

对于 X1,,Xn{0,1}X_1, \dots, X_n \in \left\lbrace 0, 1 \right\rbrace 为独立随机试验(independent trials, 泊松试验, Poisson trials),它们不一定同分布,并令

Sn=i=1nXiS_n = \sum_{i=1}^{n} X_i

泊松二项随机变量(Poisson binomial random vairable)

下面讨论其偏差集中的尾界(Deviation/concentration/tail bounds):

Pr(SnE[Sn]?)?\Pr(|S_n - \mathbb{E}[S_n] | \ge \mathord{?}) \le \mathord{?}

切尔诺夫-霍夫丁界(Chernoff-Hoeffding Bound)

切尔诺夫界

X1,,Xn{0,1}X_1, \dots, X_n \in \left\lbrace 0, 1 \right\rbrace 是独立试验,有

X=i=1nXiμ=E[X]X = \sum_{i=1}^{n} X_i\quad \mu = \mathbb{E}[X]

对任意 δ>0\delta > 0

Pr(X(1+δ)μ)(eδ(1+δ)1+δ)μ\boxed{\Pr(X \ge (1+\delta)\mu) \le \left(\dfrac{\e^\delta}{(1+\delta)^{1+\delta}}\right)^\mu}

证明

Pr(X(1+δ)μ)=Pr(etXet(1+δ)μ)et(1+δ)μE[etX](Markov 不等式)\begin{aligned} \Pr(X \ge (1+\delta)\mu) &= \Pr(\e^{tX} \ge \e^{t(1+\delta)\mu}) \\ &\le \e^{-t(1+\delta)\mu} \mathbb{E}[e^{tX}] \qquad\text{(Markov 不等式)} \end{aligned}

随机变量 XX 的 MGF 为

MX(t)=E[etX]=k0tkE[Xk]k!M_X(t) = \mathbb{E}[\e^{t X}] = \sum_{k \ge 0} \dfrac{t^{k}\mathbb{E}[X^{k}]}{k!}

X1,,Xn{0,1}X_1, \dots, X_n \in \left\lbrace 0, 1 \right\rbrace 是独立的,且 X=i=1nXiX = \sum\limits_{i=1}^n X_iμ=E[X]\mu = \mathbb{E}[X],则有

MX(t)=E[etX]e(et1)μM_X(t) = \mathbb{E}[\e^{tX}] \le \e^{(\e^t - 1)\mu}

因为

E[etX]=E[i=1netXi]=i=1nE[etXi]=i=1n(etpi+(1pi))(pi=E[Xi])i=1nepi(et1)=e(et1)μ\begin{aligned} \mathbb{E}[\e^{tX}] &= \mathbb{E}\left[ \prod_{i=1}^{n}\e^{tX_i} \right] \\ &= \prod_{i=1}^{n}\mathbb{E}[\e^{tX_i}] \\ &= \prod_{i=1}^{n}\left(\e^t p_i + (1-p_i)\right)\qquad (p_i = \mathbb{E}[X_i])\\ &\le \prod_{i=1}^{n}\e^{p_i(\e^t - 1)} \\ &= \e^{(\e^t - 1)\mu} \end{aligned}

继续上面的步骤有

Pr(X(1+δ)μ)=Pr(etXet(1+δ)μ)et(1+δ)μE[etX](Markov 不等式)et(1+δ)μe(et1)μ=eμ(et1t(1+δ))=(eδ(1+δ)1+δ)μ(t=ln(1+δ))\begin{aligned} \Pr(X \ge (1+\delta)\mu) &= \Pr(\e^{tX} \ge \e^{t(1+\delta)\mu}) \\ &\le \e^{-t(1+\delta)\mu} \mathbb{E}[e^{tX}] \qquad\text{(Markov 不等式)}\\ &\le \e^{-t(1+\delta)\mu} \e^{(\e^t - 1)\mu} \\ &= \e^{\mu(\e^t - 1 - t(1+\delta))} \\ &= \left( \dfrac{\e^{\delta}}{(1+\delta)^{1+\delta}} \right)^\mu\qquad(t = \ln(1+\delta)) \end{aligned}

对任意 0<δ<10 < \delta < 1

Pr(X(1δ)μ)(eδ(1δ)1δ)μ\boxed{\Pr(X \le (1-\delta)\mu) \le \left(\dfrac{\e^{-\delta}}{(1-\delta)^{1-\delta}}\right)^\mu}

证明

类似地,有

Pr(X(1δ)μ)=Pr(etXet(1δ)μ)(t<0)et(1δ)μE[etX]et(1δ)μe(et1)μ=eμ(et1t(1δ))=(eδ(1δ)1δ)μ(t=ln(1δ))\begin{aligned} \Pr(X \le (1-\delta)\mu) &= \Pr(\e^{tX} \ge \e^{t(1-\delta)\mu})\qquad(t < 0)\\ &\le \e^{-t(1-\delta)\mu} \mathbb{E}[e^{tX}] \\ &\le \e^{-t(1-\delta)\mu} \e^{(\e^t - 1)\mu} \\ &= \e^{\mu(\e^t - 1 - t(1-\delta))} \\ &= \left( \dfrac{\e^{-\delta}}{(1-\delta)^{1-\delta}} \right)^\mu\qquad(t = \ln(1-\delta)) \end{aligned}

对任意 δ>0\delta > 0

Pr(X(1+δ)μ)(eδ(1+δ)1+δ)μ{eμδ23if 0<δ12(1+δ)μif (1+δ)2e\Pr(X \ge (1 + \delta) \mu) \le \left( \dfrac{\e^{\delta}}{(1+\delta)^{1+\delta}} \right)^\mu \le \begin{cases} \e^{- \frac{\mu \delta^2}{3}} & \text{if } 0 < \delta \le 1 \\ 2^{-(1+\delta)\mu} & \text{if } (1 + \delta) \ge 2\e \end{cases}

对任意 0<δ<10 < \delta < 1

Pr(X(1δ)μ)(eδ(1δ)1δ)μeμδ22\Pr(X \le (1 - \delta) \mu) \le \left( \dfrac{\e^{-\delta}}{(1-\delta)^{1-\delta}} \right)^\mu \le \e^{- \frac{\mu \delta^2}{2}}

Balls into Bins

mm 个球 u.a.r. 扔进 nn 个桶,随机变量 XiX_i 表示第 ii 个桶中的球数,有 (X1,X2,,Xn)(X_1, X_2, \dots, X_n) \sim 参数为 m,(1n,,1nn)m, \bigl(\overbrace{\tfrac{1}{n}, \dots, \tfrac{1}{n}}^n\Bigr) 的多项式分布。

占用问题(Occupancy problem):最大负载(load)max1inXi\max\limits_{1\le i\le n}X_i w.h.p.

max1inXi={O(lognloglogn)if m=nO(mn)if mnlnn\max_{1\le i\le n}X_i = \begin{cases} O\left( \dfrac{\log n}{\log \log n} \right) &\text{if }m = n\\ O\left(\dfrac{m}{n}\right) &\text{if }m \ge n \ln n \end{cases}

边缘分布有 XiBin(m,1n)X_i \sim \operatorname{Bin}(m, \frac{1}{n})μ=E[Xi]=mn\mu = \mathbb{E}[X_i] = \dfrac{m}{n}

m=nm = n 时,有 μ=1\mu = 1,有

Pr(XiL)=Pr(XiLμ)eLeLL1n2\begin{aligned} \Pr(X_i \ge L)&= \Pr(X_i \ge L \mu)\\ &\le \dfrac{\e^L}{\e L^L}\\ &\le \dfrac{1}{n^2} \end{aligned}

对于 L=elnnlnlnnL = \dfrac{\e \ln n}{\ln \ln n} 成立。因为切尔诺夫界 Pr(Xi(1+δ)μ)(eδ(1+δ)1+δ)μ\Pr(X_i \ge (1+\delta)\mu) \le \left( \dfrac{\e^{\delta}}{(1+\delta)^{1+\delta}} \right)^\mu

并集界(Union bound)给出

Pr(max1inXiL)i=nnPr(XiL)1n\begin{aligned} \Pr\left(\max_{1\le i\le n}X_i \ge L\right) &\le \sum_{i=n}^{n} \Pr(X_i \ge L)\\ &\le \dfrac{1}{n} \end{aligned}

因此 max1inXi=O(lognloglogn)\max\limits_{1\le i\le n}X_i = O\left( \dfrac{\log n}{\log \log n} \right) w.h.p.

mnlnnm \ge n \ln n 时,有 μlnn\mu \ge \ln n,有

Pr(Xi2emn)=Pr(Xi2eμ)22eμ22elnn1n2\begin{aligned} \Pr\left( X_i \ge \dfrac{2\e m}{n} \right) &= \Pr(X_i \ge 2\e \mu)\\ &\le 2^{-2 \e \mu}\\ &\le 2^{-2 \e \ln n}\\ &\le \dfrac{1}{n^2} \end{aligned}

因为 L2eμL \ge 2 \e \mu 时有 Pr(XiL)2L\Pr(X_i \ge L) \le 2^{-L}(切尔诺夫界)。

同样使用并集界可以得到 max1inXi=O(mn)\max\limits_{1\le i\le n}X_i = O\left(\dfrac{m}{n}\right) w.h.p.

霍夫丁界

切尔诺夫不等式(Chernoff's Inequality)

X1,,Xn{0,1}X_1, \dots, X_n \in \left\lbrace 0, 1 \right\rbrace 为独立随机变量,且 Sn=i=1nXiS_n = \displaystyle \sum_{i=1}^{n}X_i,则对任意 t>0t > 0

Pr(SnE[Sn]t)2exp(2t2n)\Pr\left(\left\lvert S_n - \mathbb{E}[S_n] \right\rvert \ge t\right) \le 2 \exp\left(-\dfrac{2t^2}{n}\right)

霍夫丁不等式(Hoeffding's Inequality)

X1,,XnX_1, \dots, X_n 是独立随机变量,Sn=i=1nXiS_n = \displaystyle \sum_{i=1}^{n} X_i,且 Xi[ai,bi]X_i \in [a_i, b_i],则对任意 t>0t > 0

Pr(SnE[Sn]t)2exp(2t2i=1n(biai)2)\Pr\left(\left\lvert S_n - \mathbb{E}[S_n] \right\rvert \ge t\right) \le 2 \exp\left(-\dfrac{2t^2}{\sum_{i=1}^{n}(b_i - a_i)^2}\right)

霍夫丁引理(Hoeffding's Lemma)*

霍夫丁引理(Hoeffding's Lemma)

X[a,b]X \in [a, b] a.s. 且 E[X]=0\mathbb{E}[X] = 0,则

MX(λ)=E[eλX]eλ2(ba)2/8M_X(\lambda) = \mathbb{E}[\e^{\lambda X}] \le \e^{\lambda^2(b-a)^2/8}

证明

因为 eλx\e^{\lambda x} 是凸函数,有

eλxbxbaeλa+xabaeλb\e^{\lambda x} \le \dfrac{b-x}{b-a}\e^{\lambda a} + \dfrac{x-a}{b-a}\e^{\lambda b}

对任意 x[a,b]x \in [a, b] 成立。

于是

E[eλX]bE[X]baeλa+E[X]abaeλb=bbaeλaabaeλb\begin{aligned} \mathbb{E}\left[ \e^{\lambda X} \right] &\le \dfrac{b - \mathbb{E}[X]}{b - a}\e^{\lambda a} + \dfrac{\mathbb{E}[X] - a}{b - a}\e^{\lambda b}\\ &= \dfrac{b}{b-a}\e^{\lambda a} - \dfrac{a}{b-a}\e^{\lambda b}\\ \end{aligned}

L(h)=haba+ln(1+aehaba)L(h) = \dfrac{ha}{b-a} + \ln\left( 1 + \dfrac{a - \e^h a}{b-a} \right),则有

eL(λ(ba))=exp(aλ+lnbaeλ(ba)ba)=eaλ(baeλ(ba)ba)=bbaeλaabaeλb\begin{aligned} \e^{L(\lambda(b-a))} &= \exp \left(a \lambda + \ln \dfrac{b - a \e^{\lambda(b-a)}}{b-a} \right) \\ &= \e^{a \lambda} \left( \dfrac{b - a\e^{\lambda(b-a)}}{b-a} \right) \\ &= \dfrac{b}{b-a}\e^{\lambda a} - \dfrac{a}{b-a}\e^{\lambda b} \end{aligned}

E[eλX]eL(λ(ba))\mathbb{E}\left[ \e^{\lambda X} \right] \le \e^{L(\lambda(b-a))}

而泰勒公式有

L(h)=L(0)+L(0)h+L(ξ)2h2(0<ξ<h)=L(ξ)2h2=abeξ(b+aeξ)212h2abeξ(2baeξ)212h2=18h2\begin{aligned} L(h) &= L(0) + L'(0)h + \dfrac{L''(\xi)}{2}h^2\quad (0 < \xi < h)\\ &= \dfrac{L''(\xi)}{2} h^2\\ &= \dfrac{|a| b \e^{\xi}}{(b + |a| \e^{\xi})^2} \cdot \dfrac{1}{2}h^2\\ &\le \dfrac{|a| b \e^{\xi}}{(2 \sqrt{b |a| \e^{\xi}})^2} \cdot \dfrac{1}{2}h^2\\ &= \dfrac{1}{8}h^2 \end{aligned}

从而 E[eλX]eL(λ(ba))eλ2(ba)2/8\mathbb{E}\left[ \e^{\lambda X} \right] \le \e^{L(\lambda(b-a))} \le \e^{\lambda^2(b-a)^2/8}

霍夫丁界证明

Yi=XiE[Xi]Y_i = X_i - \mathbb{E}[X_i]Y=SnE[Sn]=i=1nYiY = S_n - \mathbb{E}[S_n] = \sum_{i=1}^{n}Y_i,于是 E[Y]=E[Yi]=0\mathbb{E}[Y] = \mathbb{E}[Y_i] = 0

Pr(SnE[Sn]t)=Pr(Yt)Pr(eλYeλt)(λ>0)eλtE[eλY](Markov 不等式)=eλtE[i=1neλYi]=eλti=1nE[eλYi]exp(λt+λ28i=1n(biai)2)(Hoeffding 引理)=exp(2t2i=1n(biai)2)(λ=4ti=1n(biai)2)\begin{aligned} \Pr(S_n - \mathbb{E}[S_n] \ge t) &= \Pr(Y \ge t)\\ &\le \Pr(\e^{\lambda Y} \ge \e^{\lambda t})&(\lambda > 0)\\ &\le \e^{-\lambda t}\mathbb{E}[\e^{\lambda Y}]&\text{(Markov 不等式)}\\ &= \e^{-\lambda t}\mathbb{E}\left[\prod_{i=1}^{n}\e^{\lambda Y_i}\right]\\ &= \e^{-\lambda t}\prod_{i=1}^{n}\mathbb{E}[\e^{\lambda Y_i}]\\ &\le \exp\left(-\lambda t + \frac{\lambda^2}{8}\sum_{i=1}^{n}(b_i - a_i)^2\right) &\text{(Hoeffding 引理)}\\ &= \exp\left(- \dfrac{2t^2}{\sum_{i=1}^{n}(b_i - a_i)^2}\right)&\left(\lambda = \dfrac{4t}{\sum_{i=1}^{n}(b_i - a_i)^2}\right) \end{aligned}

亚高斯尾(Sub-Gaussian Tail)

X1,,Xn{0,1}X_1, \dots, X_n \in \left\lbrace 0, 1 \right\rbrace 是独立泊松试验,同时 Sn=i=1nXiS_n = \displaystyle \sum_{i=1}^{n} X_i,则对任意 t>0t > 0 有切尔诺夫-霍夫丁界

Pr(SnE[Sn]n/2t)2exp(t22)\Pr\left(\left\lvert \dfrac{S_n - \mathbb{E}[S_n]}{\sqrt{n} / 2} \right\rvert \ge t\right) \le 2 \exp\left(-\dfrac{t^2}{2}\right)

注意到 σ(Sn)=i=1nVar[Xi]n2\sigma(S_n) = \sqrt{\displaystyle \sum_{i=1}^{n}\operatorname{Var} [X_i]} \le \dfrac{\sqrt{n}}{2}(伯努利随机方差至多为 14\dfrac{1}{4}),于是标准化的 SnS_n 最差程度上有「亚高斯尾」(Sub-Gaussian Tail)eΩ(t2)\e^{-\Omega(t^2)}

对于一般的独立的 Xi[ai,bi]X_i \in [a_i, b_i],令 Sn=i=1nXiS_n = \displaystyle \sum_{i=1}^{n}X_i,则对任意 t>0t > 0

Pr(SnE[Sn]i=1n(biai)2/4t)2exp(t22)\Pr\left(\left\lvert \dfrac{S_n - \mathbb{E}[S_n]}{\sum_{i=1}^{n}(b_i - a_i)^2 / 4} \right\rvert \ge t\right) \le 2 \exp\left(-\dfrac{t^2}{2}\right)

Z[a,b]Z \in [a, b] 可得 Za+b2ba2\left\lvert Z - \dfrac{a+b}{2} \right\rvert \le \dfrac{b-a}{2}。于是有

Var[Z]=Var[Za+b2]E[(Za+b2)2](ba)24\begin{aligned} \operatorname{Var} [Z] &= \operatorname{Var} \left[Z - \dfrac{a+b}{2}\right]\\ &\le \mathbb{E}\left[\left(Z - \dfrac{a+b}{2}\right)^2\right]\\ &\le \dfrac{(b-a)^2}{4} \end{aligned}

最后一个不等号是因为,对于任意 Z[a,b]Z \in [a, b],有

E[(Za+b2)2]12(aa+b2)2+12(ba+b2)2=(ba)24\begin{aligned} \mathbb{E}\left[\left( Z - \dfrac{a+b}{2}\right)^2 \right] &\le \dfrac{1}{2}\left(a - \dfrac{a+b}{2}\right)^2 + \dfrac{1}{2}\left(b - \dfrac{a+b}{2}\right)^2\\ &= \dfrac{(b-a)^2}{4} \end{aligned}

于是同样的有标准化的 SnS_n 最差程度上有「亚高斯尾」eΩ(t2)\e^{-\Omega(t^2)}

控制公平投票

前提假设不完全提及了。在一个社会中有 nn 个独立随机选民。令 Sn=X1++XnS_n = X_1 + \dots + X_nnn 个 i.i.d. 的参数为 12\dfrac{1}{2} 的伯努利随机变量的和,则有

Pr(Sn(nSn)t)=Pr(2Snnt)=Pr(Snn2t2)=Pr(SnE[Sn]t2)2exp(t22n)δ\begin{aligned} \Pr\left( \left\lvert S_n - (n - S_n) \right\rvert \ge t \right) &= \Pr\left( \left\lvert 2S_n - n \right\rvert \ge t \right)\\ &= \Pr\left( \left\lvert S_n - \dfrac{n}{2} \right\rvert \ge \dfrac{t}{2} \right)\\ &= \Pr\left( \left\lvert S_n - \mathbb{E}[S_n] \right\rvert \ge \dfrac{t}{2} \right) \\ &\le 2\exp\left( - \dfrac{t^2}{2n} \right) \\ &\le \delta \end{aligned}

于是只需令 t2nln(2/δ)t \ge \sqrt{2 n \ln(2 / \delta)} 即可以 1δ1 - \delta 的确定性操纵一个公平的投票。

双侧误差减小(Error Reduction two-sided case)

前提假设跟上面一样不认真写了,毕竟前面都有:

  • 决定性问题 f ⁣:{0,1}{0,1}f\colon \left\lbrace 0, 1 \right\rbrace^{*} \to \left\lbrace 0, 1 \right\rbrace
  • 蒙特卡洛随机算法 A\mathscr{A} 有双侧误差 x{0,1},Pr(A(x)=f(x))12+p\forall x \in \left\lbrace 0, 1 \right\rbrace^{*},\, \Pr(\mathscr{A}(x) = f(x)) \ge \dfrac{1}{2} + p
  • An\mathscr{A}^n 为独立运行 A\mathscr{A} 算法 nn 次,返回 nn 次结果的多数。

Sn=X1,,XnS_n = X_1, \dots, X_n,其中 XiX_i 是第 ii 次运行 A\mathscr{A} 正确与否的指示随机变量,则有

Pr(An(x)f(x))=Pr(Snn2)=Pr(SnE[Sn]pn)exp(2p2n)δ\begin{aligned} \Pr(\mathscr{A}^n(x) \ne f(x)) &= \Pr\left( S_n \le \dfrac{n}{2} \right) \\ &= \Pr\left( S_n \le \mathbb{E}[S_n] - pn \right) \\ &\le \exp(- 2p^2 n)\\ &\le \delta \end{aligned}

于是 n12p2ln1δn \ge \dfrac{1}{2p^2} \ln \dfrac{1}{\delta} 时,可以有 1δ1 - \delta 的确定性输出正确的结果。

中位数技巧(Median Trick)

  • 计算性问题(Computation problem)f ⁣:{0,1}Rf\colon \left\lbrace 0, 1 \right\rbrace^{*} \to\R
  • 随机近似算法 A ⁣:{0,1},Pr(A(x)(1±ϵ)f(x))12+p\mathscr{A}\colon \left\lbrace 0, 1 \right\rbrace^{*},\, \Pr\left( \mathscr{A}(x) \in (1 \pm \epsilon)f(x) \right) \ge \dfrac{1}{2} + p
  • An\mathscr{A}^n 为独立运行 A\mathscr{A} 算法 nn 次,返回 nn 次结果的中位数。

XiX_i 是第 ii 次运行 A\mathscr{A} 的输出在 f(x)f(x)ϵ\epsilon 邻域的指示随机变量,则 E[Xi]12+p\mathbb{E}[X_i] \ge \dfrac{1}{2} + p

则有 An(x)(1±ϵ)f(x)\mathscr{A}^n(x) \in (1\pm \epsilon) f(x) Sn=X1,,Xn>n2S_n=X_1, \dots, X_n > \dfrac{n}{2}

于是

Pr(A(x)(1±ϵ)f(x))Pr(Snn2)Pr(SnE[Sn]np)exp(2p2n)δ\begin{aligned} \Pr(\mathscr{A}(x) \notin (1 \pm \epsilon)f(x)) &\le \Pr(S_n \le \dfrac{n}{2})\\ &\le \Pr(S_n \le \mathbb{E}[S_n] - np)\\ &\le \exp(- 2p^2 n)\\ &\le \delta \end{aligned}

于是可令 n12p2ln1δn \ge \dfrac{1}{2p^2}\ln \dfrac{1}{\delta} 时,可以有 1δ1 - \delta 的确定性输出正确的结果。

kk 阶矩界

假设 XX 期望为 00,切尔诺夫界实际上是

Pr[Xδ]mint0E[etX]etδ\Pr[|X| \ge \delta] \le \min_{t \ge 0} \mathbb{E}\left[ \e^{t |X|} \right] \e^{-t \delta}

对于 kk 阶矩有

Pr[Xδ]E[Xk]δk\Pr[|X| \ge \delta] \le \mathbb{E}\left[ |X|^{k} \right] \delta^{-k}

The Method of Bounded Differences (有界差分方法)

McDiarmid 不等式

McDiarmid 不等式

X1,,XnX_1, \dots, X_n 是独立随机变量,且 XiXiX_i \in \mathscr{X}_i,若 f ⁣:X1,,XnRf\colon \mathscr{X}_1, \dots, \mathscr{X}_n \to\R 满足「有界差分性质」(bounded differences property)

i,supxiXi,xjXjf(x1,,xn)f(x1,,xj1,xj,xj+1,,xn)cj\forall i,\, \sup_{x_i \in \mathscr{X}_i, x_{j}' \in \mathscr{X}_{j}} \left\lvert f(x_1, \dots, x_n) - f(x_1, \dots, x_{j-1}, x_{j}', x_{j+1}, \dots, x_n) \right\rvert \le c_{j}

则对任意 t>0t > 0

Pr(f(X1,,Xn)E[f(X1,,Xn)]t)2exp(2t2i=1nci2)\Pr\left(\left\lvert f(X_1, \dots, X_n) - \mathbb{E}[f(X_1, \dots, X_n)] \right\rvert \ge t \right) \le 2 \exp\left(-\dfrac{2t^2}{\sum_{i=1}^{n}c_{i}^2}\right)

霍夫丁不等式:ff[ai,bi][a_i, b_i] 有界变量的和。

任意满足利普希茨条件(Lipschitz)的函数近似是一个乘积测度上的常函数(瞎翻译,原文看下面)。

Hoeffding's inequality: ff is sum of [ai,bi][a_i, b_i]-bounded variables

Every Lipschitz function is approximately a constant function in product measures.

模式匹配

相关内容可参考前面的笔记

s=(s1,,sn)Qns = (s_1, \dots, s_n) \in Q^n 为均匀随机字符串,有 nn 个从字母表 QQ 中独立随机选择的字符,其中 Q=q|Q| = q

对于模式 πQk\pi \in \Q^{k},令 XXssπ\pi 出现的次数,线性性质有

E[X]=i=1nk+1=E[Ii]=(nk+1)qk\mathbb{E}[X] = \sum_{i=1}^{n-k+1} = \mathbb{E}[I_i] = (n-k+1)q^{-k}

其中 IiI_i 是从 ii 开始的子串是否匹配 π\pi

McDiarmid 不等式有

Pr(XE[X]>t)2exp(2t2nk2)\begin{aligned} \Pr\left( \left\lvert X - \mathbb{E}[X] \right\rvert > t\right) \le 2\exp\left(-\dfrac{2t^2}{nk^2}\right) \end{aligned}

空桶

mm 球扔进 nn 桶,令 YY 为空桶的数目,有

Y=i=1nIiY = \sum_{i=1}^{n} I_i

其中 IiI_i 是第 ii 个桶是否为空的指示随机变量。

期望的线性性质有

E[Y]=n(11n)m\mathbb{E}[Y] = n\left(1 - \dfrac{1}{n}\right)^m

那么偏差 Pr(YE[Y]t)\Pr\left( |Y - \mathbb{E}[Y]| \ge t \right) 的上界应该为多少呢?

Xi[n]X_i \in [n] 表示获得第 ii 个球的桶的编号。则有

Y=n{X1,,Xm}Y = n - |\{X_1, \dots, X_m\}|

11 有界差分(11-bounded differences)。

于是运用 McDiarmid 不等式有

Pr(YE[Y]t)2exp(2t2m)\Pr\left( |Y - \mathbb{E}[Y]| \ge t \right) \le 2\exp\left(-\dfrac{2t^2}{m}\right)

Doob 序列

nn 元函数 f ⁣:RnRf\colon\R^n \to\R 上随机变量 X1,,XnX_1, \dots, X_nDoob 序列(Doob sequence)Y0,Y1,,YnY_0, Y_1, \dots, Y_n 定义为

{Y0=E[f(X1,,Xn)]Yi=E[f(X1,,Xn)X1,,Xi]\left\lbrace\begin{aligned} Y_0 &= \mathbb{E}[f(X_1, \dots, X_n)]\\ Y_i &= \mathbb{E}[f(X_1, \dots, X_n) \mid X_1, \dots, X_i] \end{aligned}\right.

也就是说有从 Y0=E[f(X1,,Xn)]Y_0 = \mathbb{E}[f(X_1, \dots, X_n)] 无信息,到 Yn=f(X1,,Xn)Y_n = f(X_1, \dots, X_n),给出了全信息。

鞅性质(Martingale Property)

E[YiX1,,Xi1]=Yi1\mathbb{E}[Y_i \mid X_1, \dots, X_{i-1}] = Y_{i-1}

证明

E[YiX1,,Xi1]=E[E[f(X1,,Xn)X1,,Xi]X1,,Xi1]=E[f(X1,,Xn)X1,,Xi1]=Yi1\begin{aligned} \mathbb{E}[Y_i \mid X_1, \dots, X_{i-1}] &= \mathbb{E}\left[\mathbb{E}[f(X_1, \dots, X_n) \mid X_1, \dots, X_i] \mid X_1, \dots, X_{i-1}\right]\\ &= \mathbb{E}[f(X_1, \dots, X_n) \mid X_1, \dots, X_{i-1}]\\ &= Y_{i-1} \end{aligned}

第二个等号是因为 E[E[ZY,X]X]=E[ZX]\mathbb{E}[\mathbb{E}[Z \mid Y, X] \mid X] = \mathbb{E}[Z \mid X],证明如下:

E[E[ZY,X]X]=eePr(E[ZY,X]=eX)=eePr(Z=eX)=E[ZX]\begin{aligned} \mathbb{E}[\mathbb{E}[Z \mid Y, X] \mid X] &= \sum_e e \cdot \Pr(\mathbb{E}[Z \mid Y, X] = e \mid X)\\ &= \sum_e e \cdot \Pr(Z = e \mid X)\\ &= \mathbb{E}[Z \mid X] \end{aligned}

亏损加仓投注赌博策略也称为「鞅」(Martingale)策略。

定义

鞅是一个随机过程,其条件期望是给定过去所有信息的期望。

{Xn ⁣:n0}\left\lbrace X_n \colon n \ge 0 \right\rbrace 是一个随机过程,若 {Yn ⁣:n0}\left\lbrace Y_n\colon n \ge 0 \right\rbrace 对任意 nn 有「鞅性质」(martingale property):

E[Yn+1X0,X1,,Xn]=Yn\boxed{\mathbb{E}[Y_{n+1} \mid X_0, X_1, \dots, X_n] = Y_n}

E[Yn]<\mathbb{E}[|Y_n|] < \infty ,则称序列 {Yn ⁣:n0}\left\lbrace Y_n\colon n \ge 0 \right\rbrace 是一个(martingale)。

根据定义,YnY_nX0,X1,,XnX_0, X_1, \dots, X_n 的函数。

鞅是一个公平的过程,因为在任意时刻 nnYnY_n 的期望等于 Yn1Y_{n-1} 的期望。另有:

  • 上鞅(super-martingale):E[Yn+1X1,,Xn]Yn\mathbb{E}[Y_{n+1} \mid X_1, \dots, X_n] \le Y_n
  • 下鞅(sub-martingale):E[Yn+1X1,,Xn]Yn\mathbb{E}[Y_{n+1} \mid X_1, \dots, X_n] \ge Y_n

{Xn ⁣:n0}\left\lbrace X_n\colon n \ge 0 \right\rbrace 定义在概率空间 (Ω,Σ,Pr)(\Omega, \Sigma, \Pr) 上,有:

  • (X0,X1,,Xn)(X_0, X_1, \dots, X_n) 定义了一个子 σ\sigma-代数 ΣnΣ\Sigma_n \subseteq \Sigma
    • 也是最小的使得 (X0,,Xn)(X_0, \dots, X_n)Σn\Sigma_n 可测的 σ\sigma-代数。
  • {Σn ⁣:n0}\left\lbrace \Sigma_n\colon n\ge 0 \right\rbraceΣ\Sigma 的一个过滤(filtration),即 Σ0Σ1Σ\Sigma_0 \subseteq \Sigma_1 \subseteq \dots \subseteq \Sigma
  • 鞅性质可表示为 E[Yn+1Σn]=Yn\mathbb{E}[Y_{n+1} \mid \Sigma_n] = Y_n

随着 nn 的增大,Σn\Sigma_n 表示越来越多的已知信息。Σn\Sigma_n 包含了从 t=0t = 0t=nt = n 的所有信息。

例子

  • Doob 鞅
  • 公平赌博游戏
  • 公平一维随机游走(unbiased 1D random walk)
  • 棣莫弗鞅
  • Polya 的瓮:瓮有不同颜色的弹珠,每轮均匀随机选择一个弹珠,然后换成 kk 个相同颜色的弹珠。

研究

  • 鞅的测度集中(尾不等式):在什么情况下有 Pr(YnY0t)?\Pr(|Yn - Y_0| \ge t) \le \mathord{?}
  • 可选停止定理(OST, optional stopping theorem original sound track):在什么情况下对于一个停止时 τ\tauE[Yτ]=E[Y0]\mathbb{E}[Y_{\tau}] = \mathbb{E}[Y_0]

鞅尾不等式

吾妻不等式(Azuma's inequality)

若序列 {Yn ⁣:n0}\left\lbrace Y_n\colon n \ge 0 \right\rbrace 是对某个序列 {Xn ⁣:n0}\left\lbrace X_n\colon n \ge 0 \right\rbrace 的一个鞅,且对任意 n1n \ge 1

YnYn1cn|Y_n - Y_{n-1}| \le c_n

则对任意 n1n \ge 1t>0t > 0

Pr(YnY0t)2exp(2t2i=1nci2)\boxed{\Pr\left( |Y_n - Y_0| \ge t \right) \le 2 \exp\left(-\dfrac{2t^2}{\sum_{i=1}^{n}c_i^2}\right)}

该不等式以日本数学家「吾妻一兴」(Azuma Kazuoki)命名。

证明

差分 Di=YiYi1D_i = Y_i - Y_{i-1} 与和 Sn=i=1nDi=YnY0S_n = \displaystyle \sum_{i=1}^{n}D_i = Y_n - Y_0,则目标是证明

Pr(Snt)2exp(2t2i=1nci2)\Pr\left( |S_n| \ge t \right) \le 2 \exp\left( - \dfrac{2t^2}{\sum_{i=1}^{n}c_i^2} \right)

{Yn ⁣:n0}\left\lbrace Y_n\colon n \ge 0 \right\rbrace 是鞅 w.r.t. {Xn ⁣:n0}\left\lbrace X_n\colon n \ge 0 \right\rbrace,则有

E[DnX0,,Xn1]=E[YnYn1X0,,Xn1]=E[YnX0,,Xn1]E[Yn1X0,,Xn1]=Yn1Yn1=0\begin{aligned} \mathbb{E}[D_n \mid X_0, \dots, X_{n-1}] &= \mathbb{E}[Y_n - Y_{n-1} \mid X_0, \dots, X_{n-1}]\\ &= \mathbb{E}[Y_n \mid X_0, \dots, X_{n-1}] - \mathbb{E}[Y_{n-1} \mid X_0, \dots, X_{n-1}]\\ &= Y_{n-1} - Y_{n-1}\\ &= 0 \end{aligned}

由于 DiD_i 是有界的,则

Dn=YnYn1[an,bn]\begin{aligned} D_n = Y_n - Y_{n-1}\in [-a_n, b_n] \end{aligned}

其中 bnan=cnb_n - a_n = c_n

霍夫丁引理有,因为 E[DnX0,,Xn1]=0\mathbb{E}[D_n \mid X_0, \dots, X_{n-1}] = 0Dn[an,bn]D_n \in [-a_n, b_n] 对于 bnan=cnb_n - a_n = c_n,则有

E[eλDnX0,,Xn1]eλ2cn2/8\mathbb{E}[\e^{\lambda D_n} \mid X_0, \dots, X_{n-1}] \le \e^{\lambda^2c_n^2/8}

E[eλSn]=E[E[eλSnX0,,Xn1]]=E[E[eλ(Sn1+Dn)X0,,Xn1]]=E[eλSn1E[eλDnX0,,Xn1]]E[eλSn1eλ2cn2/8]=eλ2cn2/8E[eλSn1]\begin{aligned} \textcolor{ff0099}{\mathbb{E}[\e^{\lambda S_n}]} &= \mathbb{E}[\mathbb{E}[e^{\lambda S_n} \mid X_0, \dots, X_{n-1}]]\\ &= \mathbb{E}[\mathbb{E}[\e^{\lambda(S_{n-1}+D_n)} \mid X_0, \dots, X_{n-1}]]\\ &= \mathbb{E}[\e^{\lambda S_{n-1}}\mathbb{E}[\e^{\lambda D_n} \mid X_0, \dots, X_{n-1}]]\\ &\le \mathbb{E}[\e^{\lambda S_{n-1}}\e^{\lambda^2c_n^2/8}]\\ &= \e^{\lambda^2 c_n^2 / 8} \textcolor{ff0099}{\mathbb{E}[\e^{\lambda S_{n-1}}]} \end{aligned}

从而得

E[eλSn]exp(λ28i=1nci2)\mathbb{E}[\e^{\lambda S_n}] \le \exp\left( \dfrac{\lambda^2}{8}\sum_{i=1}^{n}c_i^2 \right)

上尾

Pr(YnY0t)=Pr(Snt)Pr(eλSneλt)eλtE[eλSn](Markov 不等式)exp(λt+λ28i=1nci2)=exp(2t2i=1nci2)(λ=4ti=1nci2)\begin{aligned} \Pr(Y_n - Y_0 \ge t) &= \Pr(S_n \ge t)\\ &\le \Pr(\e^{\lambda S_n} \ge \e^{\lambda t})\\ &\le \e^{-\lambda t} \mathbb{E}[\e^{\lambda S_n}] &\text{(Markov 不等式)}\\ &\le \exp\left( -\lambda t + \dfrac{\lambda^2}{8}\sum_{i=1}^{n}c_i^2 \right)\\ &= \exp\left( -\dfrac{2t^2}{\sum_{i=1}^{n}c_i^2} \right) &\left(\lambda = \dfrac{4t}{\sum_{i=1}^{n}c_i^2}\right) \end{aligned}

下尾(类似,不过 λ<0\lambda < 0

Pr(YnY0t)=Pr(Snt)Pr(eλSneλt)eλtE[eλSn](Markov 不等式)exp(λt+λ28i=1nci2)=exp(2t2i=1nci2)(λ=4ti=1nci2)\begin{aligned} \Pr(Y_n - Y_0 \le -t) &= \Pr(S_n \le -t)\\ &\le \Pr(\e^{-\lambda S_n} \ge \e^{-\lambda t})\\ &\le \e^{\lambda t} \mathbb{E}[\e^{-\lambda S_n}] &\text{(Markov 不等式)}\\ &\le \exp\left( \lambda t + \dfrac{\lambda^2}{8}\sum_{i=1}^{n}c_i^2 \right)\\ &= \exp\left( -\dfrac{2t^2}{\sum_{i=1}^{n}c_i^2} \right) &\left(\lambda = -\dfrac{4t}{\sum_{i=1}^{n}c_i^2}\right) \end{aligned}

Doob 序列与吾妻不等式可得到 McDiarmid 不等式:

若随机向量 X=(X1,,Xn)\mathbf{X} = (X_1, \dots, X_n) 的函数 f(X)f(\mathbf{X}) 满足平均情况差分有界性质(average-case bounded differences property):

E[f(X)X1,,Xi]E[f(XX1,,Xi1)]ci\left\lvert \mathbb{E}\left[ f(\mathbf{X}) \mid X_1, \dots, X_i \right] - \mathbb{E}\left[ f(\mathbf{X} \mid X_1, \dots, X_{i-1}) \right] \right\rvert \le c_i

则有对任意 t>0t > 0

Pr(f(X)E[f(X)]t)2exp(2t2i=1nci2)\Pr\left( \left\lvert f(\mathbf{X}) - \mathbb{E}[f(\mathbf{X})] \right\rvert \ge t \right) \le 2 \exp\left(-\dfrac{2t^2}{\sum_{i=1}^{n}c_i^2}\right)

XiXiX_i \in \mathscr{X}_i 相互独立,且 f ⁣:X1,,XnRf\colon \mathscr{X}_1, \dots, \mathscr{X}_n \to\R 满足有界差分性质,那么 f(X)f(\mathbf{X}) 满足平均情况差分有界性质,从而有 McDiarmid 不等式。

随机图

图参数(graph parameter)f(G)f(G) 可以是:上色数、团数等。

边 exposure 鞅是

Yi=E[f(G)X1,,Xi],1i(n2)Y_i = \mathbb{E}[f(G) \mid X_1, \dots, X_i],\quad 1 \le i \le \dbinom{n}{2}

其中 X1,,X(n2)X_1, \dots, X_{\binom{n}{2}} 是以 pp 为参数的 i.i.d. 伯努利随机变量,使得 XiX_i 是第 ii 条边是否在图中的指示随机变量。

点 exposure 鞅是

Yi=E[f(G)X1,,Xi],1inY_i = \mathbb{E}[f(G) \mid X_1, \dots, X_i],\quad 1 \le i \le n

其中 Xi=G[{1,,i}]X_i = G[\left\lbrace 1, \dots, i \right\rbrace]GG 的一个从开始 ii 个顶点诱导出来的子图。

上色数(chromatic number)χ(G)\chi(G) 是最小的颜色数去涂色 GG 的顶点,使得相邻的顶点颜色不同。

任意顶点都可以指定一个新的颜色,即 YiYi11|Y_i - Y_{i-1}| \le 1,于是吾妻不等式有

Pr(χ(G)E[χ(G)]cn)2e2c\Pr\left( \left\lvert \chi(G) - \mathbb{E}[\chi(G)] \right\rvert \ge \sqrt{c n} \right) \le 2 \e^{-2c}