期望

定义

一个随机变量 XX期望(expectation, or mean)定义为

E[X]=xxpX(x)\mathbb{E}[X] = \sum_{x} x \cdot p_X(x)

其中 pXp_X 表示 XX 的概率质量函数(pmf)。

E[X]\mathbb{E}[X] 可能为 \infty ,本节基本假定 E[X]<\mathbb{E}[X] < \infty 绝对收敛(absolute convergence)。一些反例:

  • 圣彼得堡悖论pX(2k)=2kp_X(2^{k}) = 2^{-k}
  • XZ\{0},pX(k)=1ak2,a=π23X \in \Z \backslash\left\lbrace 0 \right\rbrace,\, p_X(k) = \dfrac{1}{ak^2},\, a = \dfrac{\pi^2}{3}

性质

指示随机变量

对于以 pp 为参数的伯努利随机变量 X{0,1}X \in \left\lbrace 0, 1 \right\rbrace,有

E[X]=0(1p)+1p=p\mathbb{E}[X] = 0 \cdot (1-p) + 1 \cdot p = p

对于事件 AA 的指示随机变量 X=I(A)X = I(A),有

E[X]=0Pr(Ac)+1Pr(A)=Pr(A)\mathbb{E}[X] = 0 \cdot \Pr(A^c) + 1 \cdot \Pr(A) = \Pr(A)

变量变换(Change of Variables

Law Of The Unconscious Statistician (LOTUS)
不省人事的统计学家定律
叫「无意识」应该更合理?

LOTUS

对于 f ⁣:RRf\colon \R \to \R 以及离散随机变量 XXX=(X1,,Xn)\bm{X} = (X_1, \dots, X_n),有

  • E[f(X)]=xf(x)pX(x)\mathbb{E}[f(X)] = \sum_x f(x)p_X(x)
  • E[f(X)]=xf(x)pX(x)=(x1,,xn)f(x1,,xn)pX(x1,,xn)\mathbb{E}[f(\bm{X})] = \sum_{\bm{x}} f(\bm{x})p_{\bm{X}}(\bm{x}) = \sum\limits_{(x_1, \dots, x_n)}f(x_1, \dots, x_n)p_{\bm{X}}(x_1, \dots, x_n)
证明

Y=f(X1,,Xn)Y = f(X_1, \dots, X_n),于是

E[f(X1,,Xn)]=yyPr(Y=y)=yy(x1,,xn)f1(y)Pr[(X1,,Xn)=(x1,,xn)]=(x1,,xn)f(x1,,xn)Pr[(X1,,Xn)=(x1,,xn)]=(x1,,xn)f(x1,,xn)pX(x1,,xn)\begin{aligned} \mathbb{E}[f(X_1, \dots, X_n)] &= \sum_y y \Pr(Y = y) \\ &= \sum_y y\sum_{(x_1, \dots, x_n) \in f^{-1}(y)} \Pr[(X_1, \dots, X_n) = (x_1, \dots, x_n)] \\ &= \sum_{(x_1, \dots, x_n)} f(x_1, \dots, x_n) \Pr[(X_1, \dots, X_n) = (x_1, \dots, x_n)] \\ &= \sum_{(x_1, \dots, x_n)} f(x_1, \dots, x_n) p_{\bm{X}}(x_1, \dots, x_n) \end{aligned}

期望的线性性质

对于 a,bRa, b \in \R 与随机变量 X,YX, Y

  • E[aX+b]=aE[X]+b\mathbb{E}[aX + b] = a\mathbb{E}[X] + b
  • E[X+Y]=E[X]+E[Y]\mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]

对于在随机变量 X1,,XnX_1, \dots, X_n 上的线性(仿射)(linear (affine))函数 ff,有

E[f(X1,,Xn)]=f(E[X1],,E[Xn])\mathbb{E}[f(X_1, \dots, X_n)] = f(\mathbb{E}[X_1], \dots, \mathbb{E}[X_n])

对于任意相互不独立(dependent)的随机变量 X1,,XnX_1, \dots, X_n,上式成立[1]

证明

Proof 1.

E[aX+b]=x(ax+b)pX(x)=axxpX(x)+bxpX(x)=aE[X]+b\begin{aligned} \mathbb{E}[aX + b] &= \sum_x (ax + b)p_X(x) \\ &= a \sum_x x p_X(x) + b \sum_x p_X(x) \\ &= a \mathbb{E}[X] + b \end{aligned}

Proof 2.

E[X+Y]=x,y(x+y)Pr[(X,Y)=(x,y)]=xxyPr[(X,Y)=(x,y)]+yyxPr[(X,Y)=(x,y)]=xxPr[X=x]+yyPr[Y=y]=xxpX(x)+yypY(y)=E[X]+E[Y]\begin{aligned} \mathbb{E}[X + Y] &= \sum_{x, y} (x + y)\Pr[(X, Y) = (x, y)] \\ &= \sum_x x \sum_y \Pr[(X, Y) = (x, y)] + \sum_y y \sum_x \Pr[(X, Y) = (x, y)] \\ &= \sum_x x \Pr[X = x] + \sum_y y \Pr[Y = y] \\ &= \sum_x x p_X(x) + \sum_y y p_Y(y) \\ &= \mathbb{E}[X] + \mathbb{E}[Y] \end{aligned}


  1. It holds for arbitrarily dependent X1,,XnX_1, \dots, X_n ↩︎

一些分布的期望

泊松分布

泊松分布 XPois(λ)X \sim \operatorname{Pois}(\lambda) 的期望

E[X]=λ\mathbb{E}[X] = \lambda

证明

E[X]=k0keλλkk!=k1eλλk(k1)!=k0eλλk+1k!=λk0eλλkk!=λ\begin{aligned} \mathbb{E}[X] &= \sum_{k\ge 0} k \dfrac{\e^{-\lambda}\lambda^{k}}{k!}\\ &= \sum_{k\ge 1} \dfrac{\e^{-\lambda}\lambda^{k}}{(k-1)!}\\ &= \sum_{k\ge 0} \dfrac{\e^{-\lambda}\lambda^{k+1}}{k!}\\ &= \lambda \sum_{k\ge 0} \dfrac{\e^{-\lambda}\lambda^{k}}{k!}\\ &= \lambda \end{aligned}

二项分布

对于二项随机变量 XBin(n,p)X \sim \operatorname{Bin}(n, p),有

E[X]=np\mathbb{E}[X] = np

证明

E[X]=k=0nk(nk)pk(1p)nk\mathbb{E}[X] = \sum_{k=0}^{n} k \dbinom{n}{k}p^{k}(1-p)^{n-k}

不过注意到 XBin(n,p)X \sim \operatorname{Bin}(n, p) 可表示为 X=X1++XnX = X_1 + \dots + X_n,其中 XiX_i 是 i.i.d. 以 pp 为参数的伯努利随机变量,于是

E[X]=E[X1]++E[Xn]=np\mathbb{E}[X] = \mathbb{E}[X_1] + \dots + \mathbb{E}[X_n] = np

几何分布

对于几何随机变量 XGeo(p)X \sim \operatorname{Geo}(p),有

E[X]=1p\mathbb{E}[X] = \dfrac{1}{p}

证明

E[X]=k1k(1p)k1p\mathbb{E}[X] = \sum_{k\ge 1} k(1-p)^{k-1}p \\

注意到 XGeo(p)X \sim \operatorname{Geo}(p) 可以表示为 X=k1Ik\displaystyle X = \sum_{k \ge 1}I_{k},其中 IkI_{k} 是一个指示函数,表示k1k-1 次试验是否全部失败(indicate whether all of the first k1k-1 trials fail)。

E[X]=k1E[Ik]=k1(1p)k1=1p\begin{aligned} \mathbb{E}[X] &= \sum_{k\ge 1} \mathbb{E}[I_{k}] \\ &= \sum_{k\ge 1}(1-p)^{k-1}\\ &= \dfrac{1}{p} \end{aligned}

负二项分布

对于以 r,pr, p 为参数的负二项随机变量 XX,有

E[X]=r1pp\mathbb{E}[X] = r \dfrac{1-p}{p}

证明

E[X]=k1k(k+r1k)(1p)kpr\mathbb{E}[X] = \sum_{k\ge 1} k\dbinom{k+r-1}{k}(1-p)^{k}p^r

XX 可表示为 (X11)++(Xr1)(X_1 - 1) + \dots + (X_r - 1),其中 XiX_i 是 i.i.d. 以 pp 为参数的几何随机变量,于是

E[X]=E[X1]++E[Xr]r=r1pp\mathbb{E}[X] = \mathbb{E}[X_1] + \dots + \mathbb{E}[X_r] - r = r \dfrac{1-p}{p}

超几何分布

对于以 N,M,nN, M, n 为参数的超几何随机变量 XX,有

E[X]=nMN\mathbb{E}[X] = n \dfrac{M}{N}

证明

E[X]=k=0nk(Mk)(NMnk)(Nn)\mathbb{E}[X] = \sum_{k=0}^{n} k \dfrac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}

每个红球(成功)以概率 (N1n1)(Nn)=nN\dfrac{\binom{N-1}{n-1}}{\binom{N}{n}} = \dfrac{n}{N} 被选中。同时 X=X1++XMX = X_1 + \dots + X_M,其中 Xi{0,1}X_i \in \left\lbrace 0, 1 \right\rbrace 表示ii 个红球是否被选中,于是

E[X]=E[X1]++E[XM]=nMN\mathbb{E}[X] = \mathbb{E}[X_1] + \dots + \mathbb{E}[X_M] = n \dfrac{M}{N}

例子

模式匹配(Pattern Matching)

s=(s1,,sn)Qns = (s_1, \dots, s_n) \in Q^n,表示长度为 nn 的均匀随机字串,由大小为 qq 的字母表 QQ 中的字母组成。

对于长度为 kk 的字串(patternπQk\pi \in Q^{k},令 XX 表示字串 π\pi 出现在 ss 中的次数。

Ii{0,1}I_i \in \left\lbrace 0, 1 \right\rbrace 表示ii 个位置是否匹配,即 π=(si,,si+k1)\pi = (s_i, \dots, s_{i+k-1}),于是 X=i=1nk+1Ii\displaystyle X = \sum_{i=1}^{n-k+1}I_i

期望的线性性质给出

E[X]=i=1nk+1E[Ii]=(nk+1)E[Ii]=(nk+1)qk\begin{aligned} \mathbb{E}[X] &= \sum_{i=1}^{n-k+1}\mathbb{E}[I_i] \\ &= (n-k+1)\mathbb{E}[I_i] \\ &= (n-k+1)q^{-k} \end{aligned}

字串匹配次数的期望与给定字串 π\pi 无关,仅与其长度有关。

但是期望的首次匹配成功的位置(expected time(position) for the first appearance)就可能与 π\pi 有关。

赠券收集问题Coupon Collector's Problem

假设有 nn 种赠券,每种赠券获取概率相同,而且赠券亦无限供应。要集齐 nn 种赠券。

Balls-into-bins 模型:一个个地扔球,u.a.r.,使得 nn 个桶全部被占据。

  • XX 表示使 nn 个桶非空的扔球次数
  • XiX_i 表示恰有 i1i-1 个非空桶时的扔球次数

XiX_i 是一个以 pip_i 为参数的几何随机变量,pi=1i1np_i = 1 - \dfrac{i-1}{n},且 X=i=1nXi\displaystyle X = \sum_{i=1}^{n}X_i,于是

E[X]=i=1nE[Xi]=i=1nnni+1=ni=1n1i=nH(n)nlnn\begin{aligned} \mathbb{E}[X] &= \sum_{i=1}^{n}\mathbb{E}[X_i] \\ &= \sum_{i=1}^{n} \dfrac{n}{n-i+1}\\ &= n \sum_{i=1}^{n} \dfrac{1}{i}\\ &= n H(n)\\ &\approx n \ln n \end{aligned}

其中 H(n)H(n) 表示第 nn 个调和数(harmonic number)。

双重计数法(Double Counting)

对于非负随机变量 XX,其取值范围为 {0,1,}\left\lbrace 0, 1, \dots \right\rbrace,有

E[X]=k=0Pr[X>k]\mathbb{E}[X] = \sum_{k=0}^{\infty}\Pr[X > k]

证明一(双重计数)

E[X]=x0xPr[X=x]=x0k=0x1Pr[X=x]=k0x>kPr[X=x]=k0Pr[X>k]\begin{aligned} \mathbb{E}[X] &= \sum_{x \ge 0} x \Pr[X = x]\\ &= \sum_{x\ge 0}\sum_{k=0}^{x-1}\Pr[X = x]\\ &= \sum_{k\ge 0}\sum_{x > k} \Pr[X = x]\\ &= \sum_{k\ge 0}\Pr[X > k] \end{aligned}

纵轴表示 xx,横轴表示 pXp_X,先对 xx 求和,再变为 kk 求和。

证明二(期望的线性性质)

Ik{0,1}I_{k} \in \left\lbrace 0, 1 \right\rbrace 表示是否有 X>kX > k,于是 X=k0IkX = \sum_{k \ge 0}I_{k}。由期望的线性性质有

E[X]=k0E[Ik]=k0Pr[X>k]\begin{aligned} \mathbb{E}[X] &= \sum_{k\ge 0} \mathbb{E}[I_{k}]\\ &= \sum_{k\ge 0} \Pr[X > k] \end{aligned}

Open Addressing with Uniform Hashing

哈希表(Hash table):全集 UUnn 个键值(keys)通过哈希函数 h ⁣:U[m]h\colon U \to [m] 映射(map)到 mm 个槽位(slots)上,

开放寻址(open addressing):当哈希冲突(hash collision)发生时,探测策略(probing strategy)为,当查找一个键值 xUx \in U 时,第 ii 次探测的槽位由 h(x,i)h(x, i) 给出,有以下几种策略:

  • 线性探测(linear probing):h(x,i)=h(x)+i(modm)h(x, i) = h(x) + i \pmod m
  • 二次探测(quadratic probing):h(x,i)=h(x)+c1i+c2i2(modm)h(x, i) = h(x) + c_1i + c_2i^2 \pmod m
  • 双重哈希(double hashing):h(x,i)=h1(x)+ih2(x)(modm)h(x, i) = h_1(x) + ih_2(x) \pmod m
  • uniform hashingh(x,i)=π(i)h(x, i) = \pi(i),其中 π\pi[m][m] 上的一个随机排列(random permutation)。是最理想的情况。

在一个负载因子(load factor)为 α=nm\alpha = \dfrac{n}{m} 的哈希表中,考虑 uniform hashing,在一次不成功的查找中,探测次数的期望为 11α\dfrac{1}{1-\alpha}[1]

证明

假设 XX 表示在一次不成功的查找中的探测次数,AiA_i 是第 ii 次探测的插槽被占据的事件,有

E[X]=k=0Pr[X>k]=1+k=1Pr[X>k]=1+k=1Pr(i=1kAi)=1+k=1i=1kPr(Aij<iAj)(chain rule)=1+k=1i=1kni+1mi+11+k=1i=1knm=1+k=1αk=11α\begin{aligned} \mathbb{E}[X] &= \sum_{k=0}^{\infty} \Pr[X > k]\\ &= 1 + \sum_{k=1}^{\infty} \Pr[X > k]\\ &= 1 + \sum_{k=1}^{\infty} \Pr\left(\bigcap_{i=1}^{k} A_i\right)\\ &= 1 + \sum_{k=1}^{\infty} \prod_{i=1}^{k} \Pr\left(A_i \Biggm| \bigcap_{j < i} A_{j}\right)\quad \text{(chain rule)}\\ &= 1 + \sum_{k=1}^{\infty} \prod_{i=1}^{k} \dfrac{n-i+1}{m-i+1}\\ &\le 1 + \sum_{k=1}^{\infty}\prod_{i=1}^{k}\dfrac{n}{m}\\ &= 1 + \sum_{k=1}^{\infty}\alpha^{k}\\ &= \dfrac{1}{1-\alpha} \end{aligned}

容斥原理

I(A){0,1}I(A) \in \left\lbrace 0, 1 \right\rbrace 是事件 AA 的指示随机变量,显然有

  • I(Ac)=1I(A)I(A^c) = 1 - I(A)
  • I(AB)=I(A)I(B)I(A \cap B) = I(A) \cdot I(B)

对于事件 A1,,AnA_1, \dots, A_n,有

I(i=1nAi)=1I(i=1nAic)=1i=1nI(Aic)=1i=1n(1I(Ai))=1S[n](1)SiSI(Ai)(二项式定理)=1S[n](1)SI(iSAi)=S[n](1)S1I(iSAi)(1 跟  抵消了)\begin{aligned} I\left( \bigcup_{i=1}^n A_i \right) &= 1 - I\left( \bigcap_{i=1}^n A_i^c \right)\\ &= 1 - \prod_{i=1}^n I(A_i^c)\\ &= 1 - \prod_{i=1}^n \left(1 - I(A_i)\right)\\ &= 1 - \sum_{S \subseteq [n]}(-1)^{\left| S \right|}\prod_{i \in S}I(A_i)\quad \text{(二项式定理)}\\ &= 1 - \sum_{S \subseteq [n]}(-1)^{\left| S \right|} I\left(\bigcap_{i \in S}A_i\right)\\ &= \sum_{\empty \ne S \subseteq [n]}(-1)^{\left| S \right| - 1}I\left(\bigcap_{i \in S}A_i\right)\quad \text{(1 跟 $\empty$ 抵消了)} \end{aligned}

布尔不等式

对于事件 A1,,AnA_1, \dots, A_n,有

I(i=1nAi)=1i=1n(1I(Ai))=k=1n(1)k1S([n]k)I(iSAi)\begin{aligned} I\left( \bigcup_{i=1}^n A_i \right) &= 1 - \prod_{i=1}^n \left(1 - I(A_i)\right)\\ &= \sum_{k=1}^{n} (-1)^{k-1}\sum_{S \in \binom{[n]}{k}} I\left(\bigcap_{i \in S}A_i\right)\\ \end{aligned}

定义随机变量 Xk(i=1nI(Ai)k)X_{k} \coloneqq \dbinom{\sum\limits_{i=1}^{n}I(A_i)}{k},于是

Xk=S([n]k)iSI(Ai)=S([n]k)I(iSAi)\begin{aligned} X_{k} &= \sum_{S \in \binom{[n]}{k}} \prod_{i \in S} I(A_i)\\ &= \sum_{S \in \binom{[n]}{k}} I\left(\bigcap_{i \in S}A_i\right)\\ \end{aligned}

XkX_k 作为二项式系数,是单峰的。[2]

对于单峰序列 XkX_{k},有

k2t(1)k1Xkk=1n(1)k1Xkk2t+1(1)k1Xk\sum_{k \le 2t} (-1)^{k-1} X_{k} \le \sum_{k=1}^{n} (-1)^{k-1} X_{k} \le \sum_{k \le 2t+1} (-1)^{k-1} X_{k}

求期望则可得 Boolean-Bonferroni 不等式。

线性性质的局限性

对于无穷求和,线性性质不一定成立。

对于无穷随机变量 X1,X2,X_1, X_2, \dotsE[i=1Xi]=i=1E[Xi]\displaystyle \mathbb{E}\left[\sum_{i=1}^{\infty}X_i\right] = \sum_{i=1}^{\infty} \mathbb{E}[X_i] 当且仅当 i=1E[Xi]<\displaystyle \sum_{i=1}^{\infty} \mathbb{E}[|X_i|] < \infty(绝对收敛)。

存在 E[i=1Xi]<,i=1E[Xi]<\displaystyle \mathbb{E}\left[\sum_{i=1}^{\infty}X_i\right] < \infty,\, \sum_{i=1}^{\infty} \mathbb{E}[X_i] < \inftyE[i=1Xi]i=1E[Xi]\displaystyle \mathbb{E}\left[\sum_{i=1}^{\infty}X_i\right] \ne \sum_{i=1}^{\infty} \mathbb{E}[X_i] 的反例。

反例:公平赌博游戏中采取亏损加仓投注策略martingale betting strategy)从 11 元开始下注,赢的时候收手,输的时候将筹码翻倍继续。这样前者为 11,后者为 00[3]

随机多个(NN )随机变量 X1,,XNX_1, \dots, X_N,无法得出

E[i=1NXi]=?E[N]E[X1]\mathbb{E}\left[\sum_{i=1}^{N}X_i\right] \mathop{{=}\mathllap{?\,}} \mathbb{E}[N] \mathbb{E}[X_1]

{Xn}n1\left\lbrace X_n \right\rbrace_{n\ge 1} 为同分布随机变量,且 NN 是一个取非负值、与 XnX_n 独立的随机变量,则有 E[i=1NXi]=E[N]E[X1]\mathbb{E}\left[ \displaystyle \sum_{i=1}^N X_i \right] = \mathbb{E}[N] \mathbb{E}[X_1]

E[i=1NXi]=nPr(N=n)E[i=1nXi]=nPr(N=n)i=1nE[Xi]=nPr(N=n)nE[X1]=E[X1]nnPr(N=n)=E[X1]E[N]\begin{aligned} \mathbb{E}\left[ \sum_{i=1}^N X_i \right] &= \sum_{n} \Pr(N = n) \mathbb{E}\left[ \sum_{i=1}^n X_i \right]\\ &= \sum_{n} \Pr(N = n) \sum_{i=1}^n \mathbb{E}\left[ X_i \right]\\ &= \sum_{n} \Pr(N = n) n \mathbb{E}\left[ X_1 \right]\\ &= \mathbb{E}[X_1] \sum_n n \Pr(N = n)\\ &= \mathbb{E}[X_1] \mathbb{E}[N] \end{aligned}

条件期望

随机变量 XX 在给定事件 AA条件期望(conditional expectation)定义为

E[XA]=xxPr[X=xA]\mathbb{E}[X \mid A] = \sum_{x} x \Pr[X = x \mid A]

其中假设 Pr(A)>0\Pr(A) > 0 以及这个求和绝对收敛。

条件分布

随机变量 XX 在给定事件 AA 的概率质量函数(probability mass function)pXA ⁣:Z[0,1]p_{X \mid A}\colon \Z \to [0, 1] 由下式给出

pXA(x)=Pr[X=xA]p_{X \mid A}(x) = \Pr[X = x \mid A]

(XA)(X \mid A) 现在可视为一个良定义的离散随机变量,其分布由 pmf pXAp_{X \mid A} 描述。

条件期望 E[XA]\mathbb{E}[X \mid A] 实际上就只是 (XA)(X \mid A) 的期望,因此也满足期望的性质。

全期望法则(Law of Total Expectation)

全期望法则

XX 是一个离散随机变量,其期望 E[X]\mathbb{E}[X] 有限。

令事件 B1,,BnB_1, \dots, B_nΩ\Omega 的一个划分,使得 Pr(Bi)>0\Pr(B_i) > 0,则

E[X]=i=1nE[XBi]Pr(Bi)\mathbb{E}[X] = \sum_{i=1}^{n}\mathbb{E}[X \mid B_i]\Pr(B_i)

证明

E[X]=xxPr[X=x]=xi=1nPr[X=xBi]Pr(Bi)=i=1nPr(Bi)xxPr[X=xBi]=i=1nE[XBi]Pr(Bi)\begin{aligned} \mathbb{E}[X] &= \sum_x x \Pr[X = x]\\ &= \sum_x \sum_{i=1}^{n} \Pr[X = x \mid B_i] \Pr(B_i)\\ &= \sum_{i=1}^{n} \Pr(B_i) \sum_x x \Pr[X = x \mid B_i]\\ &= \sum_{i=1}^{n} \mathbb{E}[X \mid B_i]\Pr(B_i) \end{aligned}

全概率法则实际上就是 X=I(A)X = I(A) 的特殊情况。

E[E[XY]]=E[X]\mathbb{E}[\mathbb{E}[X \mid Y]] = \mathbb{E}[X]

证明

E[E[XY]]=yE[XY=y]Pr(Y=y)(定义)=E[X](全期望法则)\begin{aligned} \mathbb{E}[\mathbb{E}[X \mid Y]] &= \sum_y \mathbb{E}[X \mid Y = y]\Pr(Y = y) &\text{(定义)}\\ &= \mathbb{E}[X] &\text{(全期望法则)}\\ \end{aligned}

快排分析

可参考 Average-case analysis of QuickSort,同时应根据此进行笔记修正(完成则删此句,待删)。

1
2
3
4
5
6
7
QSort(A): an array A of n distinct entries

if n > 1
choose a pivot x = A[1]
partition A into L with all entries < x,
and R with all entries > x
QSort(L) and QSort(R)

最差时间复杂度为 O(n2)O(n^2)(对于已经排好的序列)。将计算平均时间复杂度。

t(n)=E[Xn]t(n) = \mathbb{E}[X_n],其中 XnX_nQSort(A) 中的比较次数,其中 A 是有 nn 个不同数字的均匀随机排列。

BiB_iA[1]A 中第 ii 位数字的事件,有

t(n)=E[Xn]=i=1nE[XnBi]Pr(Bi)=1ni=1nE[n1+Xi1+Xni]=n1+2ni=0n1t(i)\begin{aligned} t(n) &= \mathbb{E}[X_n]\\ &= \sum_{i=1}^{n} \mathbb{E}[X_n \mid B_i] \Pr(B_i)\\ &= \dfrac{1}{n} \sum_{i=1}^{n} \mathbb{E}[n-1 + X_{i-1} + X_{n-i}]\\ &= n-1 + \dfrac{2}{n} \sum_{i=0}^{n-1}t(i) \end{aligned}

其中 t(0)=t(1)=0t(0) = t(1) = 0

还可以使用期望的线性性质。

对于均匀随机输入,A 是一个 a1<<ana_1 < \dots < a_n 的均匀随机排列。

Xij{0,1}X_{ij} \in \left\lbrace 0, 1 \right\rbrace 表示 ai,aja_i, a_{j} 是否在 QSort(A) 中进行过比较。

注意到

  • 任意对 ai,aja_i, a_{j} 至多被比较一次。
    • 从而有 X=i<jXijX = \sum\limits_{i < j} X_{ij}
  • ai,aja_i, a_{j} 仍在相同的数组中,那么对所有 i<k<ji < k < j,都有 aka_{k} 也在相同的数组中。ai,aja_i, a_{j} 被比较,当且仅当它们仍在同一个数组中时,其中一个被选为 pivot。
    • 从而有 E[Xij]=Pr[ai,aj compared]=Pr[{ai,aj}{ai,,aj}]=2ji+1\mathbb{E}[X_{ij}] = \Pr[a_i, a_j \text{ compared}] = \Pr[\left\lbrace a_i, a_{j} \right\rbrace \mid \left\lbrace a_i, \dots, a_{j} \right\rbrace] = \dfrac{2}{j-i+1}

于是

E[X]=i<jE[Xij]=i<j2ji+1=i=1nk=2ni+12k2i=1nk=1n1k=2nH(n)=2nlnn+O(n)\begin{aligned} \mathbb{E}[X] &= \sum_{i < j}\mathbb{E}[X_{ij}]\\ &= \sum_{i < j}\dfrac{2}{j-i+1}\\ &= \sum_{i=1}^{n}\sum_{k=2}^{n-i+1}\dfrac{2}{k}\\ &\le 2 \sum_{i=1}^{n} \sum_{k=1}^{n} \dfrac{1}{k}\\ &= 2 n H(n)\\ &= 2 n \ln n + O(n) \end{aligned}

Random Family Tree (随机家谱树)

X0,X1,X2,X_0, X_1, X_2, \dots 按如下规则进行定义

{X0=1Xn+1=j=1Xnξj(n)\left\lbrace\begin{aligned} X_0 &= 1\\ X_{n+1} &= \sum_{j=1}^{X_n}\xi_{j}^{(n)} \end{aligned}\right.

其中 ξj(n)Z0\xi_{j}^{(n)} \in \Z_{\ge 0} 是 i.i.d. 随机变量,均值(mean value)为 μ=E[ξj(n)]\mu = \mathbb{E}[\xi_{j}^{(n)}]

X0=1X_0 = 1,同时有 E[X1]=E[ξ1(0)]=μ\mathbb{E}[X_1] = \mathbb{E}[\xi_1^{(0)}] = \mu

对后面有

E[XnXn1=k]=E[j=1kξj(n1)Xn1=k]=kμ\begin{aligned} \mathbb{E}[X_n \mid X_{n-1} = k] &= \mathbb{E}\left[\sum_{j=1}^{k}\xi_{j}^{(n-1)} \biggm| X_{n-1} = k\right]\\ &= k \mu \end{aligned}

于是 E[XnXn1]=Xn1μ\mathbb{E}[X_n \mid X_{n-1}] = X_{n-1}\mu

从而

E[Xn]=E[E[XnXn1]]=E[Xn1μ]=μE[Xn1]=μn\begin{aligned} \mathbb{E}[X_n] &= \mathbb{E}[\mathbb{E}[X_n \mid X_{n-1}]]\\ &= \mathbb{E}[X_{n-1}\mu]\\ &= \mu \mathbb{E}[X_{n-1}]\\ &= \mu^n \end{aligned}

于是有

E[n0Xn]=n0E[Xn]=n0μn={11μif 0<μ<1if μ1\begin{aligned} \mathbb{E}\left[ \sum_{n\ge 0} X_n \right] &= \sum_{n\ge 0} \mathbb{E}[X_n]\\ &= \sum_{n\ge 0} \mu^n\\ &= \begin{cases} \dfrac{1}{1-\mu} & \text{if } 0 < \mu < 1\\ \infty & \text{if } \mu \ge 1 \end{cases} \end{aligned}

琴生不等式(Jensen's Inequality)

对于一般的(非线性的)函数 f(X)f(X) 与随机变量 XX,一般没有 E[f(X)]=f(E[X])\mathbb{E}[f(X)] = f(\mathbb{E}[X])

但若 ff 的凹凸性已知,则有琴生不等式

琴生不等式(Jensen's Inequality)

  • ff(convex)函数,等价于 f(λx+(1λ)y)λf(x)+(1λ)f(y)f(\lambda x + (1 - \lambda)y) \le \lambda f(x) + (1-\lambda)f(y),则对于任意随机变量 XX,有 E[f(X)]f(E[X])\mathbb{E}[f(X)] \ge f(\mathbb{E}[X])
  • ff(concave)函数,等价于 f(λx+(1λ)y)λf(x)+(1λ)f(y)f(\lambda x + (1 - \lambda)y) \ge \lambda f(x) + (1-\lambda)f(y),则对于任意随机变量 XX,有 E[f(X)]f(E[X])\mathbb{E}[f(X)] \le f(\mathbb{E}[X])

期望的单调性(Monotonicity of Expectation)

对于随机变量 X,YX, Y 与常数 cRc \in \R

  • XYX \le Y[4],则 E[X]E[Y]\mathbb{E}[X] \le \mathbb{E}[Y]
  • XcX \le c(或 XcX \ge c),则 E[X]E[c]\mathbb{E}[X] \le \mathbb{E}[c](或 E[X]E[c]\mathbb{E}[X] \ge \mathbb{E}[c])。
  • E[X]E[X]0\mathbb{E}[|X|] \ge | \mathbb{E}[X] | \ge 0
第一点的证明

E[X]=xxPr(X=x)=xxyPr[(X,Y)=(x,y)]=xxyxPr[(X,Y)=(x,y)]=yxyxPr[(X,Y)=(x,y)]yxyyPr[(X,Y)=(x,y)]yyPr(Y=y)=E[Y]\begin{aligned} \mathbb{E}[X] & =\sum_{x} x \Pr(X=x)\\ &=\sum_{x} x \sum_{y} \Pr[(X, Y)=(x, y)] \\ & =\sum_{x} x \sum_{y \ge x} \Pr[(X, Y)=(x, y)]\\ &=\sum_{y} \sum_{x \le y} x \Pr[(X, Y)=(x, y)] \\ & \le \sum_{y} \sum_{x \le y} y \Pr[(X, Y)=(x, y)] \\ &\le \sum_{y} y\Pr(Y=y)\\ &=\mathbb{E}[Y] \end{aligned}

平均法则(Average Principle)

  • Pr(XE[X])>0\Pr(X \ge \mathbb{E}[X]) > 0
    • Pr(X<c)=1\Pr(X < c) = 1,则 E[X]<c\mathbb{E}[X] < c
  • Pr(XE[X])>0\Pr(X \le \mathbb{E}[X]) > 0
    • Pr(X>c)=1\Pr(X > c) = 1,则 E[X]>c\mathbb{E}[X] > c

根据概率法(probabilistic method):

  • ωΩs.t.X(ω)E[X]\exists \omega \in \Omega\quad \text{s.t.}\quad X(\omega) \ge \mathbb{E}[X]
  • ωΩs.t.X(ω)E[X]\exists \omega \in \Omega\quad \text{s.t.}\quad X(\omega) \le \mathbb{E}[X]

最大割(Maximum Cut)

对于一个无向图(undirected graph)G=(V,E)G = (V, E),最大割问题是要找到一个划分 V=SSˉV = S \cup \bar{S},使得其割集(cut set)δS={(u,v)EuS,vSˉ}\delta S = \left\lbrace (u, v) \in E \mid u \in S, v \in \bar{S} \right\rbrace 的大小最大。

这是一个 NP 难问题。

始终存在一个割集,其大小至少为边集大小的一半,即

δS12E|\delta S| \ge \dfrac{1}{2} |E|

证明

Yv{0,1}Y_v \in \left\lbrace 0, 1 \right\rbrace,表示顶点 vv 是否在 SS 中,是成对独立均匀随机比特(uniform random bits)。

于是

δS=(u,v)EI(YuYv)|\delta S| = \sum_{(u, v) \in E} I(Y_u \ne Y_v)

由期望的线性性质有

E[δS]=(u,v)EE[I(YuYv)]=(u,v)EPr(YuYv)=(u,v)E12=12E\begin{aligned} \mathbb{E}[|\delta S|] &= \sum_{(u, v) \in E} \mathbb{E}[I(Y_u \ne Y_v)]\\ &= \sum_{(u, v) \in E} \Pr(Y_u \ne Y_v)\\ &= \sum_{(u, v) \in E} \dfrac{1}{2}\\ &= \dfrac{1}{2} |E| \end{aligned}

概率法有,存在这样的 SVS \subseteq V 使得 δS12E|\delta S| \ge \dfrac{1}{2} |E|


  1. the expected number of probes in an unsuccessful search is at most 11α\dfrac{1}{1-\alpha}. ↩︎

  2. XiX_i as a binomial coefficient is unimodal in kk. 单峰序列(unimodal sequence)是指序列 a1,,ana_1, \dots, a_n,存在 tt 使得 a1atat+1ana_1 \le \dots \le a_t \ge a_{t+1} \ge \dots \ge a_n↩︎

  3. 赌徒几乎必然抛得一个正面,使之净赚 11 元(i=0n12i+2n=1\displaystyle -\sum_{i=0}^{n-1}2^i + 2^n = 1),但是每轮游戏的收益期望为 00↩︎

  4. 几乎必然(almost surely),即 Pr(XY)=1\Pr(X \le Y) = 1。称为 YY stochastically dominates XX (YY 随机支配 XX)。 ↩︎