定义
一个随机变量 X 的期望(expectation, or mean)定义为
E[X]=x∑x⋅pX(x)
其中 pX 表示 X 的概率质量函数(pmf)。
E[X] 可能为 ∞,本节基本假定 E[X]<∞ 绝对收敛(absolute convergence)。一些反例:
- 圣彼得堡悖论:pX(2k)=2−k
- X∈Z\{0},pX(k)=ak21,a=3π2
性质
指示随机变量
对于以 p 为参数的伯努利随机变量 X∈{0,1},有
E[X]=0⋅(1−p)+1⋅p=p
对于事件 A 的指示随机变量 X=I(A),有
E[X]=0⋅Pr(Ac)+1⋅Pr(A)=Pr(A)
Law Of The Unconscious Statistician (LOTUS)
不省人事的统计学家定律
叫「无意识」应该更合理?
LOTUS
对于 f:R→R 以及离散随机变量 X 与 X=(X1,…,Xn),有
- E[f(X)]=∑xf(x)pX(x)
- E[f(X)]=∑xf(x)pX(x)=(x1,…,xn)∑f(x1,…,xn)pX(x1,…,xn)
证明
令 Y=f(X1,…,Xn),于是
E[f(X1,…,Xn)]=y∑yPr(Y=y)=y∑y(x1,…,xn)∈f−1(y)∑Pr[(X1,…,Xn)=(x1,…,xn)]=(x1,…,xn)∑f(x1,…,xn)Pr[(X1,…,Xn)=(x1,…,xn)]=(x1,…,xn)∑f(x1,…,xn)pX(x1,…,xn)
期望的线性性质
对于 a,b∈R 与随机变量 X,Y:
- E[aX+b]=aE[X]+b
- E[X+Y]=E[X]+E[Y]
对于在随机变量 X1,…,Xn 上的线性(仿射)(linear (affine))函数 f,有
E[f(X1,…,Xn)]=f(E[X1],…,E[Xn])
对于任意相互不独立(dependent)的随机变量 X1,…,Xn,上式成立。
证明
Proof 1.
E[aX+b]=x∑(ax+b)pX(x)=ax∑xpX(x)+bx∑pX(x)=aE[X]+b
Proof 2.
E[X+Y]=x,y∑(x+y)Pr[(X,Y)=(x,y)]=x∑xy∑Pr[(X,Y)=(x,y)]+y∑yx∑Pr[(X,Y)=(x,y)]=x∑xPr[X=x]+y∑yPr[Y=y]=x∑xpX(x)+y∑ypY(y)=E[X]+E[Y]
一些分布的期望
泊松分布
泊松分布 X∼Pois(λ) 的期望
E[X]=λ
证明
E[X]=k⩾0∑kk!e−λλk=k⩾1∑(k−1)!e−λλk=k⩾0∑k!e−λλk+1=λk⩾0∑k!e−λλk=λ
二项分布
对于二项随机变量 X∼Bin(n,p),有
E[X]=np
证明
E[X]=k=0∑nk(kn)pk(1−p)n−k
不过注意到 X∼Bin(n,p) 可表示为 X=X1+⋯+Xn,其中 Xi 是 i.i.d. 以 p 为参数的伯努利随机变量,于是
E[X]=E[X1]+⋯+E[Xn]=np
几何分布
对于几何随机变量 X∼Geo(p),有
E[X]=p1
证明
E[X]=k⩾1∑k(1−p)k−1p
注意到 X∼Geo(p) 可以表示为 X=k⩾1∑Ik,其中 Ik 是一个指示函数,表示前 k−1 次试验是否全部失败(indicate whether all of the first k−1 trials fail)。
E[X]=k⩾1∑E[Ik]=k⩾1∑(1−p)k−1=p1
负二项分布
对于以 r,p 为参数的负二项随机变量 X,有
E[X]=rp1−p
证明
E[X]=k⩾1∑k(kk+r−1)(1−p)kpr
X 可表示为 (X1−1)+⋯+(Xr−1),其中 Xi 是 i.i.d. 以 p 为参数的几何随机变量,于是
E[X]=E[X1]+⋯+E[Xr]−r=rp1−p
超几何分布
对于以 N,M,n 为参数的超几何随机变量 X,有
E[X]=nNM
证明
E[X]=k=0∑nk(nN)(kM)(n−kN−M)
每个红球(成功)以概率 (nN)(n−1N−1)=Nn 被选中。同时 X=X1+⋯+XM,其中 Xi∈{0,1} 表示第 i 个红球是否被选中,于是
E[X]=E[X1]+⋯+E[XM]=nNM
例子
模式匹配(Pattern Matching)
记 s=(s1,…,sn)∈Qn,表示长度为 n 的均匀随机字串,由大小为 q 的字母表 Q 中的字母组成。
对于长度为 k 的字串(pattern)π∈Qk,令 X 表示字串 π 出现在 s 中的次数。
记 Ii∈{0,1} 表示第 i 个位置是否匹配,即 π=(si,…,si+k−1),于是 X=i=1∑n−k+1Ii。
期望的线性性质给出
E[X]=i=1∑n−k+1E[Ii]=(n−k+1)E[Ii]=(n−k+1)q−k
字串匹配次数的期望与给定字串 π 无关,仅与其长度有关。
但是期望的首次匹配成功的位置(expected time(position) for the first appearance)就可能与 π 有关。
假设有 n 种赠券,每种赠券获取概率相同,而且赠券亦无限供应。要集齐 n 种赠券。
Balls-into-bins 模型:一个个地扔球,u.a.r.,使得 n 个桶全部被占据。
- X 表示使 n 个桶非空的扔球次数
- Xi 表示恰有 i−1 个非空桶时的扔球次数
Xi 是一个以 pi 为参数的几何随机变量,pi=1−ni−1,且 X=i=1∑nXi,于是
E[X]=i=1∑nE[Xi]=i=1∑nn−i+1n=ni=1∑ni1=nH(n)≈nlnn
其中 H(n) 表示第 n 个调和数(harmonic number)。
双重计数法(Double Counting)
对于非负随机变量 X,其取值范围为 {0,1,…},有
E[X]=k=0∑∞Pr[X>k]
证明一(双重计数)
E[X]=x⩾0∑xPr[X=x]=x⩾0∑k=0∑x−1Pr[X=x]=k⩾0∑x>k∑Pr[X=x]=k⩾0∑Pr[X>k]
纵轴表示 x,横轴表示 pX,先对 x 求和,再变为 k 求和。
证明二(期望的线性性质)
令 Ik∈{0,1} 表示是否有 X>k,于是 X=∑k⩾0Ik。由期望的线性性质有
E[X]=k⩾0∑E[Ik]=k⩾0∑Pr[X>k]
哈希表(Hash table):全集 U 中 n 个键值(keys)通过哈希函数 h:U→[m] 映射(map)到 m 个槽位(slots)上,
开放寻址(open addressing):当哈希冲突(hash collision)发生时,探测策略(probing strategy)为,当查找一个键值 x∈U 时,第 i 次探测的槽位由 h(x,i) 给出,有以下几种策略:
- 线性探测(linear probing):h(x,i)=h(x)+i(modm)
- 二次探测(quadratic probing):h(x,i)=h(x)+c1i+c2i2(modm)
- 双重哈希(double hashing):h(x,i)=h1(x)+ih2(x)(modm)
- uniform hashing:h(x,i)=π(i),其中 π 是 [m] 上的一个随机排列(random permutation)。是最理想的情况。
在一个负载因子(load factor)为 α=mn 的哈希表中,考虑 uniform hashing,在一次不成功的查找中,探测次数的期望为 1−α1。
证明
假设 X 表示在一次不成功的查找中的探测次数,Ai 是第 i 次探测的插槽被占据的事件,有
E[X]=k=0∑∞Pr[X>k]=1+k=1∑∞Pr[X>k]=1+k=1∑∞Pr(i=1⋂kAi)=1+k=1∑∞i=1∏kPr(Aij<i⋂Aj)(chain rule)=1+k=1∑∞i=1∏km−i+1n−i+1⩽1+k=1∑∞i=1∏kmn=1+k=1∑∞αk=1−α1
容斥原理
记 I(A)∈{0,1} 是事件 A 的指示随机变量,显然有
- I(Ac)=1−I(A)
- I(A∩B)=I(A)⋅I(B)
对于事件 A1,…,An,有
I(i=1⋃nAi)=1−I(i=1⋂nAic)=1−i=1∏nI(Aic)=1−i=1∏n(1−I(Ai))=1−S⊆[n]∑(−1)∣S∣i∈S∏I(Ai)(二项式定理)=1−S⊆[n]∑(−1)∣S∣I(i∈S⋂Ai)=∅=S⊆[n]∑(−1)∣S∣−1I(i∈S⋂Ai)(1 跟 ∅ 抵消了)
布尔不等式
对于事件 A1,…,An,有
I(i=1⋃nAi)=1−i=1∏n(1−I(Ai))=k=1∑n(−1)k−1S∈(k[n])∑I(i∈S⋂Ai)
定义随机变量 Xk:=(ki=1∑nI(Ai)),于是
Xk=S∈(k[n])∑i∈S∏I(Ai)=S∈(k[n])∑I(i∈S⋂Ai)
Xk 作为二项式系数,是单峰的。
对于单峰序列 Xk,有
k⩽2t∑(−1)k−1Xk⩽k=1∑n(−1)k−1Xk⩽k⩽2t+1∑(−1)k−1Xk
求期望则可得 Boolean-Bonferroni 不等式。
线性性质的局限性
对于无穷求和,线性性质不一定成立。
对于无穷随机变量 X1,X2,…,E[i=1∑∞Xi]=i=1∑∞E[Xi] 当且仅当 i=1∑∞E[∣Xi∣]<∞(绝对收敛)。
存在 E[i=1∑∞Xi]<∞,i=1∑∞E[Xi]<∞ 但 E[i=1∑∞Xi]=i=1∑∞E[Xi] 的反例。
反例:公平赌博游戏中采取亏损加仓投注策略(martingale betting strategy)从 1 元开始下注,赢的时候收手,输的时候将筹码翻倍继续。这样前者为 1,后者为 0。
随机多个(N )随机变量 X1,…,XN,无法得出
E[i=1∑NXi]=?E[N]E[X1]
令 {Xn}n⩾1 为同分布随机变量,且 N 是一个取非负值、与 Xn 独立的随机变量,则有 E[i=1∑NXi]=E[N]E[X1]:
E[i=1∑NXi]=n∑Pr(N=n)E[i=1∑nXi]=n∑Pr(N=n)i=1∑nE[Xi]=n∑Pr(N=n)nE[X1]=E[X1]n∑nPr(N=n)=E[X1]E[N]
条件期望
随机变量 X 在给定事件 A 的条件期望(conditional expectation)定义为
E[X∣A]=x∑xPr[X=x∣A]
其中假设 Pr(A)>0 以及这个求和绝对收敛。
条件分布
随机变量 X 在给定事件 A 的概率质量函数(probability mass function)pX∣A:Z→[0,1] 由下式给出
pX∣A(x)=Pr[X=x∣A]
(X∣A) 现在可视为一个良定义的离散随机变量,其分布由 pmf pX∣A 描述。
条件期望 E[X∣A] 实际上就只是 (X∣A) 的期望,因此也满足期望的性质。
全期望法则(Law of Total Expectation)
全期望法则
X 是一个离散随机变量,其期望 E[X] 有限。
令事件 B1,…,Bn 是 Ω 的一个划分,使得 Pr(Bi)>0,则
E[X]=i=1∑nE[X∣Bi]Pr(Bi)
证明
E[X]=x∑xPr[X=x]=x∑i=1∑nPr[X=x∣Bi]Pr(Bi)=i=1∑nPr(Bi)x∑xPr[X=x∣Bi]=i=1∑nE[X∣Bi]Pr(Bi)
全概率法则实际上就是 X=I(A) 的特殊情况。
E[E[X∣Y]]=E[X]
证明
E[E[X∣Y]]=y∑E[X∣Y=y]Pr(Y=y)=E[X](定义)(全期望法则)
快排分析
1 2 3 4 5 6 7
| QSort(A): an array A of n distinct entries
if n > 1 choose a pivot x = A[1] partition A into L with all entries < x, and R with all entries > x QSort(L) and QSort(R)
|
最差时间复杂度为 O(n2)(对于已经排好的序列)。将计算平均时间复杂度。
令 t(n)=E[Xn],其中 Xn 是 QSort(A)
中的比较次数,其中 A
是有 n 个不同数字的均匀随机排列。
记 Bi 是 A[1]
是 A
中第 i 位数字的事件,有
t(n)=E[Xn]=i=1∑nE[Xn∣Bi]Pr(Bi)=n1i=1∑nE[n−1+Xi−1+Xn−i]=n−1+n2i=0∑n−1t(i)
其中 t(0)=t(1)=0。
还可以使用期望的线性性质。
对于均匀随机输入,A
是一个 a1<⋯<an 的均匀随机排列。
令 Xij∈{0,1} 表示 ai,aj 是否在 QSort(A)
中进行过比较。
注意到
- 任意对 ai,aj 至多被比较一次。
- 从而有 X=i<j∑Xij。
- 若 ai,aj 仍在相同的数组中,那么对所有 i<k<j,都有 ak 也在相同的数组中。ai,aj 被比较,当且仅当它们仍在同一个数组中时,其中一个被选为 pivot。
- 从而有 E[Xij]=Pr[ai,aj compared]=Pr[{ai,aj}∣{ai,…,aj}]=j−i+12。
于是
E[X]=i<j∑E[Xij]=i<j∑j−i+12=i=1∑nk=2∑n−i+1k2⩽2i=1∑nk=1∑nk1=2nH(n)=2nlnn+O(n)
Random Family Tree (随机家谱树)
X0,X1,X2,… 按如下规则进行定义
⎩⎨⎧X0Xn+1=1=j=1∑Xnξj(n)
其中 ξj(n)∈Z⩾0 是 i.i.d. 随机变量,均值(mean value)为 μ=E[ξj(n)]。
X0=1,同时有 E[X1]=E[ξ1(0)]=μ。
对后面有
E[Xn∣Xn−1=k]=E[j=1∑kξj(n−1)Xn−1=k]=kμ
于是 E[Xn∣Xn−1]=Xn−1μ。
从而
E[Xn]=E[E[Xn∣Xn−1]]=E[Xn−1μ]=μE[Xn−1]=μn
于是有
E[n⩾0∑Xn]=n⩾0∑E[Xn]=n⩾0∑μn=⎩⎨⎧1−μ1∞if 0<μ<1if μ⩾1
琴生不等式(Jensen's Inequality)
对于一般的(非线性的)函数 f(X) 与随机变量 X,一般没有 E[f(X)]=f(E[X])。
但若 f 的凹凸性已知,则有琴生不等式
琴生不等式(Jensen's Inequality)
- 若 f 是凸(convex)函数,等价于 f(λx+(1−λ)y)⩽λf(x)+(1−λ)f(y),则对于任意随机变量 X,有 E[f(X)]⩾f(E[X])。
- 若 f 是凹(concave)函数,等价于 f(λx+(1−λ)y)⩾λf(x)+(1−λ)f(y),则对于任意随机变量 X,有 E[f(X)]⩽f(E[X])。
期望的单调性(Monotonicity of Expectation)
对于随机变量 X,Y 与常数 c∈R:
- 若 X⩽Y,则 E[X]⩽E[Y]。
- 若 X⩽c(或 X⩾c),则 E[X]⩽E[c](或 E[X]⩾E[c])。
- E[∣X∣]⩾∣E[X]∣⩾0。
第一点的证明
E[X]=x∑xPr(X=x)=x∑xy∑Pr[(X,Y)=(x,y)]=x∑xy⩾x∑Pr[(X,Y)=(x,y)]=y∑x⩽y∑xPr[(X,Y)=(x,y)]⩽y∑x⩽y∑yPr[(X,Y)=(x,y)]⩽y∑yPr(Y=y)=E[Y]
平均法则(Average Principle)
- Pr(X⩾E[X])>0
- 若 Pr(X<c)=1,则 E[X]<c
- Pr(X⩽E[X])>0
- 若 Pr(X>c)=1,则 E[X]>c
根据概率法(probabilistic method):
- ∃ω∈Ωs.t.X(ω)⩾E[X]
- ∃ω∈Ωs.t.X(ω)⩽E[X]
最大割(Maximum Cut)
对于一个无向图(undirected graph)G=(V,E),最大割问题是要找到一个划分 V=S∪Sˉ,使得其割集(cut set)δS={(u,v)∈E∣u∈S,v∈Sˉ} 的大小最大。
这是一个 NP 难问题。
始终存在一个割集,其大小至少为边集大小的一半,即
∣δS∣⩾21∣E∣
证明
令 Yv∈{0,1},表示顶点 v 是否在 S 中,是成对独立均匀随机比特(uniform random bits)。
于是
∣δS∣=(u,v)∈E∑I(Yu=Yv)
由期望的线性性质有
E[∣δS∣]=(u,v)∈E∑E[I(Yu=Yv)]=(u,v)∈E∑Pr(Yu=Yv)=(u,v)∈E∑21=21∣E∣
概率法有,存在这样的 S⊆V 使得 ∣δS∣⩾21∣E∣。