马尔可夫不等式(Markov's Inequality)
定义
亦称为切比雪夫第一不等式(the first Chebyshev's Inequality)
马尔可夫不等式
设 X 是一个非负随机变量,那么对于任意 a>0,有
Pr(X⩾a)⩽aE[X]
用「指示」(indicator)证明
令 I=I(X⩾a)。因为 X⩾0,a>0,有
I⩽⌊aX⌋⩽aX
从而
Pr(X⩾a)=E[I]⩽E[aX]=aE[X]
用全期望证明
E[X]=E[X∣X⩾a]⋅Pr(X⩾a)+E[X∣X<a]⋅Pr(X<a)⩾a⋅Pr(X⩾a)+0⋅Pr(X<a)=a⋅Pr(X⩾a)
从而有
Pr(X⩾a)⩽aE[X]
推论
对于任意 c>1,有
Pr(X⩾cE[X])⩽c1
Tight in the worst case (最坏情况下的紧确性)
任意 c>1,μ∈R,存在期望为 μ 的非负随机变量 X 使得 Pr(X⩾cμ)=c1。
lower tail variant (下尾变式)
有时也称为逆马尔可夫不等式
Pr(X⩽a)⩽u−au−E[X]
其中要求 X 有界,X⩽u。
证明
考虑随机变量 Y=u−X,则 Y⩾0。由马尔可夫不等式有
Pr(X⩽a)=Pr(Y⩾u−a)⩽u−aE[Y]=u−au−E[X]
从拉斯维加斯到蒙特卡罗
- 蒙特卡洛算法:一个随机算法。
- 拉斯维加斯算法:一个确定性算法,但是有一个随机的运行时间。
若有一个拉斯维加斯算法 A,其对于任意大小为 n 的输入,运行时间最大为 t(n)(算法 A 有着最坏预期时间复杂度 t(n))。
算法 B 是一个蒙特卡罗算法,其模拟算法 A 至多 ⌈εt(n)⌉ 步,若算法 A 终止,则算法 B 返回 A 的结果,否则返回任意答案。
则算法 B 最坏情况运行时间 ⩽⌈ϵt(n)⌉,同时正确概率
p⩾1−Pr(t⩾εt(n))⩾1−t(n)εE[t]⩾1−ε
随机图中的团
团(clique)
顶点集 C 被称为无向图 G=(V,E) 的团(clique),如果 C 是顶点集 V 的子集(C⊆V),而且任意两个 C 中的顶点都有边连接。即 C 诱导的子图是完全图。
对于随机图 G(n,p),固定一个常整数 k⩾3,令随机变量 X 是随机图 G∼G(n,p) 中 k-团(Kk)的个数。
对于每个不同的 S⊆[n],其中 ∣S∣=k,令 IS=I(KS⊆G),于是有
- E[IS]=Pr(KS⊆G)=p(2k)
- X=S∈(k[n])∑IS
根据线性性有
E[X]=(kn)p(2k)⩽nkp2k(k−1)=o(1)
对于 p=o(n−k−12)。
根据马尔可夫不等式有 Pr(X⩾1)⩽E[X]=o(1),即 Pr(X=0)⩾1−o(1)。
也就是说,若 p=o(n−k−12),那么 G(n,p) 是渐进几乎必然(asymptotically almost surely, a.a.s.)不含 k-团(Kk-free)。
一般化(generalized)马尔可夫不等式
一般化马尔可夫不等式
设 X 是一个随机变量,f:R→R⩾0 是一个非负函数,那么对于任意 a>0,有
Pr(f(X)⩾a)⩽aE[f(X)]
证明
令 Y=f(X),则 Y 是一个非负随机变量。代入马尔可夫不等式。
方差与矩
离差不等式(Deviation Inequality)
令 X 是一个均值为 μ=E[X] 的随机变量。对于任意 a>0,应用马尔可夫不等式,令 Y=∣X−μ∣,得到
Pr(∣X−μ∣⩾a)⩽aE[∣X−μ∣]
但是绝对值并不好处理。于是改令 Y=(X−μ)2,得到
Pr(∣X−μ∣⩾a)=Pr[(X−μ)2⩾a2]⩽a2E[(X−μ)2]
E[(X−μ)2] 就是方差(variance),又称为二阶中心矩(2nd central moment)。
矩(moment)
矩(moment)
对于正整数 k,随机变量 X 的 k 阶矩(k-th moment)为 E[Xk],而 k 阶中心矩(k-th central moment)为 E[(X−E[X])k]。
随机变量 X 称为中心化的(centralized),若 E[X]=0。随机变量 X 可以通过 Y=X−E[X] 进行中心化。
方差与标准差
随机变量 X 的方差(variance)就是其二阶中心矩,即
Var[X]=E[(X−E[X])2]
方差的平方根称为标准差(standard deviation)。记为 σ=σ[X]=Var[X]。
切比雪夫不等式(Chebyshev's Inequality)
切比雪夫不等式
设 X 是一个随机变量,μ=E[X] 是其均值,σ2=Var[X] 是其方差。那么对于任意 a>0,有
Pr(∣X−μ∣⩾a)⩽a2σ2
证明
令 Y=(X−μ)2,则 Y 是一个非负随机变量。代入马尔可夫不等式。
推论
对于标准差 σ 与任意 k⩾1,有
Pr(∣X−μ∣⩾kσ)⩽k21
切比雪夫不等式也有最坏情况的紧确性。对任意 k⩾1,μ∈R,σ>0,总存在随机变量 X 满足 E[X]=μ,Var[X]=σ2 使得 Pr(∣X−μ∣⩾kσ)=k21。
中位数与均值
中位数
随机变量 X 的中位数(median)是一个实数 m,使得
Pr(X⩽m)⩾21andPr(X⩾m)⩾21
期望 μ=E[X] 是使得 E[(X−μ)2] 最小的值。
证明
f(x)=E[(X−x)2]=E[X2]−2xE[X]+x2
是一个关于 x 的二次函数,其最小值在 x=μ 处取得。
中位数是使得 E[∣X−m∣] 最小的值。
证明
根据对称性,不妨设一个非中位数 y>m,那么有 Pr(X⩾y)<21,于是
E[∣X−y∣−∣X−m∣]=(m−y)Pr(X⩾y)+m<x<y∑(m+y−2x)Pr(X=x)+(y−m)Pr(X⩽m)>2m−y+2y−m=0
橙色部分是因为,Pr(X⩾y)+m<x<y∑Pr(X=x)=21,且有 m+y−2x>m−y。
若随机变量 X 有着有限期望 μ、中位数 m 与标准差 σ,则有
∣μ−m∣⩽σ
证明
∣μ−m∣=∣E[X]−m∣=∣E[X−m]∣⩽E[∣X−m∣]⩽E[∣X−μ∣]=E[(X−μ)2]⩽E[(X−μ)2]=σ(琴生不等式)(中位数最小化上式)(琴生不等式)
方差
性质
Var[X]=E[X2]−E[X]2
证明
Var[X]=E[(X−E[X])2]=E[X2−2XE[X]+E[X]2]=E[X2]−2E[X]E[X]+E[X]2=E[X2]−E[X]2
对于随机变量 X,Y 与实数 a∈R,有
- Var[a]=0
- Var[X+a]=Var[X](方差是中心距)
- Var[aX]=a2Var[X](方差是二次的,即 quadratic)
- Var[X+Y]=Var[X]+Var[Y]+2(E[XY]−E[X]E[Y])
彩色部分即为协方差(covariance)。
第四点的证明
Var[X+Y]=E[(X+Y)2]−E[X+Y]2=E[X2+2XY+Y2]−(E[X]+E[Y])2=(E[X2]−E[X]2)+(E[Y2]−E[Y]2)+2(E[XY]−E[X]E[Y])=Var[X]+Var[Y]+2(E[XY]−E[X]E[Y])
类似地还可以定义条件方差:
条件方差
X 在给定事件 A 的条件方差可以定义为:记条件期望 μ=E[X∣A],有
Var[X∣A]=E[(X−μ)2∣A]
或
Var[X∣A]=E[X2∣A]−μ2
Var[X]=Var[E[X∣A]]+E[Var[X∣A]]
证明
令 μ=E[X∣A],则 E[μ]=E[X],此时有
Var[E[X∣A]]+E[Var[X∣A]]=Var[μ]+E[E[X2∣A]−μ2]=E[E[X2∣A]]+Var[μ]−E[μ2]=E[X2]−E[μ]2=E[X2]−E[X]2=Var[X]
协方差
随机变量 X,Y 的协方差(covariance)定义为
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y]
- Var[X]=Cov(X,X)
- 对称性:Cov(X,Y)=Cov(Y,X)
- 分配性:Cov(X,Y+Z)=Cov(X,Y)+Cov(X,Z)
- 线性性:Cov(aX,Y)=aCov(X,Y)
若 X,Y 独立,则 Cov(X,Y)=0。
若随机变量 X1,X2,…,Xn 相互独立,则
E[i=1∏nXi]=i=1∏nE[Xi]
证明
运用 LOTUS
E[XY]=x,y∑xyPr[X=x∩Y=y]=x,y∑xyPr[X=x]Pr[Y=y]=(x∑xPr[X=x])(y∑yPr[Y=y])=E[X]E[Y]
同样也有条件协方差:
条件协方差
X,Y 在给定事件 A 的条件协方差可以定义为:记条件期望 μ=E[X∣A],ν=E[Y∣A],有
Cov(X,Y∣A)=E[(X−μ)(Y−ν)∣A]
Cov(X,Y)=Cov(E[X∣A],E[Y∣A])+E[Cov(X,Y∣A)]
期望的乘积
柯西-施瓦茨不等式(Cauchy-Schwarz Inequality)
对于任意两个随机变量 X,Y,有
E[XY]2⩽E[X2]E[Y2]
证明
考虑离散的情形,定义
{ux,yvx,y=p(x,y)x=p(x,y)y
其中 p(x,y)=Pr[X=x∩Y=y]。则有
(x,y∑p(x,y)xy)2⩽(x,y∑p(x,y)x2)(x,y∑p(x,y)y2)
即
E[XY]2⩽E[X2]E[Y2]
其还有两种形式:
对任意 u,v∈Rn,有
⟨u,r⟩2⩽∥u∥22⋅∥v∥22
(i∑uivi)2⩽(i∑ui2)(i∑vi2)
赫尔德不等式(Hölder's Inequality)
对于任意两个随机变量 X,Y 与 p,q>0 且 p1+q1=1,有
E[∣XY∣]⩽(E[∣X∣p])p1(E[∣Y∣q])q1
证明 1
令 f(x)=xp1 与 g(x)=xq1,则 f,g 是凸函数。根据琴生不等式有
E[∣XY∣]=E[∣f(∣X∣p)g(∣Y∣q)∣]⩽E[f(∣X∣p)]⋅E[g(∣Y∣q)]=f(E[∣X∣p])⋅g(E[∣Y∣q])=(E[∣X∣p])p1(E[∣Y∣q])q1
证明 2
先证明「杨氏不等式」(Young's Inequality):对于任意 x,y>0 与 p,q>0 且 p1+q1=1,有
xy⩽pxp+qyq
记 t=p1,有
ln(txp+(1−t)yq)⩾tlnxp+(1−t)lnyq=ptlnx+q(1−t)lny=lnx+lny=lnxy
得证。
类似地,令
⎩⎨⎧uivi=(i∑xip)p1xi=(i∑yiq)q1yi
于是
i∑uivi⩽i∑p(i∑xip)xip+i∑q(i∑yiq)yiq=p1+q1=1
另一种形式就是
对任意 u,v∈Rn 与 p,q>0 且 p1+q1=1,有
∣⟨u,v⟩∣⩽∥u∥p⋅∥v∥q
相关性
当随机变量等比例变化时,其方差会按照比例的平方变化。因此有标准化的协方差,即「相关系数」。
相关系数(correlation coefficient)
随机变量 X,Y 的相关系数(correlation coefficient)定义为
ρ(X,Y)=Var[X]Var[Y]Cov(X,Y)
其中 ρ(X,Y)∈[−1,1]。
证明
考虑随机变量 σXX±σYY,其方差为
Var[σXX±σYY]=Var[σXX]+Var[σYY]±2Cov(σXX,σYY)=σX21Var[X]+σY21Var[Y]±2Cov(σXX,σYY)=2±2Cov(σXX,σYY)=2±2ρ(X,Y)⩾0
因此有 ρ∈[−1,1]。
两个随机变量 X,Y 被称为不相关(uncorrelated),当且仅当 ρ(X,Y)=0,即 Cov(X,Y)=0。
「不相关」与「独立」是不同的。独立性是指两个随机变量的联合分布等于各自的分布的乘积,而不相关性只是指两个随机变量的协方差为零。
例如设 X,Y 是参数为 21 的伯努利随机变量,则有 X+Y 与 ∣X−Y∣ 不相关,但是不独立。
证明
显然 X+Y 与 ∣X−Y∣ 不相互独立,因为 Pr(X+Y=1∩∣X−Y∣=0)=0,但 Pr(X+Y=1)=21,Pr(∣X−Y∣=0)=21。
相关系数有
ρ=Var[X+Y]Var[∣X−Y∣]Cov(X+Y,∣X−Y∣)=Var[X+Y]Var[∣X−Y∣]E[(X+Y)(∣X−Y∣)]−E[X+Y]E[∣X−Y∣]=Var[X+Y]Var[∣X−Y∣]E[∣X2−Y2∣]−1×21=Var[X+Y]Var[∣X−Y∣](21×0+21×1)−21=0
即 X+Y 与 ∣X−Y∣ 不相关。
此外相关性也不具有传递性,即若 X,Y 呈正相关,Y,Z 呈正相关,那么 X,Z 不一定呈正相关。
方差的和
对于随机变量 X,Y,有
Var[X+Y]=Var[X]+Var[Y]+2Cov(X,Y)
对于随机变量 X1,X2,…,Xn,有
Var[i=1∑nXi]=i=1∑nVar[Xi]+i=j∑Cov(Xi,Xj)=i=1∑nVar[Xi]+2i<j∑Cov(Xi,Xj)
对于成对独立的随机变量 X1,X2,…,Xn,有
Var[i=1∑nXi]=i=1∑nVar[Xi]
常见分布的方差
指示函数
对于以 p 为参数的伯努利随机变量 X∈{0,1} 有
Var[X]=p(1−p)
证明
有 X2=X,故
Var[X]=E[X2]−E[X]2=p−p2=p(1−p)
对于事件 A 的指示随机变量 X=I(A) 有
Var[X]=Pr(A)Pr(Ac)
离散均匀分布的方差
对整数 a⩽b,令 X 是从 [a,b] 中均匀随机(u.a.r.)抽取的值,有
Var[X]=12(b−a)(b−a+2)
证明
⎩⎨⎧E[X]E[X2]=k=a∑bb−a+1k=2a+b=k=a∑bb−a+1k2=62b2+2ab+2a2+b−a
几何分布
对于几何随机变量 X∼Geo(p),有
Var[X]=p21−p
证明
E[X]=p1。
利用几何分布的无记忆性,有
E[X2]=E[X2∣X>1]⋅(1−p)+E[X2∣X=1]⋅p=E[((X−1)+1)2∣X>1]⋅(1−p)+p=E[(X+1)2]⋅(1−p)+p=(1−p)E[X2]+p2(1−p)+1
可得 E[X2]=p22−p。
可以使用 Wolfram 验证(Wolfram 中几何分布是失败次数)
Expectation[(x + 1)^2, x [Distributed] GeometricDistribution[p]]
|
二项分布
对于二项随机变量 X∼Bin(n,p),有
Var[X]=np(1−p)
证明
X∼Bin(n,p) 可以表示为 X=X1+X2+⋯+Xn,其中 Xi 是以 p 为参数的 i.i.d. 伯努利随机变量。
而对于相互独立的随机变量 X1,X2,…,Xn,有
Var[i=1∑nXi]=i=1∑nVar[Xi]=np(1−p)
泊松分布
对于泊松随机变量 X∼Pois(λ),有
Var[X]=λ
证明
E[X]=λ。
同时有
E[X2]=k⩾0∑k2k!e−λλk=k⩾1∑k(k−1)!e−λλk=k⩾0∑(k+1)k!e−λλk+1=λk⩾0∑(k+1)k!e−λλk=λE[X+1]=λ(E[X]+1)=λ(λ+1)
于是
Var[X]=E[X2]−E[X]2=λ
负二项分布
对于以 r,p 为参数的负二项随机变量 X,有
Var[X]=p2r(1−p)
证明
X 可以表示为 X=(X1−1)+(X2−1)+⋯+(Xr−1),其中 Xi 是以 p 为参数的 i.i.d. 几何随机变量。
而对于相互独立的随机变量 X1,X2,…,Xr,有
Var[X]=i=1∑rVar[Xi−1]=i=1∑rVar[Xi]=p2r(1−p)
切比雪夫不等式
无偏估计(Unbiased Estimator)
令 X1,…,Xi 是 i.i.d. 随机变量,E[Xi]=μ,Var[Xi]=σ2。
Empirical mean (经验均值) Xˉ=n1∑i=1nXi 是 μ 的无偏估计,有
E[Xˉ]=n1i=1∑nE[Xi]=μ
与
Var[Xˉ]=n21i=1∑nVar[Xi]=nσ2
切比雪夫不等式有
Pr(∣Xˉ−μ∣⩾ϵμ)⩽ϵ2μ2Var[Xˉ]=ϵ2μ2nσ2⩽δ
当且仅当 n⩾ϵ2μ2δσ2。
(one-sided) Error Reduction(单侧误差减小)
对于一个决定(decision)问题 f:{0,1}∗→{0,1}。
蒙特卡罗随机算法 A 有着单侧误差:对于任意输入 x 与均匀随机种子(seed)r∈[p],其中 p 是素数,有
- f(x)=1⟹Pr[A(x,r)=1]⩾ϵ
- f(x)=0⟹A(x,r)=0 对任意 r∈[p] 成立
对于 k 个(相互)独立的种子 r1,…,rk∈[p],Ak(x,r1,…,rk)=⋁i=1kA(x,ri),有
f(x)=1⟹Pr[A(x,r1,…,rk)=0]⩽(1−ϵ)k
Two-Point Sampling (2-Universal Hashing)
令 p 为一个素数,且 [p]={0,1,…,p−1}。
均匀随机从 [p] 中选取 a,b,并令 ri=(a⋅i+b)modp,其中 i=1,…,p
- r1,…,rp∈[p] 是成对独立的
- 每个 ri 都是在 [p] 上均匀分布的
证明
对任意 i=j 与 c,d∈[p],有 Pr[ri=c∩rj=d]=p21,因为
{a⋅i+b≡c(modp)a⋅j+b≡d(modp)
有一个唯一解(unique solution)(a,b)∈[p]2。则
Pr[ri=c]=Pr[a⋅i+b≡c(modp)]=p1a∈[p]∑Pr(b≡c−ai(modp))=p1
Derandomization with Two-Point Sampling (两点采样的去随机化)
还是上面的,我要累死了。
- A:对任意输入 x 与均匀随机种子 r∈[p] 有
- f(x)=1⟹Pr[A(x,r)=1]⩾ϵ
- f(x)=0⟹A(x,r)=0 对任意 r∈[p] 成立
- Ak(x,r1,…,rk)=⋁i=1kA(x,ri):k⩽p,种子 ri 是由 (a⋅i+b)modp 生成的,其中 a,b∈[p] 均匀随机抽取
- f(x)=0⟹Ak(x,r1,…,rk)=⋁i=1kA(x,ri)=0
- f(x)=1⟹Pr[A(x,r1,…,rk)=0]⩽(1−ϵ)k
令 Xi=A(x,ri),同时 X=i=1∑kXi,则
- X1,…,Xk 是成对独立的伯努利随机变量,且 Pr[Xi=1]⩾ϵ
- Pr[X=0]=Pr[Ak(x,r1,…,rk)=0]⩽Pr[∣X−E[X]∣⩾E[X]]⩽E[X]2Var[X]⩽ϵk1
- 期望的线性性质:E[X]=i=1∑kE[Xi]⩾ϵk
- 成对独立:Var[X]=i=1∑kVar[Xi]⩽i=1∑kE[Xi2]=i=1∑kE[Xi]=E[X]
【待补充】两点采样具体解释(见 DeepSeek 记录)
通过 k⩽p 次算法的运行(run),仅使用了总共两个随机种子,将任意单侧误差 1−ϵ 减小到了 εk1。
补充内容(待施工)
Min Sketch
输入:序列 x1,…,xn∈U=[N]
输出:z=∣{x1,…,xn}∣ 的估计
Simple Uniform Hash Assumption (SUHA)
假设的哈希函数会将项目均匀地分布到散列表的槽中。
(理想)均匀哈希函数 h:U→[0,1]
得到 {h(x1),…,h(xn)} 是 z 个均匀独立的 [0,1] 中的值。
可以将 [0,1] 划分为 z+1 个子区间,其长度是同分布的(证明略)。
于是
E[1⩽i⩽nminh(xi)]=E[子区间的长度]=z+11
对于一个估计 Min Sketch,令 Y=1⩽i⩽nminh(xi),有
Z^=Y1−1
目标是
Pr[Z^<(1−ϵ)z∨Z^>(1+ϵ)z]⩽δ
假设 ϵ⩽21。
几何意义可以得到 Pr[Y>y]=(1−y)z,则概率密度函数 pdf 为 p(y)=z(1−y)z−1,有
E[Y2]=∫01y2z(1−y)z−1dy=(z+1)(z+2)2
于是
Var[Y]=E[Y2]−E[Y]2=(z+1)(z+2)2−(z+1)21=(z+1)2(z+2)z⩽(z+1)21
切比雪夫不等式有
Pr[∣Y−E[Y]∣⩾z+1ϵ/2]⩽ϵ24
然而 ϵ⩽21,这个 sketch 估计是不准确的,原因在于其方差太大。
对于每个 1⩽j⩽k,有
- E[Yj]=z+11⟹E[Yˉ]=z+11
- Var[Yj]⩽(z+1)21⟹Var[Yˉ]⩽k(z+1)21
同样使用切比雪夫不等式,有
Pr[∣Yˉ−E[Yˉ]∣⩾z+1ϵ/2]⩽kϵ24
因此
Min Sketch
对每个 1⩽j⩽k,令 Yj=1⩽i⩽nminhj(xi),返回 Z^=Y1−1,其中 Yˉ=k1j=1∑kYj
空间花费:k=O(ϵ2δ1)
上面记的比较残缺。
看兴趣补充吧(其实就是不想补充了)。
魏尔施特拉斯逼近定理
魏尔施特拉斯逼近定理(Weierstrass Approximation Theorem)
任意连续函数 f:[0,1]→[0,1] 都可以被多项式逼近,即对任意 ϵ>0,存在多项式 p 使得
x∈[0,1]sup∣p(x)−f(x)∣⩽ϵ
证明
令整数 n 足够大(稍后固定)。
对于 x∈[0,1],令 X∼n1Bin(n,x)。定义 x∈[0,1] 上的多项式 p 为
p(x)=E[f(X)]=k=0∑nf(nk)pX(k)=n1k=0∑nf(nk)(kn)xk(1−x)n−k
f 在 [0,1] 上连续可得,存在 δ>0 使得 ∣f(x)−f(y)∣⩽2ϵ 对于任意 x,y∈[0,1] 且 ∣x−y∣⩽δ 成立。
则
∣p(x)−f(x)∣=∣E[f(X)−f(x)]∣⩽E[∣f(X)−f(x)∣]=E[∣f(X)−f(x)∣∣X−x∣⩽δ]⋅Pr(∣X−x∣⩽δ)=+E[∣f(X)−f(x)∣∣X−x∣>δ]⋅Pr(∣X−x∣>δ)⩽E[2ϵ]+∣1−0∣⋅Pr(∣X−x∣>δ)⩽E[2ϵ]+nδ2x(1−x)⩽2ϵ+4nδ21(值域为 [0,1])(切比雪夫不等式)
于是当我们令 n⩾2ϵδ21 时有 ∣p(x)−f(x)∣⩽ϵ。
高阶矩
偏度(Skewness)
偏度(Skewness)
随机变量 X 的偏度(skewness)定义为
Skew[X]=E[(σX−μ)3]=σ3E[(X−μ)3]
其中 μ=E[X],σ=Var[X]。
偏度即三阶中心矩。
峰度(Kurtosis)
峰度(Kurtosis)
随机变量 X 的峰度(kurtosis)定义为
Kurt[X]=E[(σX−μ)4]=σ4E[(X−μ)4]
其中 μ=E[X],σ=Var[X]。
峰度即四阶中心矩。
The k-th Moment Method (k 阶矩估计)
令 X 是一个随机变量,其期望 E[X]=μ。对于任意 C>1 与整数 k⩾1,有
Pr(∣X−μ∣⩾C⋅E[∣X−μ∣k]k1)⩽Ck1
证明只需令 Z=∣X−μ∣k,然后应用马尔可夫不等式:
Pr(∣X−μ∣⩾C⋅E[∣X−μ∣k]k1)=Pr(Z⩾Ck⋅E[Z])⩽Ck1
有矩问题(The Moment Problem):是否矩序列 mk=E[Xk],∀k⩾1 唯一地确定了一个随机变量 X 的分布?
若随机变量 X 从一个有限集 {x1,⋯,xn} 中取值,且 pX(xi)=pi,同时有矩序列 {mi},那么可以通过解范德蒙德系统(Vandermonde system)
x1x12⋮x1nx2x22⋮x2n⋯⋯⋱⋯xnxn2⋮xnnp1p2⋮pn=m1m2⋮mn
获得 pi=pX(xi),即恢复了概率质量函数 pmf。
若随机变量 X,Y 有相同的矩母函数(moment generating function, MGF)
MX(t)=E[etX]=k⩾0∑k!tkE[Xk]
则 X,Y 有相同的分布。
MGF MX(t) 收敛,前提是序列 E[Xk]「不要增长过快」。