引言
极限定理
考虑 X1,X2,…,Xn 为 n 个 i.i.d. 随机变量,其期望 μ=E[X1] 与方差 Var[X1]=σ2,并令
Xˉn=n1i=1∑nXi
为样本均值(sample mean)。
大数定理(Law of Large Numbers, LLN)
样本均值 Xˉn 收敛到总体均值 μ,即
Xˉnn→∞μ
中心极限定理(Central Limit Theorem, CLT)
标准化样本均值 σ/nXˉn−μ 的分布收敛到标准正态分布 N(0,1) ,即
σ/nXˉn−μn→∞N(0,1)
收敛
实数序列 {an} 收敛于 a∈R,记为 n→∞liman=n 或 an→a ,若对任意 ε>0,存在 N∈N,使得当 n>N 时,有 ∣an−a∣<ε。
函数序列 f1,f2,…:Ω→R 逐点收敛(converge pointwise)于 f:Ω→R,若对任意 x∈Ω,有 n→∞limfn(x)=f(x)。
而 (Ω,Σ,Pr) 上的随机变量序列 X1,X2,… 与 X 有:
- 随机变量 X1,X2,…:Ω→R 与 X:Ω→R 为函数
- CDF FX1,FX2,…:R→[0,1] 与 FX:R→[0,1] 为函数
则 Xn→X 应定义为 Xn→X 逐点收敛还是 FXn→FX 逐点收敛呢?
随机变量的收敛
令 X,X1,X2,…:Ω→R 是概率空间 (Ω,Σ,Pr) 上的随机变量。
依分布收敛(convergence in distribution)
X1,X2,… 依分布收敛(converges in distribution/law)于 X,记为 XnDX,若
n→∞limFXn(x)=FX(x)
对任意 x∈R 成立,且 FX(x) 是连续的。
也被称为 (测度)弱收敛(week convergence of measure)。
依概率收敛(convergence in probability)
X1,X2,… 依概率收敛(converges in probability/measure)于 X,记为 XnPX,若对任意 ε>0,有
n→∞limPr(∣Xn−X∣>ε)=0
也被称为依测度收敛(converges in measure)。
几乎必然收敛(almost sure convergence)
X1,X2,… 几乎必然收敛(converges almost surely/almost everywhere/w.p. 1)于 X,记为 Xna.s.X,若
Pr(n→∞limXn=X)=1
也被称为依概率 1 收敛(convergence w.p. 1)。
依分布收敛
依分布收敛要求 FX(x) 是连续的,这个要求是必需的:考虑 (0,n1) 上的均匀随机变量 Xn,满足 XnDX,但 Pr(Xn=0)=0,Pr(X=0)=1。
若 XnDX 与 FX=FY,则 XnDY。
依概率收敛
依概率收敛蕴含依分布收敛,即
XnPX⟹XnDX
反之并不成立,例如 X 是 [0,1] 上的均匀随机变量,而 Xn=1−X,则 XnDX 但没有 XnPX。
若 XnDc∈R,则 XnPc。
Pr(∣Xn−c∣>ε)=Pr(Xn<c−ε)+Pr(Xn>c+ε)→0(if XnDc)
几乎必然收敛
Xn:Ω→R 几乎处处收敛于 X:Ω→R,除了零测集。
Xn:Ω→R converges to X:Ω→R almost everywhere except a null set.
几乎必然收敛蕴含依概率收敛,即
Xna.s.X⟹XnPX
反之并不成立,考虑 {Xn} 是以 n1 为参数的伯努利随机变量,则有 XnP0,但没有 Xn=0 在 n→0 时处处成立。
收敛强度
(Xna.s.X)⟹(XnPX)⟹(XnDX)
证明略。
其他收敛模式
- 依平均收敛(convergence in mean)Xn1X :E[∣Xn−X∣]→0
- 依 r 阶均值收敛(convergence in r-th mean/Lr norm)XnrX :E[∣Xn−X∣r]→0
对于 s⩾r⩾1 有
(XnsX)⟹(XnrX)⟹(Xn1X)⟹(XnPX)
最后一个蕴含的证明:
n→∞limPr(∣Xn−X∣>ε)=n→∞limPr(∣Xn−X∣r>εr)⩽n→∞limεrE[∣Xn−X∣r]→0
大数定理与中心极限定理
伯努利的大数定理(Bernoulli's Law of Large Numbers):X1,X2,… 是独立同分布的伯努利随机变量,且 E[X1]=p,则对任意 ε>0,有
Pr(n1i=1∑nXi−p>ε)n→∞0
即样本均值 XˉnPp。
证明(切比雪夫不等式):
Pr(∣Xˉn−p∣>ε)⩽ε2Var[Xˉn]=nε2Var[X1]=nε2p(1−p)→0
伯努利最初的证明不是这样的,因为这是 1713 年的事情,切比雪夫不等式是 1867 年的事情。
弱大数定理(辛钦定理,Khinchin's law):
XˉnPμasn→∞
强大数定理(科摩哥洛夫定理,Kolmogorov's law):
Xˉna.s.μasn→∞
有界方差的弱大数定理(Weak LLN Assuming Bounded Variance)
令 X1,X2,… 是独立随机变量,其均值 E[Xi]=μ 有限,且方差 Var[Xi]⩽σ2 有界,则样本均值 Xˉn 有
XˉnPμasn→∞
证明
切比雪夫不等式
Pr(∣Xˉn−μ∣>ε)⩽ε2Var[Xˉn]=nε2Var[Xi]⩽nε2σ2→0
棣莫弗-拉普拉斯定理(De Moivre-Laplace Theorem)
棣莫弗-拉普拉斯定理
令 p∈(0,1) 与 Xn∼Bin(n,p),则其标准化有
np(1−p)Xn−npDN(0,1)asn→∞
对于任意 p∈(0,1) 与 ε>0,存在 n0 使得任意 n>n0 与任意 k 有
(kn)pk(1−p)n−k∈(1±ε)2πnp(1−p)1exp(−2np(1−p)(k−np)2)
使用斯特林公式与麦克劳林展开即可。
中心极限定理(CLT)
中心极限定理(Central Limit Theorem, CLT)
令 X1,X2,… 是 i.i.d. 的随机变量,其均值 E[Xi]=μ 与方差 Var[Xi]=σ2 有限,则标准化样本均值
σ/nXˉn−μDN(0,1)asn→∞
令 X1,… 是 i.i.d. 随机变量,有 E[X1]=μ 与 Var[X1]=σ2,于是有
MX(t)=k⩾0∑k!E[Xk]tk=E[1]+tE[X]+2t2E[X2]+o(2t2E[X2])
则有中心化的样本均值
MX1−μ(t)=1+2t2σ2+o(t2)
令 Zn=σ/nXˉn−μ,则有
MZn(t)=E[etZn]=E[exp(σnti∑(Xi−μ))]=i∏E[exp(σnt(Xi−μ))]=(MX1−μ(σnt))n
综合 MX1−μ(t)=1+2t2σ2+o(t2) 与上式,有
MZn(t)=(1+(σnt)22σ2+o((σnt)2))n=(1+2nt2+o(nt2))n
于是
n→∞limMZn(t)=n→∞lim(1+2nt2+o(nt2))n=n→∞lim(1+nt2/2)n=e2t2
即 ZnDN(0,1)。因为标准正态分布的 MGF 为
MX(t)=E[etX]=2π1∫−∞∞etxe−2x2dx=2π1e2t2∫−∞∞e−2(x−t)2dx=e2t2
林德伯格-列维定理(Lindeberg-Lévy CLT)*
暂略
CLT 的收敛率(Convergence Rate of CLT)
贝里-埃辛定理(Berry-Esseen Theorem)
令 X1,X2,… 是 i.i.d. 的随机变量,有其均值 E[X1]=μ、方差 Var[X1]=σ2 与三阶矩 ρ=E[∣X1−μ∣3],则有
Pr(σ/nXˉn−μ⩽z)−Φ(z)⩽σ3nCρ
其中 Φ 为标准正态分布的 CDF,C 为常数。