极限定理

引言

极限定理

考虑 X1,X2,,XnX_1, X_2, \dots, X_nnn 个 i.i.d. 随机变量,其期望 μ=E[X1]\mu = \mathbb{E}[X_1] 与方差 Var[X1]=σ2\operatorname{Var} [X_1] = \sigma^2,并令

Xˉn=1ni=1nXi\bar{X}_n = \dfrac{1}{n} \sum_{i=1}^{n} X_i

样本均值(sample mean)。

大数定理(Law of Large Numbers, LLN)

样本均值 Xˉn\bar{X}_n 收敛到总体均值 μ\mu,即

Xˉnnμ\bar{X}_n \xrightarrow[]{n \to \infty} \mu

中心极限定理(Central Limit Theorem, CLT)

标准化样本均值 Xˉnμσ/n\dfrac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} 的分布收敛到标准正态分布 N(0,1)\mathcal{N}(0, 1) ,即

Xˉnμσ/nnN(0,1)\dfrac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow[]{n \to \infty} \mathcal{N}(0, 1)

收敛

实数序列 {an}\left\lbrace a_n \right\rbrace 收敛aRa \in \R,记为 limnan=n\lim\limits_{n\to \infty }a_n = nanaa_n \to a ,若对任意 ε>0\varepsilon > 0,存在 NNN \in \N,使得当 n>Nn > N 时,有 ana<ε|a_n - a| < \varepsilon

函数序列 f1,f2, ⁣:ΩRf_1, f_2, \dots\colon \Omega \to\R 逐点收敛(converge pointwise)于 f ⁣:ΩRf\colon \Omega \to \R,若对任意 xΩx \in \Omega,有 limnfn(x)=f(x)\lim\limits_{n\to \infty }f_n(x) = f(x)

(Ω,Σ,Pr)(\Omega, \Sigma, \Pr) 上的随机变量序列 X1,X2,X_1, X_2, \dotsXX 有:

  1. 随机变量 X1,X2, ⁣:ΩRX_1, X_2, \dots\colon \Omega \to\RX ⁣:ΩRX\colon \Omega \to\R 为函数
  2. CDF FX1,FX2, ⁣:R[0,1]F_{X_1}, F_{X_2}, \dots\colon \R \to[0, 1]FX ⁣:R[0,1]F_X\colon \R \to[0, 1] 为函数

XnXX_n \to X 应定义为 XnXX_n \to X 逐点收敛还是 FXnFXF_{X_n} \to F_X 逐点收敛呢?

随机变量的收敛

X,X1,X2, ⁣:ΩRX, X_1, X_2, \dots\colon \Omega \to\R 是概率空间 (Ω,Σ,Pr)(\Omega, \Sigma, \Pr) 上的随机变量。

依分布收敛(convergence in distribution)

X1,X2,X_1, X_2, \dots 依分布收敛(converges in distribution/law)于 XX,记为 XnDXX_n \xrightarrow[]{D} X,若

limnFXn(x)=FX(x)\lim_{n \to \infty} F_{X_n}(x) = F_X(x)

对任意 xRx \in \R 成立,且 FX(x)F_X(x) 是连续的。

也被称为 (测度)弱收敛(week convergence of measure)。

依概率收敛(convergence in probability)

X1,X2,X_1, X_2, \dots 依概率收敛(converges in probability/measure)于 XX,记为 XnPXX_n \xrightarrow[]{P} X,若对任意 ε>0\varepsilon > 0,有

limnPr(XnX>ε)=0\lim_{n \to \infty} \Pr\left( |X_n - X| > \varepsilon \right) = 0

也被称为依测度收敛(converges in measure)。

几乎必然收敛(almost sure convergence)

X1,X2,X_1, X_2, \dots 几乎必然收敛(converges almost surely/almost everywhere/w.p. 11)于 XX,记为 Xna.s.XX_n \xrightarrow[]{\text{a.s.}} X,若

Pr(limnXn=X)=1\Pr\left(\lim\limits_{n \to \infty} X_n = X\right) = 1

也被称为依概率 11 收敛(convergence w.p. 11)。

依分布收敛

依分布收敛要求 FX(x)F_X(x) 是连续的,这个要求是必需的:考虑 (0,1n)\left(0, \frac{1}{n}\right) 上的均匀随机变量 XnX_n,满足 XnDXX_n \xrightarrow[]{D} X,但 Pr(Xn=0)=0,Pr(X=0)=1\Pr(X_n = 0) = 0,\, \Pr(X = 0) = 1

XnDXX_n \xrightarrow[]{D} XFX=FYF_X = F_Y,则 XnDYX_n \xrightarrow[]{D} Y

依概率收敛

依概率收敛蕴含依分布收敛,即

XnPX    XnDXX_n \xrightarrow[]{P} X \implies X_n \xrightarrow[]{D} X


反之并不成立,例如 XX[0,1][0, 1] 上的均匀随机变量,而 Xn=1XX_n = 1 - X,则 XnDXX_n \xrightarrow[]{D} X 但没有 XnPXX_n \xrightarrow[]{P} X

XnDcRX_n \xrightarrow[]{D} c \in \R,则 XnPcX_n \xrightarrow[]{P} c

Pr(Xnc>ε)=Pr(Xn<cε)+Pr(Xn>c+ε)0(if XnDc)\begin{aligned} \Pr(|X_n - c| > \varepsilon) &= \Pr(X_n < c - \varepsilon) + \Pr(X_n > c + \varepsilon) \\ &\to 0 \qquad(\text{if } X_n \xrightarrow[]{D} c) \end{aligned}

几乎必然收敛

Xn ⁣:ΩRX_n\colon \Omega \to \R 几乎处处收敛于 X ⁣:ΩRX\colon \Omega \to \R,除了零测集。

Xn ⁣:ΩRX_n\colon \Omega \to\R converges to X ⁣:ΩRX\colon \Omega \to\R almost everywhere except a null set.

几乎必然收敛蕴含依概率收敛,即

Xna.s.X    XnPXX_n \xrightarrow[]{\text{a.s.}} X \implies X_n \xrightarrow[]{P} X


反之并不成立,考虑 {Xn}\left\lbrace X_n \right\rbrace 是以 1n\dfrac{1}{n} 为参数的伯努利随机变量,则有 XnP0X_n \xrightarrow[]{P} 0,但没有 Xn=0X_n = 0n0n \to 0 时处处成立。

收敛强度

(Xna.s.X)    (XnPX)    (XnDX)(X_n \xrightarrow[]{\text{a.s.}} X) \implies (X_n \xrightarrow[]{P} X) \implies (X_n \xrightarrow[]{D} X)

证明略。

其他收敛模式

  • 依平均收敛(convergence in mean)Xn1XX_n \xrightarrow[]{1}XE[XnX]0\mathbb{E}[|X_n - X|] \to 0
  • rr 阶均值收敛(convergence in rr-th mean/LrL^r norm)XnrXX_n \xrightarrow[]{r}XE[XnXr]0\mathbb{E}[|X_n - X|^r] \to 0

对于 sr1s \ge r \ge 1

(XnsX)    (XnrX)    (Xn1X)    (XnPX)(X_n \xrightarrow[]{s}X) \implies (X_n \xrightarrow[]{r}X) \implies (X_n \xrightarrow[]{1}X) \implies (X_n \xrightarrow[]{P}X)

最后一个蕴含的证明:

limnPr(XnX>ε)=limnPr(XnXr>εr)limnE[XnXr]εr0\begin{aligned} \lim\limits_{n \to \infty} \Pr(|X_n - X| > \varepsilon) &= \lim\limits_{n \to \infty} \Pr(|X_n - X|^r > \varepsilon^r) \\ &\le \lim\limits_{n \to \infty} \dfrac{\mathbb{E}[|X_n - X|^r]}{\varepsilon^r}\\ &\to 0 \end{aligned}

大数定理与中心极限定理

伯努利的大数定理(Bernoulli's Law of Large Numbers):X1,X2,X_1, X_2, \dots 是独立同分布的伯努利随机变量,且 E[X1]=p\mathbb{E}[X_1] = p,则对任意 ε>0\varepsilon > 0,有

Pr(1ni=1nXip>ε)n0\Pr\left(\left|\dfrac{1}{n}\sum_{i=1}^{n}X_i - p\right| > \varepsilon\right) \xrightarrow[]{n \to \infty } 0

即样本均值 XˉnPp\bar{X}_n \xrightarrow[]{P} p

证明(切比雪夫不等式):

Pr(Xˉnp>ε)Var[Xˉn]ε2=Var[X1]nε2=p(1p)nε20\begin{aligned} \Pr(|\bar{X}_n - p| > \varepsilon) &\le \dfrac{\operatorname{Var}[\bar{X}_n]}{\varepsilon^2} \\ &= \dfrac{\operatorname{Var}[X_1]}{n\varepsilon^2} \\ &= \dfrac{p(1-p)}{n\varepsilon^2}\\ &\to 0 \end{aligned}

伯努利最初的证明不是这样的,因为这是 1713 年的事情,切比雪夫不等式是 1867 年的事情。

弱大数定理(辛钦定理,Khinchin's law):

XˉnPμasn\bar{X}_n \xrightarrow[]{P} \mu\quad \text{as}\quad n \to \infty

强大数定理(科摩哥洛夫定理,Kolmogorov's law):

Xˉna.s.μasn\bar{X}_n \xrightarrow[]{\text{a.s.}} \mu\quad \text{as}\quad n \to \infty

有界方差的弱大数定理(Weak LLN Assuming Bounded Variance)

X1,X2,X_1, X_2, \dots 是独立随机变量,其均值 E[Xi]=μ\mathbb{E}[X_i] = \mu 有限,且方差 Var[Xi]σ2\operatorname{Var}[X_i] \le \sigma^2 有界[1],则样本均值 Xˉn\bar{X}_n

XˉnPμasn\bar{X}_n \xrightarrow[]{P} \mu\quad \text{as}\quad n \to \infty

证明

切比雪夫不等式

Pr(Xˉnμ>ε)Var[Xˉn]ε2=Var[Xi]nε2σ2nε20\begin{aligned} \Pr(|\bar{X}_n - \mu| > \varepsilon) &\le \dfrac{\operatorname{Var}[\bar{X}_n]}{\varepsilon^2} \\ &= \dfrac{\operatorname{Var}[X_i]}{n\varepsilon^2} \\ &\le \dfrac{\sigma^2}{n\varepsilon^2}\\ &\to 0 \end{aligned}


  1. finitely bounded variance Var[Xi]σ2\operatorname{Var} [X_i] \le \sigma^2. ↩︎

棣莫弗-拉普拉斯定理(De Moivre-Laplace Theorem)

棣莫弗-拉普拉斯定理

p(0,1)p \in (0, 1)XnBin(n,p)X_n \sim \operatorname{Bin}(n, p),则其标准化有

Xnnpnp(1p)DN(0,1)asn\dfrac{X_n - np}{\sqrt{np(1-p)}} \xrightarrow[]{D} \mathcal{N}(0, 1)\quad \text{as}\quad n \to \infty

对于任意 p(0,1)p \in (0, 1)ε>0\varepsilon > 0,存在 n0n_0 使得任意 n>n0n > n_0 与任意 kk

(nk)pk(1p)nk(1±ε)12πnp(1p)exp((knp)22np(1p))\dbinom{n}{k}p^{k}(1-p)^{n-k} \in (1\pm \varepsilon) \dfrac{1}{\sqrt{2\pi np(1-p)}}\exp\left(-\dfrac{(k-np)^2}{2np(1-p)}\right)

使用斯特林公式与麦克劳林展开即可。

中心极限定理(CLT)

中心极限定理(Central Limit Theorem, CLT)

X1,X2,X_1, X_2, \dots 是 i.i.d. 的随机变量,其均值 E[Xi]=μ\mathbb{E}[X_i] = \mu 与方差 Var[Xi]=σ2\operatorname{Var}[X_i] = \sigma^2 有限,则标准化样本均值

Xˉnμσ/nDN(0,1)asn\dfrac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow[]{D} \mathcal{N}(0, 1)\quad \text{as} \quad n \to \infty

X1,X_1, \dots 是 i.i.d. 随机变量,有 E[X1]=μ\mathbb{E}[X_1] = \muVar[X1]=σ2\operatorname{Var} [X_1] = \sigma^2,于是有

MX(t)=k0E[Xk]k!tk=E[1]+tE[X]+t22E[X2]+o(t22E[X2])\begin{aligned} M_X(t) &= \sum_{k \ge 0} \dfrac{\mathbb{E}[X^k]}{k!}t^k \\ &= \mathbb{E}[1] + t \mathbb{E}[X] + \dfrac{t^2}{2}\mathbb{E}[X^2] + o\left(\dfrac{t^2}{2}\mathbb{E}[X^2]\right) \\ \end{aligned}

则有中心化的样本均值

MX1μ(t)=1+t2σ22+o(t2)\begin{aligned} M_{X_1 - \mu}(t) &= 1 + \dfrac{t^2 \sigma^2}{2} + o(t^2) \end{aligned}

Zn=Xˉnμσ/nZ_n = \dfrac{\bar{X}_n - \mu}{\sigma / \sqrt{n}},则有

MZn(t)=E[etZn]=E[exp(tσni(Xiμ))]=iE[exp(tσn(Xiμ))]=(MX1μ(tσn))n\begin{aligned} M_{Z_n}(t) &= \mathbb{E}\left[\e^{t Z_n}\right]\\ &= \mathbb{E}\left[ \exp\left( \dfrac{t}{\sigma \sqrt{n}} \sum_i (X_i - \mu) \right) \right] \\ &= \prod_i \mathbb{E}\left[ \exp\left( \dfrac{t}{\sigma \sqrt{n}} (X_i - \mu) \right) \right] \\ &= \left( M_{X_1 - \mu}\left( \dfrac{t}{\sigma \sqrt{n}} \right) \right)^n \end{aligned}

综合 MX1μ(t)=1+t2σ22+o(t2)M_{X_{1-\mu}}(t) = 1 + \dfrac{t^2 \sigma^2}{2} + o(t^2) 与上式,有

MZn(t)=(1+(tσn)2σ22+o((tσn)2))n=(1+t22n+o(t2n))n\begin{aligned} M_{Z_n}(t) &= \left( 1 + \left( \dfrac{t}{\sigma \sqrt{n}} \right)^2 \dfrac{\sigma^2}{2} + o\left( \left( \dfrac{t}{\sigma \sqrt{n}} \right)^2 \right) \right)^n\\ &= \left(1 + \dfrac{t^2}{2n} + o\left(\dfrac{t^2}{n}\right)\right)^n \end{aligned}

于是

limnMZn(t)=limn(1+t22n+o(t2n))n=limn(1+t2/2n)n=et22\begin{aligned} \lim\limits_{n \to \infty} M_{Z_n}(t) &= \lim\limits_{n \to \infty} \left(1 + \dfrac{t^2}{2n} + o\left(\dfrac{t^2}{n}\right)\right)^n\\ &= \lim\limits_{n \to \infty} \left(1 + \dfrac{t^2 / 2}{n}\right)^n\\ &= \e^{\frac{t^2}{2}} \end{aligned}

ZnDN(0,1)Z_n \xrightarrow[]{D} \mathcal{N}(0, 1)。因为标准正态分布的 MGF 为

MX(t)=E[etX]=12πetxex22 ⁣dx=12πet22e(xt)22 ⁣dx=et22\begin{aligned} M_X(t) &= \mathbb{E}\left[ \e^{t X} \right] \\ &= \dfrac{1}{\sqrt{2 \pi}} \int_{-\infty}^{\infty} \e^{tx} \e^{-\dfrac{x^2}{2}} \d x \\ &= \dfrac{1}{\sqrt{2 \pi}} \e^{\frac{t^2}{2}} \int_{-\infty}^{\infty} \e^{-\dfrac{(x-t)^2}{2}} \d x \\ &= \e^{\frac{t^2}{2}} \end{aligned}

林德伯格-列维定理(Lindeberg-Lévy CLT)*

暂略

CLT 的收敛率(Convergence Rate of CLT)

贝里-埃辛定理(Berry-Esseen Theorem)

X1,X2,X_1, X_2, \dots 是 i.i.d. 的随机变量,有其均值 E[X1]=μ\mathbb{E}[X_1] = \mu、方差 Var[X1]=σ2\operatorname{Var}[X_1] = \sigma^2 与三阶矩 ρ=E[X1μ3]\rho = \mathbb{E}[|X_1 - \mu|^3],则有

Pr(Xˉnμσ/nz)Φ(z)Cρσ3n\left\lvert \Pr\left( \dfrac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \le z \right) - \Phi(z) \right\rvert \le \dfrac{C\rho}{\sigma^3\sqrt{n}}

其中 Φ\Phi 为标准正态分布的 CDF,CC 为常数。