矩与偏差

马尔可夫不等式(Markov's Inequality)

定义

亦称为切比雪夫第一不等式(the first Chebyshev's Inequality)

马尔可夫不等式

XX 是一个非负随机变量,那么对于任意 a>0a > 0,有

Pr(Xa)E[X]a\Pr(X \ge a) \le \frac{\mathbb{E}[X]}{a}

用「指示」(indicator)证明

I=I(Xa)I = I(X \ge a)。因为 X0,a>0X \ge 0, a > 0,有

IXaXaI \le \left\lfloor \dfrac{X}{a} \right\rfloor \le \dfrac{X}{a}

从而

Pr(Xa)=E[I]E[Xa]=E[X]a\Pr(X \ge a) = \mathbb{E}[I] \le \mathbb{E}\left[\dfrac{X}{a}\right] = \dfrac{\mathbb{E}[X]}{a}

用全期望证明

E[X]=E[XXa]Pr(Xa)+E[XX<a]Pr(X<a)aPr(Xa)+0Pr(X<a)=aPr(Xa)\begin{aligned} \mathbb{E}[X] &= \mathbb{E}[X \mid X \ge a] \cdot \Pr(X \ge a) + \mathbb{E}[X \mid X < a] \cdot \Pr(X < a)\\ &\ge a \cdot \Pr(X \ge a) + 0 \cdot \Pr(X < a)\\ &= a \cdot \Pr(X \ge a) \end{aligned}

从而有

Pr(Xa)E[X]a\Pr(X \ge a) \le \dfrac{\mathbb{E}[X]}{a}

推论

对于任意 c>1c > 1,有

Pr(XcE[X])1c\Pr(X \ge c \mathbb{E}[X]) \le \dfrac{1}{c}

Tight in the worst case (最坏情况下的紧确性)

任意 c>1,μRc > 1, \mu \in \R,存在期望为 μ\mu 的非负随机变量 XX 使得 Pr(Xcμ)=1c\Pr(X \ge c \mu) = \dfrac{1}{c}

lower tail variant (下尾变式)

有时也称为逆马尔可夫不等式

Pr(Xa)uE[X]ua\Pr(X \le a) \le \dfrac{u - \mathbb{E}[X]}{u - a}

其中要求 XX 有界,XuX \le u

证明

考虑随机变量 Y=uXY = u - X,则 Y0Y \ge 0。由马尔可夫不等式有

Pr(Xa)=Pr(Yua)E[Y]ua=uE[X]ua\Pr(X \le a) = \Pr(Y \ge u - a) \le \dfrac{\mathbb{E}[Y]}{u - a} = \dfrac{u - \mathbb{E}[X]}{u - a}

从拉斯维加斯到蒙特卡罗

  • 蒙特卡洛算法:一个随机算法。
  • 拉斯维加斯算法:一个确定性算法,但是有一个随机的运行时间。

若有一个拉斯维加斯算法 A\mathscr{A},其对于任意大小为 nn 的输入,运行时间最大为 t(n)t(n)(算法 A\mathscr{A} 有着最坏预期时间复杂度 t(n)t(n))。

算法 B\mathscr{B} 是一个蒙特卡罗算法,其模拟算法 A\mathscr{A} 至多 t(n)ε\left\lceil \frac{t(n)}{\varepsilon} \right\rceil 步,若算法 A\mathscr{A} 终止,则算法 B\mathscr{B} 返回 A\mathscr{A} 的结果,否则返回任意答案。

则算法 B\mathscr{B} 最坏情况运行时间 t(n)ϵ\le \left\lceil \frac{t(n)}{\epsilon} \right\rceil,同时正确概率

p1Pr(tt(n)ε)1εE[t]t(n)1ε\begin{aligned} p &\ge 1 - \Pr\left(t \ge \tfrac{t(n)}{\varepsilon}\right)\\ &\ge 1 - \dfrac{\varepsilon\mathbb{E}[t]}{t(n)}\\ &\ge 1 - \varepsilon \end{aligned}

随机图中的团

团(clique)

顶点集 CC 被称为无向图 G=(V,E)G=(V,E)(clique),如果 CC 是顶点集 VV 的子集(CVC \subseteq V),而且任意两个 CC 中的顶点都有边连接。即 CC 诱导的子图是完全图。

对于随机图 G(n,p)G(n, p)[1],固定一个常整数 k3k \ge 3,令随机变量 XX 是随机图 GG(n,p)G \sim G(n, p)kk-团(KkK_{k})的个数。

对于每个不同的 S[n]S \subseteq [n],其中 S=k|S| = k,令 IS=I(KSG)I_S = I(K_S \subseteq G),于是有

  • E[IS]=Pr(KSG)=p(k2)\mathbb{E}[I_S] = \Pr(K_S \subseteq G) = p^{\binom{k}{2}}
  • X=S([n]k)ISX = \displaystyle \sum_{S \in \binom{[n]}{k}} I_S

根据线性性有

E[X]=(nk)p(k2)nkpk(k1)2=o(1)\begin{aligned} \mathbb{E}[X] &= \dbinom{n}{k} p^{\binom{k}{2}}\\ &\le n^{k} p^{\frac{k(k-1)}{2}}\\ &= o(1) \end{aligned}

对于 p=o(n2k1)p = o\left(n^{-\frac{2}{k-1}}\right)

根据马尔可夫不等式有 Pr(X1)E[X]=o(1)\Pr(X \ge 1) \le \mathbb{E}[X] = o(1),即 Pr(X=0)1o(1)\Pr(X = 0) \ge 1 - o(1)

也就是说,若 p=o(n2k1)p = o\left(n^{-\frac{2}{k-1}}\right),那么 G(n,p)G(n, p)渐进几乎必然(asymptotically almost surely, a.a.s.)不含 kk-团(KkK_{k}-free)。

一般化(generalized)马尔可夫不等式

一般化马尔可夫不等式

XX 是一个随机变量,f ⁣:RR0f\colon \R \to \R_{\ge 0} 是一个非负函数,那么对于任意 a>0a > 0,有

Pr(f(X)a)E[f(X)]a\Pr(f(X) \ge a) \le \dfrac{\mathbb{E}[f(X)]}{a}

证明

Y=f(X)Y = f(X),则 YY 是一个非负随机变量。代入马尔可夫不等式。

方差与矩

离差不等式(Deviation Inequality)

XX 是一个均值为 μ=E[X]\mu = \mathbb{E}[X] 的随机变量。对于任意 a>0a > 0,应用马尔可夫不等式,令 Y=XμY = |X - \mu| ,得到

Pr(Xμa)E[Xμ]a\Pr(|X - \mu| \ge a) \le \dfrac{\mathbb{E}[|X - \mu|]}{a}

但是绝对值并不好处理。于是改令 Y=(Xμ)2Y = (X - \mu)^2,得到

Pr(Xμa)=Pr[(Xμ)2a2]E[(Xμ)2]a2\begin{aligned} \Pr(|X - \mu| \ge a) &= \Pr[(X - \mu)^2 \ge a^2]\\ &\le \dfrac{\mathbb{E}[(X - \mu)^2]}{a^2}\\ \end{aligned}

E[(Xμ)2]\mathbb{E}[(X - \mu)^2] 就是方差(variance),又称为二阶中心矩(2nd central moment)。

矩(moment)

矩(moment)

对于正整数 kk,随机变量 XXkk 阶矩kk-th moment)为 E[Xk]\mathbb{E}[X^k],而 kk 阶中心矩kk-th central moment)为 E[(XE[X])k]\mathbb{E}[(X - \mathbb{E}[X])^k]

随机变量 XX 称为中心化的(centralized),若 E[X]=0\mathbb{E}[X] = 0。随机变量 XX 可以通过 Y=XE[X]Y = X - \mathbb{E}[X] 进行中心化。

方差与标准差

随机变量 XX方差(variance)就是其二阶中心矩,即

Var[X]=E[(XE[X])2]\operatorname{Var}[X] = \mathbb{E}[(X - \mathbb{E}[X])^2]

方差的平方根称为标准差(standard deviation)。记为 σ=σ[X]=Var[X]\sigma = \sigma[X] = \sqrt{\operatorname{Var}[X]}

切比雪夫不等式(Chebyshev's Inequality)

切比雪夫不等式

XX 是一个随机变量,μ=E[X]\mu = \mathbb{E}[X] 是其均值,σ2=Var[X]\sigma^2 = \operatorname{Var}[X] 是其方差。那么对于任意 a>0a > 0,有

Pr(Xμa)σ2a2\Pr(|X - \mu| \ge a) \le \dfrac{\sigma^2}{a^2}

证明

Y=(Xμ)2Y = (X - \mu)^2,则 YY 是一个非负随机变量。代入马尔可夫不等式。

推论

对于标准差 σ\sigma 与任意 k1k \ge 1,有

Pr(Xμkσ)1k2\Pr(|X - \mu| \ge k \sigma) \le \dfrac{1}{k^2}

切比雪夫不等式也有最坏情况的紧确性。对任意 k1,μR,σ>0k \ge 1,\, \mu \in \R,\, \sigma > 0,总存在随机变量 XX 满足 E[X]=μ,Var[X]=σ2\mathbb{E}[X] = \mu,\, \operatorname{Var}[X] = \sigma^2 使得 Pr(Xμkσ)=1k2\Pr(| X - \mu| \ge k \sigma) = \dfrac{1}{k^2}

中位数与均值

中位数

随机变量 XX中位数(median)是一个实数 mm,使得[1]

Pr(Xm)12andPr(Xm)12\Pr(X \le m) \ge \dfrac{1}{2} \quad \text{and} \quad \Pr(X \ge m) \ge \dfrac{1}{2}


  1. sthé,笑。 ↩︎

期望 μ=E[X]\mu = \mathbb{E}[X] 是使得 E[(Xμ)2]\mathbb{E}[(X - \mu)^2] 最小的值。

证明

f(x)=E[(Xx)2]=E[X2]2xE[X]+x2\begin{aligned} f(x) &= \mathbb{E}[(X - x)^2]\\ &= \mathbb{E}[X^2] - 2x \mathbb{E}[X] + x^2\\ \end{aligned}

是一个关于 xx 的二次函数,其最小值在 x=μx = \mu 处取得。

中位数是使得 E[Xm]\mathbb{E}[|X - m|] 最小的值。

证明

根据对称性,不妨设一个非中位数 y>my > m,那么有 Pr(Xy)<12\Pr(X \ge y) < \dfrac{1}{2},于是

E[XyXm]=(my)Pr(Xy)+m<x<y(m+y2x)Pr(X=x)+(ym)Pr(Xm)>my2+ym2=0\begin{aligned} \mathbb{E}[|X - y| - |X - m|] &= \textcolor{da6904}{(m-y)\Pr(X \ge y) + \sum_{m < x < y}(m + y - 2x) \Pr(X = x)} + \textcolor{05aa94}{(y - m) \Pr(X \le m)}\\ &> \textcolor{da6904}{\dfrac{m-y}{2}} + \textcolor{05aa94}{\dfrac{y-m}{2}}\\ &= 0 \end{aligned}

橙色部分是因为,Pr(Xy)+m<x<yPr(X=x)=12\Pr(X \ge y) + \displaystyle \sum_{m < x < y} \Pr(X = x) = \dfrac{1}{2},且有 m+y2x>mym + y - 2x > m - y

若随机变量 XX 有着有限期望 μ\mu、中位数 mm 与标准差 σ\sigma,则有

μmσ| \mu - m | \le \sigma

证明

μm=E[X]m=E[Xm]E[Xm](琴生不等式)E[Xμ](中位数最小化上式)=E[(Xμ)2]E[(Xμ)2](琴生不等式)=σ\begin{aligned} |\mu - m| &= |\mathbb{E}[X] - m|\\ &= |\mathbb{E}[X - m]|\\ &\le \mathbb{E}[|X - m|] & \text{(琴生不等式)}\\ &\le \mathbb{E}[|X - \mu|] &\text{(中位数最小化上式)}\\ &= \mathbb{E}\left[ \sqrt{(X - \mu)^2} \right] \\ &\le \sqrt{\mathbb{E}[(X - \mu)^2]} &\text{(琴生不等式)}\\ &= \sigma \end{aligned}

方差

性质

Var[X]=E[X2]E[X]2\operatorname{Var}[X] = \mathbb{E}[X^2] - \mathbb{E}[X]^2

证明

Var[X]=E[(XE[X])2]=E[X22XE[X]+E[X]2]=E[X2]2E[X]E[X]+E[X]2=E[X2]E[X]2\begin{aligned} \operatorname{Var}[X] &= \mathbb{E}[(X - \mathbb{E}[X])^2]\\ &= \mathbb{E}[X^2 - 2X\mathbb{E}[X] + \mathbb{E}[X]^2]\\ &= \mathbb{E}[X^2] - 2\mathbb{E}[X]\mathbb{E}[X] + \mathbb{E}[X]^2\\ &= \mathbb{E}[X^2] - \mathbb{E}[X]^2 \end{aligned}

对于随机变量 X,YX, Y 与实数 aRa \in \R,有

  • Var[a]=0\operatorname{Var}[a] = 0
  • Var[X+a]=Var[X]\operatorname{Var}[X+a] = \operatorname{Var}[X](方差是中心距)
  • Var[aX]=a2Var[X]\operatorname{Var}[aX] = a^2 \operatorname{Var}[X](方差是二次的,即 quadratic)
  • Var[X+Y]=Var[X]+Var[Y]+2(E[XY]E[X]E[Y])\operatorname{Var}[X+Y] = \operatorname{Var}[X] + \operatorname{Var}[Y] + 2(\textcolor{FF0099}{\mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]})

彩色部分即为协方差(covariance)。

第四点的证明

Var[X+Y]=E[(X+Y)2]E[X+Y]2=E[X2+2XY+Y2](E[X]+E[Y])2=(E[X2]E[X]2)+(E[Y2]E[Y]2)+2(E[XY]E[X]E[Y])=Var[X]+Var[Y]+2(E[XY]E[X]E[Y])\begin{aligned} \operatorname{Var}[X + Y] &= \mathbb{E}[(X + Y)^2] - \mathbb{E}[X + Y]^2\\ &= \mathbb{E}[X^2 + 2XY + Y^2] - (\mathbb{E}[X] + \mathbb{E}[Y])^2\\ &= (\mathbb{E}[X^2] - \mathbb{E}[X]^2) + (\mathbb{E}[Y^2] - \mathbb{E}[Y]^2) + 2(\mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y])\\ &= \operatorname{Var}[X] + \operatorname{Var}[Y] + 2(\mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y]) \end{aligned}

类似地还可以定义条件方差:

条件方差

XX 在给定事件 AA条件方差可以定义为:记条件期望 μ=E[XA]\mu = \mathbb{E}[X \mid A],有

Var[XA]=E[(Xμ)2A]\operatorname{Var} [X \mid A] = \mathbb{E}[(X - \mu)^2 \mid A]

Var[XA]=E[X2A]μ2\operatorname{Var} [X \mid A] = \mathbb{E}[X^2 \mid A] - \mu^2

Var[X]=Var[E[XA]]+E[Var[XA]]\operatorname{Var} [X] = \operatorname{Var} [\mathbb{E}[X \mid A]] + \mathbb{E}[\operatorname{Var} [X \mid A]]

证明

μ=E[XA]\mu = \mathbb{E}[X \mid A],则 E[μ]=E[X]\mathbb{E}[\mu] = \mathbb{E}[X],此时有

Var[E[XA]]+E[Var[XA]]=Var[μ]+E[E[X2A]μ2]=E[E[X2A]]+Var[μ]E[μ2]=E[X2]E[μ]2=E[X2]E[X]2=Var[X]\begin{aligned} \operatorname{Var} [\mathbb{E}[X \mid A]] + \mathbb{E}[\operatorname{Var} [X \mid A]] &= \operatorname{Var} [\mu] + \mathbb{E}[\mathbb{E}[X^2 \mid A] - \mu^2]\\ &= \mathbb{E}[\mathbb{E}[X^2 \mid A]] + \operatorname{Var} [\mu] - \mathbb{E}[\mu^2]\\ &= \mathbb{E}[X^2] - \mathbb{E}[\mu]^2\\ &= \mathbb{E}[X^2] - \mathbb{E}[X]^2\\ &= \operatorname{Var} [X] \end{aligned}

协方差

随机变量 X,YX, Y协方差(covariance)定义为

Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]E[X]E[Y]\begin{aligned} \operatorname{Cov}(X, Y) &= \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]\\ &= \mathbb{E}[XY] - \mathbb{E}[X]\mathbb{E}[Y] \end{aligned}

  • Var[X]=Cov(X,X)\operatorname{Var}[X] = \operatorname{Cov}(X, X)
  • 对称性:Cov(X,Y)=Cov(Y,X)\operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X)
  • 分配性:Cov(X,Y+Z)=Cov(X,Y)+Cov(X,Z)\operatorname{Cov}(X, Y + Z) = \operatorname{Cov}(X, Y) + \operatorname{Cov}(X, Z)
  • 线性性:Cov(aX,Y)=aCov(X,Y)\operatorname{Cov}(aX, Y) = a \operatorname{Cov}(X, Y)

X,YX, Y 独立,则 Cov(X,Y)=0\operatorname{Cov}(X, Y) = 0

若随机变量 X1,X2,,XnX_1, X_2, \dots, X_n 相互独立,则

E[i=1nXi]=i=1nE[Xi]\mathbb{E}\left[ \prod_{i=1}^{n}X_i \right] = \prod_{i=1}^{n}\mathbb{E}[X_i]

证明

运用 LOTUS

E[XY]=x,yxyPr[X=xY=y]=x,yxyPr[X=x]Pr[Y=y]=(xxPr[X=x])(yyPr[Y=y])=E[X]E[Y]\begin{aligned} \mathbb{E}[XY] &= \sum_{x, y} xy \Pr[X = x \cap Y = y]\\ &= \sum_{x, y} x y \Pr[X = x] \Pr[Y = y]\\ &= \left( \sum_{x} x \Pr[X = x] \right) \left( \sum_{y} y \Pr[Y = y] \right)\\ &= \mathbb{E}[X] \mathbb{E}[Y] \end{aligned}

同样也有条件协方差:

条件协方差

X,YX, Y 在给定事件 AA条件协方差可以定义为:记条件期望 μ=E[XA],ν=E[YA]\mu = \mathbb{E}[X \mid A],\, \nu = \mathbb{E}[Y \mid A],有

Cov(X,YA)=E[(Xμ)(Yν)A]\operatorname{Cov} (X, Y \mid A) = \mathbb{E}[(X - \mu)(Y - \nu) \mid A]

Cov(X,Y)=Cov(E[XA],E[YA])+E[Cov(X,YA)]\operatorname{Cov}(X, Y) = \operatorname{Cov}(\mathbb{E}[X \mid A], \mathbb{E}[Y \mid A]) + \mathbb{E}[\operatorname{Cov}(X, Y \mid A)]

期望的乘积

柯西-施瓦茨不等式(Cauchy-Schwarz Inequality)

对于任意两个随机变量 X,YX, Y,有

E[XY]2E[X2]E[Y2]\mathbb{E}[XY]^2 \le \mathbb{E}[X^2] \mathbb{E}[Y^2]

证明

考虑离散的情形,定义

{ux,y=p(x,y)xvx,y=p(x,y)y\left\lbrace\begin{aligned} u_{x, y} &= \sqrt{p(x, y)} x\\ v_{x, y} &= \sqrt{p(x, y)} y \end{aligned}\right.

其中 p(x,y)=Pr[X=xY=y]p(x, y) = \Pr[X = x \cap Y = y]。则有

(x,yp(x,y)xy)2(x,yp(x,y)x2)(x,yp(x,y)y2)\begin{aligned} \left( \sum_{x, y}p(x, y)xy \right)^2 &\le \left( \sum_{x, y}p(x, y)x^2 \right) \left( \sum_{x, y}p(x, y)y^2 \right)\\ \end{aligned}

E[XY]2E[X2]E[Y2]\mathbb{E}[XY]^2 \le \mathbb{E}[X^2] \mathbb{E}[Y^2]

其还有两种形式:

对任意 u,vRn\vec{u}, \vec{v} \in \R^n,有

u,r2u22v22\left\langle \vec{u}, \vec{r} \right\rangle^2 \le \left\lVert \vec{u} \right\rVert_2^2 \cdot \left\lVert \vec{v} \right\rVert_2^2

(iuivi)2(iui2)(ivi2)\left( \sum_i u_i v_i \right)^2 \le \left( \sum_i u_i^2 \right) \left( \sum_i v_i^2 \right)

赫尔德不等式(Hölder's Inequality)

对于任意两个随机变量 X,YX, Yp,q>0p, q > 01p+1q=1\dfrac{1}{p} + \dfrac{1}{q} = 1,有

E[XY](E[Xp])1p(E[Yq])1q\mathbb{E}[|XY|] \le \left( \mathbb{E}[|X|^p] \right)^{\frac{1}{p}} \left( \mathbb{E}[|Y|^q] \right)^{\frac{1}{q}}

证明 1

f(x)=x1pf(x) = x^{\frac{1}{p}}g(x)=x1qg(x) = x^{\frac{1}{q}},则 f,gf, g 是凸函数。根据琴生不等式有

E[XY]=E[f(Xp)g(Yq)]E[f(Xp)]E[g(Yq)]=f(E[Xp])g(E[Yq])=(E[Xp])1p(E[Yq])1q\begin{aligned} \mathbb{E}[|XY|] &= \mathbb{E}[|f(|X|^p)g(|Y|^q)|]\\ &\le \mathbb{E}[f(|X|^p)] \cdot \mathbb{E}[g(|Y|^q)]\\ &= f(\mathbb{E}[|X|^p]) \cdot g(\mathbb{E}[|Y|^q])\\ &= \left( \mathbb{E}[|X|^p] \right)^{\frac{1}{p}} \left( \mathbb{E}[|Y|^q] \right)^{\frac{1}{q}} \end{aligned}

证明 2

先证明「杨氏不等式」(Young's Inequality):对于任意 x,y>0x, y > 0p,q>0p, q > 01p+1q=1\dfrac{1}{p} + \dfrac{1}{q} = 1,有

xyxpp+yqqxy \le \dfrac{x^p}{p} + \dfrac{y^q}{q}

t=1pt = \dfrac{1}{p},有

ln(txp+(1t)yq)tlnxp+(1t)lnyq=ptlnx+q(1t)lny=lnx+lny=lnxy\begin{aligned} \ln \left( t x^p + (1-t)y^q \right) &\ge t \ln x^p + (1-t) \ln y^q\\ &= pt \ln x + q(1-t) \ln y\\ &= \ln x + \ln y\\ &= \ln xy \end{aligned}

得证。

类似地,令

{ui=xi(ixip)1pvi=yi(iyiq)1q\left\lbrace\begin{aligned} u_i &= \dfrac{x_i}{\left( \sum\limits_i x_i^p \right)^{\frac{1}{p} }}\\ v_i &= \dfrac{y_i}{\left( \sum\limits_i y_i^q \right)^{\frac{1}{q} }} \end{aligned}\right.

于是

iuiviixipp(ixip)+iyiqq(iyiq)=1p+1q=1\begin{aligned} \sum_i u_i v_i &\le \sum_i \dfrac{x_i^p}{p \left( \sum\limits_i x_i^p \right)} + \sum_i \dfrac{y_i^q}{q \left( \sum\limits_i y_i^q \right)}\\ &= \dfrac{1}{p} + \dfrac{1}{q}\\ &= 1 \end{aligned}

另一种形式就是

对任意 u,vRn\vec{u}, \vec{v} \in \R^np,q>0p, q > 01p+1q=1\dfrac{1}{p} + \dfrac{1}{q} = 1,有

u,vupvq\left\lvert \left\langle \vec{u}, \vec{v} \right\rangle \right\rvert \le \left\lVert \vec{u} \right\rVert_p \cdot \left\lVert \vec{v} \right\rVert_q

相关性

当随机变量等比例变化时,其方差会按照比例的平方变化。因此有标准化的协方差,即「相关系数」。

相关系数(correlation coefficient)

随机变量 X,YX, Y相关系数(correlation coefficient)定义为

ρ(X,Y)=Cov(X,Y)Var[X]Var[Y]\rho(X, Y) = \dfrac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}[X] \operatorname{Var}[Y]}}

其中 ρ(X,Y)[1,1]\rho(X, Y) \in [-1, 1]

证明

考虑随机变量 XσX±YσY\dfrac{X}{\sigma_X}\pm \dfrac{Y}{\sigma_Y},其方差为

Var[XσX±YσY]=Var[XσX]+Var[YσY]±2Cov(XσX,YσY)=1σX2Var[X]+1σY2Var[Y]±2Cov(XσX,YσY)=2±2Cov(XσX,YσY)=2±2ρ(X,Y)0\begin{aligned} \operatorname{Var} \left[ \dfrac{X}{\sigma_X} \pm \dfrac{Y}{\sigma_Y} \right] &= \operatorname{Var} \left[ \dfrac{X}{\sigma_X} \right] + \operatorname{Var} \left[ \dfrac{Y}{\sigma_Y} \right] \pm 2\operatorname{Cov} \left( \dfrac{X}{\sigma_X}, \dfrac{Y}{\sigma_Y} \right)\\ &= \dfrac{1}{\sigma_X^2} \operatorname{Var} [X] + \dfrac{1}{\sigma_Y^2} \operatorname{Var} [Y] \pm 2\operatorname{Cov} \left( \dfrac{X}{\sigma_X}, \dfrac{Y}{\sigma_Y} \right)\\ &= 2 \pm 2\operatorname{Cov} \left( \dfrac{X}{\sigma_X}, \dfrac{Y}{\sigma_Y} \right)\\ &= 2 \pm 2 \rho(X, Y)\\ &\ge 0 \end{aligned}

因此有 ρ[1,1]\rho \in [-1, 1]

两个随机变量 X,YX, Y 被称为不相关(uncorrelated),当且仅当 ρ(X,Y)=0\rho(X, Y) = 0,即 Cov(X,Y)=0\operatorname{Cov}(X, Y) = 0

「不相关」与「独立」是不同的。独立性是指两个随机变量的联合分布等于各自的分布的乘积,而不相关性只是指两个随机变量的协方差为零。

例如设 X,YX, Y 是参数为 12\dfrac{1}{2} 的伯努利随机变量,则有 X+YX + YXY|X - Y| 不相关,但是不独立。

证明

显然 X+YX + YXY|X - Y| 不相互独立,因为 Pr(X+Y=1XY=0)=0\Pr(X + Y = 1 \cap |X - Y| = 0) = 0,但 Pr(X+Y=1)=12,Pr(XY=0)=12\Pr(X + Y = 1) = \dfrac{1}{2},\, \Pr(|X - Y| = 0) = \dfrac{1}{2}

相关系数有

ρ=Cov(X+Y,XY)Var[X+Y]Var[XY]=E[(X+Y)(XY)]E[X+Y]E[XY]Var[X+Y]Var[XY]=E[X2Y2]1×12Var[X+Y]Var[XY]=(12×0+12×1)12Var[X+Y]Var[XY]=0\begin{aligned} \rho &= \dfrac{\operatorname{Cov} (X + Y, |X - Y|)}{\sqrt{\operatorname{Var} [X + Y] \operatorname{Var} [|X - Y|]}}\\ &= \dfrac{\mathbb{E}[(X + Y)(|X - Y|)] - \mathbb{E}[X + Y]\mathbb{E}[|X - Y|]}{\sqrt{\operatorname{Var} [X + Y] \operatorname{Var} [|X - Y|]}}\\ &= \dfrac{\mathbb{E}[|X^2 - Y^2|] - 1 \times \frac{1}{2}}{\sqrt{\operatorname{Var} [X + Y] \operatorname{Var} [|X - Y|]}}\\ &= \dfrac{(\frac{1}{2} \times 0 + \frac{1}{2} \times 1) - \frac{1}{2}}{\sqrt{\operatorname{Var} [X + Y] \operatorname{Var} [|X - Y|]}}\\ &= 0 \end{aligned}

X+YX + YXY|X - Y| 不相关。

此外相关性也不具有传递性,即若 X,YX, Y 呈正相关,Y,ZY, Z 呈正相关,那么 X,ZX, Z 不一定呈正相关。

方差的和

对于随机变量 X,YX, Y,有

Var[X+Y]=Var[X]+Var[Y]+2Cov(X,Y)\operatorname{Var}[X + Y] = \operatorname{Var}[X] + \operatorname{Var}[Y] + 2\operatorname{Cov}(X, Y)

对于随机变量 X1,X2,,XnX_1, X_2, \dots, X_n,有

Var[i=1nXi]=i=1nVar[Xi]+ijCov(Xi,Xj)=i=1nVar[Xi]+2i<jCov(Xi,Xj)\begin{aligned} \operatorname{Var}\left[ \sum_{i=1}^{n}X_i \right] &= \sum_{i=1}^{n}\operatorname{Var}[X_i] + \sum_{i \ne j}\operatorname{Cov}(X_i, X_j)\\ &= \sum_{i=1}^{n}\operatorname{Var}[X_i] + 2\sum_{i < j}\operatorname{Cov}(X_i, X_j) \end{aligned}

对于成对独立的随机变量 X1,X2,,XnX_1, X_2, \dots, X_n,有

Var[i=1nXi]=i=1nVar[Xi]\operatorname{Var}\left[ \sum_{i=1}^{n}X_i \right] = \sum_{i=1}^{n}\operatorname{Var}[X_i]

常见分布的方差

指示函数

对于以 pp 为参数的伯努利随机变量 X{0,1}X \in \left\lbrace 0, 1 \right\rbrace

Var[X]=p(1p)\operatorname{Var}[X] = p(1-p)

证明

X2=XX^2 = X,故

Var[X]=E[X2]E[X]2=pp2=p(1p)\begin{aligned} \operatorname{Var}[X] &= \mathbb{E}[X^2] - \mathbb{E}[X]^2\\ &= p - p^2\\ &= p(1-p) \end{aligned}

对于事件 AA 的指示随机变量 X=I(A)X = I(A)

Var[X]=Pr(A)Pr(Ac)\operatorname{Var}[X] = \Pr(A)\Pr(A^c)

离散均匀分布的方差

对整数 aba \le b,令 XX 是从 [a,b][a, b] 中均匀随机(u.a.r.)抽取的值,有

Var[X]=(ba)(ba+2)12\operatorname{Var}[X] = \dfrac{(b-a)(b-a+2)}{12}

证明

{E[X]=k=abkba+1=a+b2E[X2]=k=abk2ba+1=2b2+2ab+2a2+ba6\left\lbrace\begin{aligned} \mathbb{E}[X] &= \sum_{k=a}^b \dfrac{k}{b-a+1} = \dfrac{a+b}{2}\\ \mathbb{E}[X^2] &= \sum_{k=a}^b \dfrac{k^2}{b-a+1} = \dfrac{2b^2 + 2ab + 2a^2 + b-a}{6}\\ \end{aligned}\right.

几何分布

对于几何随机变量 XGeo(p)X \sim \operatorname{Geo}(p),有

Var[X]=1pp2\operatorname{Var}[X] = \dfrac{1-p}{p^2}

证明

E[X]=1p\mathbb{E}[X] = \dfrac{1}{p}

利用几何分布的无记忆性,有

E[X2]=E[X2X>1](1p)+E[X2X=1]p=E[((X1)+1)2X>1](1p)+p=E[(X+1)2](1p)+p=(1p)E[X2]+2(1p)p+1\begin{aligned} \mathbb{E}[X^2] &= \mathbb{E}[X^2 \mid X > 1] \cdot (1-p) + \mathbb{E}[X^2 \mid X =1]\cdot p\\ &= \mathbb{E}[((X-1)+1)^2 \mid X > 1]\cdot (1-p) + p\\ &= \mathbb{E}[(X+1)^2]\cdot (1-p) + p\\ &= (1-p)\mathbb{E}[X^2] + \dfrac{2(1-p)}{p} + 1 \end{aligned}

可得 E[X2]=2pp2\mathbb{E}[X^2] = \dfrac{2-p}{p^2}

可以使用 Wolfram 验证(Wolfram 中几何分布是失败次数)

Expectation[(x + 1)^2, x [Distributed] GeometricDistribution[p]]

二项分布

对于二项随机变量 XBin(n,p)X \sim \operatorname{Bin}(n, p),有

Var[X]=np(1p)\operatorname{Var}[X] = np(1-p)

证明

XBin(n,p)X \sim \operatorname{Bin}(n, p) 可以表示为 X=X1+X2++XnX = X_1 + X_2 + \dots + X_n,其中 XiX_i 是以 pp 为参数的 i.i.d. 伯努利随机变量。

而对于相互独立的随机变量 X1,X2,,XnX_1, X_2, \dots, X_n,有

Var[i=1nXi]=i=1nVar[Xi]=np(1p)\operatorname{Var}\left[ \sum_{i=1}^{n}X_i \right] = \sum_{i=1}^{n}\operatorname{Var}[X_i] = np(1-p)

泊松分布

对于泊松随机变量 XPois(λ)X \sim \operatorname{Pois}(\lambda),有

Var[X]=λ\operatorname{Var}[X] = \lambda

证明

E[X]=λ\mathbb{E}[X] = \lambda

同时有

E[X2]=k0k2eλλkk!=k1keλλk(k1)!=k0(k+1)eλλk+1k!=λk0(k+1)eλλkk!=λE[X+1]=λ(E[X]+1)=λ(λ+1)\begin{aligned} \mathbb{E}[X^2] &= \sum_{k\ge 0}k^2 \dfrac{\e^{-\lambda}\lambda^{k}}{k!}\\ &= \sum_{k\ge 1}k \dfrac{\e^{-\lambda}\lambda^{k}}{(k-1)!}\\ &= \sum_{k\ge 0}(k+1) \dfrac{\e^{-\lambda}\lambda^{k+1}}{k!}\\ &= \lambda \sum_{k\ge 0}(k+1) \dfrac{\e^{-\lambda}\lambda^{k}}{k!}\\ &= \lambda \mathbb{E}[X + 1]\\ &= \lambda(\mathbb{E}[X] + 1)\\ &= \lambda(\lambda + 1) \end{aligned}

于是

Var[X]=E[X2]E[X]2=λ\operatorname{Var}[X] = \mathbb{E}[X^2] - \mathbb{E}[X]^2 = \lambda

负二项分布

对于以 r,pr, p 为参数的负二项随机变量 XX,有

Var[X]=r(1p)p2\operatorname{Var}[X] = \dfrac{r(1-p)}{p^2}

证明

XX 可以表示为 X=(X11)+(X21)++(Xr1)X = (X_1 - 1) + (X_2 - 1) + \dots + (X_r - 1),其中 XiX_i 是以 pp 为参数的 i.i.d. 几何随机变量。

而对于相互独立的随机变量 X1,X2,,XrX_1, X_2, \dots, X_r,有

Var[X]=i=1rVar[Xi1]=i=1rVar[Xi]=r(1p)p2\begin{aligned} \operatorname{Var}[X] &= \sum_{i=1}^{r}\operatorname{Var} [X_i - 1]\\ &= \sum_{i=1}^{r}\operatorname{Var} [X_i]\\ &= \dfrac{r(1-p)}{p^2} \end{aligned}

切比雪夫不等式

无偏估计(Unbiased Estimator)

X1,,XiX_1, \dots, X_i 是 i.i.d. 随机变量,E[Xi]=μ,Var[Xi]=σ2\mathbb{E}[X_i] = \mu, \operatorname{Var}[X_i] = \sigma^2

Empirical mean (经验均值) Xˉ=1ni=1nXi\bar{X} = \dfrac{1}{n}\sum_{i=1}^{n}X_iμ\mu 的无偏估计,有

E[Xˉ]=1ni=1nE[Xi]=μ\begin{aligned} \mathbb{E}[\bar{X}] &= \dfrac{1}{n}\sum_{i=1}^{n}\mathbb{E}[X_i]\\ &= \mu \end{aligned}

Var[Xˉ]=1n2i=1nVar[Xi]=σ2n\begin{aligned} \operatorname{Var}[\bar{X}] &= \dfrac{1}{n^2}\sum_{i=1}^{n}\operatorname{Var}[X_i]\\ &= \dfrac{\sigma^2}{n} \end{aligned}

切比雪夫不等式有

Pr(Xˉμϵμ)Var[Xˉ]ϵ2μ2=σ2ϵ2μ2nδ\begin{aligned} \Pr(|\bar{X} - \mu| \ge \epsilon \mu) &\le \dfrac{\operatorname{Var} [\bar{X}]}{\epsilon^2 \mu^2}\\ &= \dfrac{\sigma^2}{\epsilon^2 \mu^2 n}\\ &\le \delta \end{aligned}

当且仅当 nσ2ϵ2μ2δn \ge \dfrac{\sigma^2}{\epsilon^2 \mu^2 \delta}

(one-sided) Error Reduction(单侧误差减小)

对于一个决定(decision)问题 f ⁣:{0,1}{0,1}f\colon \left\lbrace 0, 1 \right\rbrace^{*} \to \left\lbrace 0, 1 \right\rbrace

蒙特卡罗随机算法 A\mathscr{A} 有着单侧误差:对于任意输入 xx 与均匀随机种子(seed)r[p]r \in [p],其中 pp 是素数,有

  • f(x)=1    Pr[A(x,r)=1]ϵf(x) = 1 \implies \Pr[\mathscr{A}(x, r) = 1] \ge \epsilon
  • f(x)=0    A(x,r)=0f(x) = 0 \implies \mathscr{A}(x, r) = 0 对任意 r[p]r \in [p] 成立

对于 kk 个(相互)独立的种子 r1,,rk[p]r_1, \dots, r_{k} \in [p]Ak(x,r1,,rk)=i=1kA(x,ri)\mathscr{A}^{k}(x, r_1, \dots, r_{k}) = \bigvee_{i=1}^{k}\mathscr{A}(x, r_i),有

f(x)=1    Pr[A(x,r1,,rk)=0](1ϵ)kf(x) = 1 \implies \Pr[\mathscr{A}(x, r_1, \dots, r_{k}) = 0] \le (1 - \epsilon)^k

Two-Point Sampling (2-Universal Hashing)

pp 为一个素数,且 [p]={0,1,,p1}[p] = \left\lbrace 0, 1, \dots, p-1 \right\rbrace

均匀随机从 [p][p] 中选取 a,ba, b,并令 ri=(ai+b)modpr_i = (a\cdot i + b) \bmod p,其中 i=1,,pi=1, \dots, p

  • r1,,rp[p]r_1, \dots, r_p \in [p] 是成对独立的
  • 每个 rir_i 都是在 [p][p] 上均匀分布的[2]
证明

对任意 iji \ne jc,d[p]c, d \in [p],有 Pr[ri=crj=d]=1p2\Pr[r_i = c \cap r_j = d] = \dfrac{1}{p^2},因为

{ai+bc(modp)aj+bd(modp)\left\lbrace\begin{aligned} a \cdot i + b \equiv c \pmod{p}\\ a \cdot j + b \equiv d \pmod{p} \end{aligned}\right.

有一个唯一解(unique solution)(a,b)[p]2(a, b) \in [p]^2。则

Pr[ri=c]=Pr[ai+bc(modp)]=1pa[p]Pr(bcai(modp))=1p\begin{aligned} \Pr[r_i = c] &= \Pr[a \cdot i + b \equiv c \pmod{p}]\\ &= \dfrac{1}{p} \sum_{a \in [p]}\Pr(b \equiv c - ai \pmod{p})\\ &= \dfrac{1}{p} \end{aligned}

Derandomization with Two-Point Sampling (两点采样的去随机化)

还是上面的,我要累死了。

  • A\mathscr{A}:对任意输入 xx 与均匀随机种子 r[p]r \in [p]
    • f(x)=1    Pr[A(x,r)=1]ϵf(x) = 1 \implies \Pr[\mathscr{A}(x, r) = 1] \ge \epsilon
    • f(x)=0    A(x,r)=0f(x) = 0 \implies \mathscr{A}(x, r) = 0 对任意 r[p]r \in [p] 成立
  • Ak(x,r1,,rk)=i=1kA(x,ri)\mathscr{A}^{k}(x, r_1, \dots, r_{k}) = \bigvee_{i=1}^{k}\mathscr{A}(x, r_i)kpk \le p,种子 rir_i 是由 (ai+b)modp(a \cdot i + b) \bmod{p} 生成的,其中 a,b[p]a, b \in [p] 均匀随机抽取[3]
    • f(x)=0    Ak(x,r1,,rk)=i=1kA(x,ri)=0f(x) = 0 \implies \mathscr{A}^{k}(x, r_1, \dots, r_{k}) = \bigvee_{i=1}^{k}\mathscr{A}(x, r_i) = 0
    • f(x)=1    Pr[A(x,r1,,rk)=0](1ϵ)kf(x) = 1 \implies \Pr[\mathscr{A}(x, r_1, \dots, r_{k}) = 0] \le (1 - \epsilon)^k

Xi=A(x,ri)X_i = \mathscr{A}(x, r_i),同时 X=i=1kXiX = \displaystyle \sum_{i=1}^{k}X_i,则

  • X1,,XkX_1, \dots, X_{k}成对独立的伯努利随机变量,且 Pr[Xi=1]ϵ\Pr[X_i = 1] \ge \epsilon
  • Pr[X=0]=Pr[Ak(x,r1,,rk)=0]Pr[XE[X]E[X]]Var[X]E[X]21ϵk\Pr[X = 0] = \Pr[\mathscr{A}^{k}(x, r_1, \dots, r_{k}) = 0] \le \Pr[|X - \mathbb{E}[X]| \ge \mathbb{E}[X]] \le \dfrac{\operatorname{Var}[X]}{\mathbb{E}[X]^2} \le \dfrac{1}{\epsilon k}
    • 期望的线性性质:E[X]=i=1kE[Xi]ϵk\mathbb{E}[X] = \displaystyle \sum_{i=1}^{k}\mathbb{E}[X_i] \ge \epsilon k
    • 成对独立:Var[X]=i=1kVar[Xi]i=1kE[Xi2]=i=1kE[Xi]=E[X]\operatorname{Var}[X] = \displaystyle \sum_{i=1}^{k} \operatorname{Var}[X_i] \le \sum_{i=1}^{k}\mathbb{E}[X_i^2] = \sum_{i=1}^{k} \mathbb{E}[X_i] = \mathbb{E}[X]

【待补充】两点采样具体解释(见 DeepSeek 记录)

通过 kpk\le p 次算法的运行(run),仅使用了总共两个随机种子,将任意单侧误差 1ϵ1-\epsilon 减小到了 1εk\dfrac{1}{\varepsilon k}

补充内容(待施工)

Min Sketch

输入:序列 x1,,xnU=[N]x_1, \dots, x_n \in U = [N]
输出:z={x1,,xn}z = \left\lvert \left\lbrace x_1, \dots, x_n \right\rbrace \right\rvert估计

Simple Uniform Hash Assumption (SUHA)

假设的哈希函数会将项目均匀地分布到散列表的槽中。

(理想)均匀哈希函数 h ⁣:U[0,1]h\colon U \to[0, 1]

得到 {h(x1),,h(xn)}\left\lbrace h(x_1), \dots, h(x_n) \right\rbracezz 个均匀独立的 [0,1][0, 1] 中的值。

可以将 [0,1][0, 1] 划分为 z+1z + 1 个子区间,其长度是同分布的(证明略)。

于是

E[min1inh(xi)]=E[子区间的长度]=1z+1\begin{aligned} \mathbb{E}\left[ \min_{1\le i\le n}h(x_i) \right] &= \mathbb{E}[\text{子区间的长度}]\\ &= \dfrac{1}{z + 1} \end{aligned}

对于一个估计 Min Sketch,令 Y=min1inh(xi)Y = \min\limits_{1\le i\le n}h(x_i),有

Z^=1Y1\hat{Z} = \dfrac{1}{Y} - 1

目标是

Pr[Z^<(1ϵ)zZ^>(1+ϵ)z]δ\Pr[\hat{Z} < (1-\epsilon)z \lor \hat{Z} > (1+\epsilon)z] \le \delta

假设 ϵ12\epsilon\le \dfrac{1}{2}

几何意义可以得到 Pr[Y>y]=(1y)z\Pr[Y > y] = (1-y)^z,则概率密度函数 pdf 为 p(y)=z(1y)z1p(y) = z (1-y)^{z-1},有

E[Y2]=01y2z(1y)z1 ⁣dy=2(z+1)(z+2)\begin{aligned} \mathbb{E}[Y^2] &= \int_{0}^{1}y^2 z(1-y)^{z-1}\d y\\ &= \dfrac{2}{(z+1)(z+2)} \end{aligned}

于是

Var[Y]=E[Y2]E[Y]2=2(z+1)(z+2)1(z+1)2=z(z+1)2(z+2)1(z+1)2\begin{aligned} \operatorname{Var}[Y] &= \mathbb{E}[Y^2] - \mathbb{E}[Y]^2\\ &= \dfrac{2}{(z+1)(z+2)} - \dfrac{1}{(z+1)^2}\\ &= \dfrac{z}{(z+1)^2(z+2)}\\ &\le \dfrac{1}{(z+1)^2} \end{aligned}

切比雪夫不等式有

Pr[YE[Y]ϵ/2z+1]4ϵ2\Pr\left[ |Y - \mathbb{E}[Y] | \ge \dfrac{\epsilon / 2}{z + 1} \right] \le \dfrac{4}{\epsilon^2}

然而 ϵ12\epsilon \le \dfrac{1}{2},这个 sketch 估计是不准确的,原因在于其方差太大。

对于每个 1jk1 \le j \le k,有

  • E[Yj]=1z+1    E[Yˉ]=1z+1\mathbb{E}[Y_{j}] = \dfrac{1}{z + 1} \implies \mathbb{E}[\bar{Y}] = \dfrac{1}{z + 1}
  • Var[Yj]1(z+1)2    Var[Yˉ]1k(z+1)2\operatorname{Var}[Y_{j}] \le \dfrac{1}{(z + 1)^2} \implies \operatorname{Var}[\bar{Y}] \le \dfrac{1}{k(z + 1)^2}

同样使用切比雪夫不等式,有

Pr[YˉE[Yˉ]ϵ/2z+1]4kϵ2\Pr\left[ |\bar{Y} - \mathbb{E}[\bar{Y}] | \ge \dfrac{\epsilon / 2}{z + 1} \right] \le \dfrac{4}{k\epsilon^2}

因此

Min Sketch

对每个 1jk1 \le j \le k,令 Yj=min1inhj(xi)Y_{j} = \min\limits_{1\le i \le n}h_{j}(x_i),返回 Z^=1Y1\hat{Z} = \dfrac{1}{Y} - 1,其中 Yˉ=1kj=1kYj\bar{Y} = \dfrac{1}{k}\displaystyle \sum_{j=1}^{k}Y_{j}

空间花费:k=O(1ϵ2δ)k = O\left(\dfrac{1}{\epsilon^2 \delta}\right)

上面记的比较残缺。

看兴趣补充吧(其实就是不想补充了)。

魏尔施特拉斯逼近定理

魏尔施特拉斯逼近定理(Weierstrass Approximation Theorem)

任意连续函数 f ⁣:[0,1][0,1]f\colon [0, 1] \to [0, 1] 都可以被多项式逼近,即对任意 ϵ>0\epsilon>0,存在多项式 pp 使得

supx[0,1]p(x)f(x)ϵ\sup_{x \in [0, 1]} |p(x) - f(x)| \le \epsilon

证明

令整数 nn 足够大(稍后固定)。

对于 x[0,1]x \in [0, 1],令 X1nBin(n,x)X \sim \dfrac{1}{n} \operatorname{Bin}(n, x)。定义 x[0,1]x \in [0, 1] 上的多项式 pp

p(x)=E[f(X)]=k=0nf(kn)pX(k)=1nk=0nf(kn)(nk)xk(1x)nk\begin{aligned} p(x) &= \mathbb{E}[f(X)]\\ &= \sum_{k=0}^{n} f\left( \dfrac{k}{n} \right) p_X(k)\\ &= \dfrac{1}{n} \sum_{k=0}^{n} f\left( \dfrac{k}{n} \right) \binom{n}{k} x^k (1-x)^{n-k} \end{aligned}

ff[0,1][0, 1] 上连续可得,存在 δ>0\delta > 0 使得 f(x)f(y)ϵ2|f(x) - f(y)| \le \dfrac{\epsilon}{2} 对于任意 x,y[0,1]x, y \in [0, 1]xyδ|x - y| \le \delta 成立。

p(x)f(x)=E[f(X)f(x)]E[f(X)f(x)]=E[f(X)f(x)Xxδ]Pr(Xxδ)=+E[f(X)f(x)Xx>δ]Pr(Xx>δ)E[ϵ2]+10Pr(Xx>δ)(值域为 [0,1]E[ϵ2]+x(1x)nδ2(切比雪夫不等式)ϵ2+14nδ2\begin{aligned} |p(x) - f(x)| &= \left\lvert \mathbb{E}\left[ f(X) - f(x) \right] \right\rvert\\ &\le \mathbb{E}\left[ \left\lvert f(X) - f(x) \right\rvert \right]\\ &= \textcolor{da6904}{\mathbb{E}\left[ \left\lvert f(X) - f(x) \right\rvert \Biggm| | X - x | \le \delta \right]} \cdot \Pr\left(| X - x | \le \delta\right)\\ &\phantom{=}+ \mathbb{E}\left[ \left\lvert f(X) - f(x) \right\rvert \Biggm| | X - x | > \delta \right] \cdot \textcolor{05aa94}{\Pr\left(| X - x | > \delta\right)}\\ &\le \textcolor{da6904}{\mathbb{E}\left[\frac{\epsilon}{2}\right]} + |1 - 0| \cdot \textcolor{05aa94}{\Pr\left(| X - x | > \delta\right)} &\text{(值域为 $[0, 1]$)}\\ &\le \mathbb{E}\left[ \dfrac{\epsilon}{2} \right] + \dfrac{x(1-x)}{n \delta^2} &\text{(切比雪夫不等式)}\\ &\le \dfrac{\epsilon}{2} + \dfrac{1}{4n \delta^2} \end{aligned}

于是当我们令 n12ϵδ2n \ge \dfrac{1}{2 \epsilon \delta^2} 时有 p(x)f(x)ϵ|p(x) - f(x)| \le \epsilon

高阶矩

偏度(Skewness)

偏度(Skewness)

随机变量 XX偏度(skewness)定义为

Skew[X]=E[(Xμσ)3]=E[(Xμ)3]σ3\operatorname{Skew}[X] = \mathbb{E}\left[ \left( \dfrac{X - \mu}{\sigma} \right)^3 \right] = \dfrac{\mathbb{E}[(X - \mu)^3]}{\sigma^3}

其中 μ=E[X],σ=Var[X]\mu = \mathbb{E}[X], \sigma = \sqrt{\operatorname{Var}[X]}

偏度即三阶中心矩

峰度(Kurtosis)

峰度(Kurtosis)

随机变量 XX峰度(kurtosis)定义为

Kurt[X]=E[(Xμσ)4]=E[(Xμ)4]σ4\operatorname{Kurt}[X] = \mathbb{E}\left[ \left( \dfrac{X - \mu}{\sigma} \right)^4 \right] = \dfrac{\mathbb{E}[(X - \mu)^4]}{\sigma^4}

其中 μ=E[X],σ=Var[X]\mu = \mathbb{E}[X], \sigma = \sqrt{\operatorname{Var}[X]}

峰度即四阶中心矩

The kk-th Moment Method (kk 阶矩估计)

XX 是一个随机变量,其期望 E[X]=μ\mathbb{E}[X] = \mu。对于任意 C>1C > 1 与整数 k1k \ge 1,有

Pr(XμCE[Xμk]1k)1Ck\begin{aligned} \Pr\left( |X - \mu| \ge C \cdot \mathbb{E}\left[ |X - \mu|^{k} \right] ^{\frac{1}{k}} \right) \le \dfrac{1}{C^k} \end{aligned}

证明只需令 Z=XμkZ = |X - \mu|^{k},然后应用马尔可夫不等式:

Pr(XμCE[Xμk]1k)=Pr(ZCkE[Z])1Ck\begin{aligned} \Pr\left( |X - \mu| \ge C \cdot \mathbb{E}\left[ |X - \mu|^{k} \right] ^{\frac{1}{k}} \right) &= \Pr\left( Z \ge C^{k} \cdot \mathbb{E}[Z] \right)\\ &\le \dfrac{1}{C^k} \end{aligned}

矩问题(The Moment Problem):是否矩序列 mk=E[Xk],k1m_{k} = \mathbb{E}[X^{k}],\, \forall k \ge 1 唯一地确定了一个随机变量 XX 的分布?

若随机变量 XX 从一个有限{x1,,xn}\left\lbrace x_1, \cdots, x_n \right\rbrace 中取值,且 pX(xi)=pip_X(x_i) = p_i,同时有矩序列 {mi}\left\lbrace m_i \right\rbrace,那么可以通过解范德蒙德系统(Vandermonde system)

[x1x2xnx12x22xn2x1nx2nxnn][p1p2pn]=[m1m2mn]\begin{bmatrix} x_1 & x_2 & \cdots & x_n \\ x_1^2 & x_2^2 & \cdots & x_n^2 \\ \vdots & \vdots & \ddots & \vdots\\ x_1^n & x_2^n & \cdots & x_n^n \end{bmatrix} \begin{bmatrix} p_1\\ p_2\\ \vdots\\ p_n \end{bmatrix} = \begin{bmatrix} m_1\\ m_2\\ \vdots\\ m_n \end{bmatrix}

获得 pi=pX(xi)p_i = p_X(x_i),即恢复了概率质量函数 pmf。

若随机变量 X,YX, Y 有相同的矩母函数(moment generating function, MGF)

MX(t)=E[etX]=k0tkE[Xk]k!M_X(t) = \mathbb{E}[\e^{tX}] = \sum_{k\ge 0} \dfrac{t^{k}\mathbb{E}[X^{k}]}{k!}

X,YX, Y 有相同的分布。

MGF MX(t)M_X(t) 收敛,前提是序列 E[Xk]\mathbb{E}[X^{k}]「不要增长过快」。


  1. nn 个顶点中,任意点对 u,vu, v,边 (u,v)(u, v) 以概率 pp 独立地存在。 ↩︎

  2. each rir_i is uniformly distributed over [p][p]. ↩︎

  3. ri=(ai+b)modpr_i = (a \cdot i + b) \bmod p with uniform a,b[p]a, b \in [p]. ↩︎