随机变量
定义
给定概率空间 (Ω,Σ,Pr),随机变量(random variable)是一个函数 X:Ω→R,满足
∀x∈R,{ω∈Ω∣X(ω)⩽x}∈Σ
即 X 是 Σ-可测(Σ-measurable)的。
一些记号:
- X⩽x(其中 x∈R)表示事件族 {ω∈Ω∣X(ω)⩽x},即 X 取值不超过 x 的事件的集合。
- X>x(其中 x∈R)表示事件族 {ω∈Ω∣X(ω)>x},即 X 取值超过 x 的事件的集合。
- X∈S(其中 S⊆R 是一个由可数个区间 (y,x] 通过交或并构造的集合)表示事件族 {ω∈Ω∣X(ω)∈S},即 X 取值在 S 中的事件的集合。
对于离散随机变量,有 X:Ω→Z,这包含了所有子集 S⊆Z。
分布(Distribution)
累积分布函数(CDF)
随机变量 X 的累积分布函数(cumulative distribution function, CDF),或简称为分布函数(distribution function)是一个函数 FX:R→[0,1],定义为
FX(x)=Pr(X⩽x)
所有关于 X 的概率(all probabilities regarding X)都可以从 FX 中推断(deduce)出来。
两个随机变量 X 和 Y 称为同分布(identically distributed)的,如果它们有相同的分布函数,即 FX=FY。
同分布的随机变量未必是同定义的。
- 单调性(Monotone):∀x,y∈R,x⩽y⟹FX(x)⩽FX(y)
- 有界性(Bounded):x→−∞limFX(x)=0 和 x→∞limFX(x)=1
离散随机变量
随机变量 X 是离散(discrete)的,如果它的值域 X(Ω) 是有限或可数的(countable)。
对于一个离散随机变量 X,它的概率质量函数(probability mass function, pmf)是一个函数 pX:R→[0,1],定义为
pX(x)=Pr(X=x)
CDF FX 满足
FX(y)=x⩽y∑pX(x)
连续随机变量
先给一个暂时的定义。
随机变量 X 是连续(continuous)的,如果它的 CDF 可以表示为
FX(y)=Pr(X⩽y)=∫−∞yfX(x)dx
其中可积函数 fX:R→[0,∞) 是 X 的概率密度函数(probability density function, pdf),满足
这里先不考虑是什么积分(黎曼 Riemann 积分抑或是勒贝格 Lebesgue 积分)。
有些随机变量既不是离散的也不是连续的。
独立性
两个离散随机变量 X,Y 是独立(independent)的,如果对于所有 x,y∈R,有 X=x 与 Y=y 是独立的事件。
离散随机变量 X1,⋯,Xn 是 (相互)独立,如果对于所有 x1,⋯,xn∈R,有 X1=x1,⋯,Xn=xn 是独立的事件。
p(X1,⋯,Xn)(x1,⋯,xn)=pX1(x1)⋯pXn(xn)
有一种通过 n 个相互独立的随机比特(bits)构造 2n−1 个成对独立的随机变量的方法。
假设有 n 个相互独立的随机比特 X1,⋯,Xn,取值为 {0,1}。对任意 ∅=S⊆[n],定义 YS=i∈S⨁Xi,其中 ⨁ 表示异或(XOR)操作。
则对任意 S1=S2,YS1 和 YS2 是成对独立的。但对于两个以上的 YS 而言,却不一定是独立的。
随机向量(Random Vector)
随机向量
给定概率空间 (Ω,Σ,Pr),一个 n-维随机向量(random vector)X 是一个向量 (X1,⋯,Xn),其中 Xi 是一个定义在概率空间 (Ω,Σ,Pr) 上的随机变量。
联合累积分布函数
联合累积分布函数(joint CDF)是函数 FX:Rn→[0,1],定义为
FX(x1,⋯,xn)=Pr(X1⩽x1∩⋯∩Xn⩽xn)
联合质量函数
对于离散随机向量,联合质量函数(joint mass function)是函数 pX:Rn→[0,1],定义为
pX(x1,⋯,xn)=Pr(X1=x1∩⋯∩Xn=xn)
边缘分布
(X1,⋯,Xn) 中的 Xi 的边缘分布(marginal distribution)定义为
pXi(xi)=x1,⋯,xi−1,xi+1,⋯,xn∑pX(x1,⋯,xn)
离散随机变量
概率质量函数
考虑整数值(integer-valued)离散随机变量 X:Ω→Z,它的概率质量函数(probability mass function, pmf)pX:Z→[0,1] 定义为
pX(k)=Pr(X=k)
- pX 代表概率分布的「直方图」(histogram)。
- pX 可被视为一个向量 pX∈[0,1]R 使得 ∥pX(x)∥1=1,其中 R=X(Ω) 是 X 的值域。
它的函数 Y=f(X) 也是一个离散随机变量,其中 pY(y)=x:f(x)=y∑pX(x)。
伯努利试验(Bernoulli Trial)
一个伯努利试验(Bernoulli trial)是一个只有两个可能结果的随机试验。
一个伯努利随机变量(Bernoulli random variable)X 是一个只能取 0 和 1 两个值的随机变量,满足
pX(k)=Pr(X=k)={p,1−p,if k=1if k=0
其中 p∈[0,1] 是一个参数。
Indicator
对于一个事件 A,它的 indicator(指示)X 是一个随机变量定义为
X=I(A)={1,0,if A occursotherwise
二项分布(Binomial Distribution)
n 次抛掷硬币,硬币正面朝上的次数。
Number of HEADs in n coin flips.
随机变量 X:进行 n 次独立均等分布(independent and identically distributed, i.i.d.)的伯努利试验,每次试验成功的概率为 p,则 X 表示成功的次数。
一个二项随机变量(binomial random variable)X 是一个随机变量,取值为 {0,1,…,n},满足
pX(k)=Pr(X=k)=(kn)pk(1−p)n−k,k=0,1,…,n
我们称 X 服从(follow)参数为 n,p 的二项分布(binomial distribution),记作
X∼Bin(n,p)orX∼B(n,p)
二项分布具有独立性:如果 X1∼Bin(n1,p) 和 X2∼Bin(n2,p),则 X1+X2∼Bin(n1+n2,p)。
证明
pX1+X2(k)=i=0∑kpX1(i)pX2(k−i)=i=0∑k(in1)pi(1−p)n1−i(k−in2)pk−i(1−p)n2−k+i=i=0∑k(in1)(k−in2)pk(1−p)n1+n2−k=(kn1+n2)pk(1−p)n1+n2−k
最后一个等号运用了范德蒙德恒等式。
从而 X1+X2∼Bin(n1+n2,p)。
几何分布(Geometric Distribution)
第一次出现正面朝上的硬币抛掷次数。
Number of coin flips to get a HEADs.
随机变量 X:进行 i.i.d. 的伯努利试验,每次试验成功的概率为 p,X 表示第一次成功时进行的试验次数。
一个几何随机变量(geometric random variable)X 是一个随机变量,取值为 {1,2,…},满足
pX(k)=Pr(X=k)=(1−p)k−1p,k=1,2,…
我们称 X 服从参数为 p 的几何分布(geometric distribution),记作
X∼Geo(p)orX∼Geometric(p)
几何随机变量(geometric random variable)X∼Geo(p) 是 memoryless(无记忆性)的,即对 k⩾1,n⩾0 有
Pr(X=n+k∣X>n)=Pr(X=k)
证明
Pr(X=n+k∣X>n)=Pr(X>n)Pr(X=n+k∩X>n)=Pr(X>n)Pr(X=n+k)=k=n∑∞(1−p)kp(1−p)n+k−1p=k=0∑∞(1−p)kp(1−p)k−1p=(1−p)k−1p
几何分布是唯一的具有无记忆性的离散概率分布(以 {1,2,…} 为取值范围)。
证明
考虑一个以 N+ 为取值的随机变量 X,其具有无记忆性,即
Pr(X=m+n∣X>m)=Pr(X=n)
由于 X 具有无记忆性,从而有
Pr(X=m+n∣X>m)=Pr(X>m)Pr(X=m+n∩X>m)=Pr(X>m)Pr(X=m+n)=Pr(X=n)
于是
pX(m+n)=pX(n)Pr(X>m)=pX(n)(1−i=1∑mpX(i))
设 pX(1)=p,取 m=1,n=x,则有递推
pX(x+1)=pX(x)(1−pX(1))=pX(x)(1−p)
可得 pX(x)=(1−p)x−1p,即 X 服从几何分布。
独立随机变量之和
若离散随机变量 X,Y 相互独立,则
pX+Y(z)=Pr(X+Y=z)=x∑Pr(X=x∩Y=z−x)=x∑pX(x)pY(z−x)=y∑pX(z−y)pY(y)
由此可以定义卷积:
卷积
两个概率质量函数 pX,pY 的卷积(convolution)定义为
pX+Y=pX∗pY
对于 i.i.d. 伯努利随机变量 X1,…,Xn∈{0,1},有
pX1+⋯+Xn(k)=p⋅pX1+⋯+Xn−1(k−1)+(1−p)pX1+⋯+Xn−1(k)=(kn)pk(1−p)n−k
负二项分布(Negative Binomial Distribution)
r 次成功后,前面失败的试验次数。
multiple successes generalization of geometric distribution.
随机变量 X:进行 i.i.d. 的伯努利试验,每次试验成功的概率为 p,X 表示第 r 次成功时前面失败的次数。
一个负二项随机变量(negative binomial random variable)X 是一个随机变量,取值为 {0,1,…},满足
pX(k)=Pr(X=k)=(kk+r−1)(1−p)kpr=(−1)k(k−r)(1−p)kpr
我们称 X 服从参数为 r,p 的负二项分布(negative binomial distribution)。
另外其中的 (k−r) 表示 k!(−r)(−r−1)⋯(−r−k+1)。
里面有「二项分布」,只是因为其中的二项式有负号,但其实这是几何分布的推广。
对于 Xi∼Geo(p),有
X=(X1−1)+⋯+(Xr−1)
因为对于 r 次成功中的间隙,都可以视为几何分布。而几何分布包含了成功次数,所以还需要 −1。
超几何分布(Hypergeometric Distribution)
无放回的伯努利试验。
without replacement variant of binomial distribution.
随机变量 X:从有限数目(finite population)的 N 个物品中无放回(without replacement)抽取 n 个,其中恰有 M 个目标物品,X 表示 n 次抽取中,抽到目标物品的数量。
一个超几何随机变量(hypergeometric random variable)X 是一个随机变量,取值为 {0,1,…,n},满足
pX(k)=Pr(X=k)=(nN)(kM)(n−kN−M),k=0,1,…,n
我们称 X 服从参数为 N,M,n 的超几何分布(hypergeometric distribution),其中 N⩾0,0⩽M⩽N,0⩽n⩽N 均为整数。
多项式分布(Multinomial Distribution)
multi-dimensional generalization of binomial distribution.
- 有多个结果的试验(trails with multiple outcomes)
- 有 n 次 i.i.d. 试验,每个都有 m 种可能的结果,第 i 个结果的概率为 pi,令 Xi 为第 i 种结果出现的次数。
- Balls-into-bins 模型:扔 n 个球到 m 个桶中,每个球被独立地扔到桶中,第 i 个桶被选中的概率为 pi,则 Xi 为第 i 个桶中的球的数量。
由定义有 p1+⋯+pm=1。
(X1,…,Xm) 取值为 (k1,…,km)∈{0,1,…,n}m 使得 k1+⋯+km=n,满足
p(X1,…,Xm)(k1,…,km)=Pr(i=1⋂m(Xi=ki))=(k1,…,kmn)p1k1⋯pmkm=k1!⋯km!n!p1k1⋯pmkm
则称 (X1,…,Xm) 服从参数为 m,n,(p1,…,pm)∈[0,1]m 并使得 p1+⋯+pm=1 的多项式分布(multinomial distribution)。
Xi∼Bin(n,pi),即 Xi 的边缘分布是二项分布。
泊松分布(Poisson Distribution)
定义
二项随机变量 X 取值为 {0,1,…,n},且有
pX(k)=Pr(X=k)=(kn)pk(1−p)n−k
当数量 n→∞ 且 np=λ 时,有
pBin(n,λ/n)(k)=(kn)(nλ)k(1−nλ)n−k=nnnn−1…nn−k+1⋅k!λk(1−nλ)n(1−nλ)−k≈k!λke−λ
一个泊松随机变量(Poisson random variable)X 是一个随机变量,取值为 {0,1,…},满足
pX(k)=Pr(X=k)=e−λk!λk,k=0,1,…
我们称 X 服从参数为 λ>0 的泊松分布(Poisson distribution),记作
X∼Pois(λ)
这是一个在 {0,1,…} 上的 well-defined 的概率分布,即 k=0∑∞e−λk!λk=1。
泊松变量(Poisson variables)之和
若 X1,X2 是独立的泊松随机变量,且 X1∼Pois(λ1),X2∼Pois(λ2),则 X1+X2∼Pois(λ1+λ2)。
证明
pX+Y(k)=Pr(X+Y=k)=i=0∑kPr(X=i∩Y=k−i)=i=0∑kpX(i)pY(k−i)=i=0∑ki!e−λ1λ1i(k−i)!e−λ2λ2k−i=k!e−(λ1+λ2)i=0∑ki!(k−i)!k!λ1iλ2k−i=k!e−(λ1+λ2)(λ1+λ2)k
泊松近似(Poisson approximation)
(X1,…,Xm) 服从以 m,n,p1+⋯+pm=1 为参数的多项式分布。
(Y1,…,Ym),其中每个 Yi∼Pois(λi) 相互独立,且 λi=npi。
给定 i=1∑mYi=n,有 (X1,…,Xm) 与 (Y1,…,Ym) 同分布。
证明
注意到 Y1+⋯+Ym∼Pois(n),对于任意 k1,…,km⩾0 使得 k1+⋯+km=n,有
pY[(k1,…,km)i=1∑mYi=n]=e−nn!nni=1∏mki!e−npi(npi)ki=(k1,…,kmn)p1k1…pmkm=pX[(k1,…,km)]
Balls into Bins (Random mapping)
将 n 个球均匀随机地(uniformly at random, u.a.r.)丢到 m 个桶中。即均匀随机函数 f:[n]→[m]。
每个桶接收到的球的个数 (X1,…,Xm) 服从以 m,n,(m1,…,m1) 为参数的多项式分布。
- 生日问题(Birthday problem)
- the property of being injective (1-1)
- 赠券收集问题(Coupon collector's problem)
- the property of being subjective (onto)
- 负载问题(Occupancy (load balancing) problem)
- the maximum load maxiXi
随机图(Random Graph)
Erdős–Rényi random graph model
G∼G(n,p):有 n 个顶点(vertice),对于每个顶点对(pair)u,v,进行(conduct)一个 i.i.d. 的以 p 为参数的伯努利试验。如果试验成功,添加一条边(edge){u,v}。
G(n,21) 表示在 n 个顶点上均匀分布(uniformly distributed)的随机图。
G∼G(n,p) 中边的数目服从二项分布 Bin((2n),p),因此 G(n,p) 有时也被称为二项随机图。
由 G∼G(n,p) 定义的随机变量:
- chromatic number χ(G)
- independence number α(G)
- clique number ω(G)
- diameter diam(G)
- connectivity
- max-degree Δ(G)
- number of triangles
- number of Hamiltonian cycles
- …
随机树(Random Tree)
Galton-Watson branching process
对于一个随机变量序列 X0,X1,…,递归(recursively)定义
⎩⎨⎧X0Xn+1=1=j=1∑Xnξj(n)
其中 {ξj(n)∣n,j⩾0} 是 i.i.d. 非负整数值(non-negative integer-valued)随机变量(例如泊松随机变量)。
随机家庭树(random family tree):第 n 代的 j 个家庭成员有 ξj(n) 个后代。
Xn 代表第 n 代的总人数。