All models are wrong, but some are useful. – George E.P. Box
- 概率论:在良定义/理想化的模型中、基于严格的理论、考虑一个事件的可能性
- 统计学:观察、收集、去芜存菁、总结、抽象、假设、建模、预测、推断
点估计
最大似然估计
最大似然估计(Maximum Likelihood Estimation, MLE):给定一个模型,找到最有可能的参数值。
投一枚硬币 100 次,49 次正面,51 次反面。硬币正面的概率是多少?
正面概率是未知参数 p,概率质量函数
f(x;p)={p,1−p,x=1x=0
似然函数
L(p)=L(p;x1,…,xn)=i=1∏nf(xi;p)=p49(1−p)51
从而有
L′(p)=(1−p)50p48(49−100p)=0
得出 p=0.49。
估计量 p^ 的最大似然估计值 p^=0.49。即哪个参数最有可能使得当前数据出现:p^argmaxPr(X=x∣p=p^)。
最大似然估计期望并不总是等于样本均值:
- 是:伯努利试验、二项分布、泊松分布、正态分布
- 否:几何分布、指数分布
求最大似然估计即最优化似然函数 L(p)。
这不总是易解,还有迭代逼近的方法:
- 梯度下降法
- 牛顿-拉弗森法
- 拟牛顿法
- 期望最大化(Expectation Maximization, EM)算法
矩方法
矩问题:两个概率分布如果所有的矩都相同,那么它们是同一个分布。
根据各阶矩可以确定一个概率分布,即给定参数之后的那个未知分布。
大数定理有
Xˉnk=n1(X1k+⋯+Xnk)→E[Xk]
k-阶样本矩依概率/几乎处处收敛到 k-阶矩。
假设样本服从某正态分布 N(μ,σ2)。
有 E[X]=μ 与 E[X2]=μ2+σ2。
样本矩有
⎩⎨⎧m1=n1i=1∑nXim2=n1i=1∑nXi2
令 m1=μ,m2=μ2+σ2 解得
⎩⎨⎧μ^σ^2=m1=Xˉn=m2−m12=n1i=1∑n(Xi−Xˉn)2=Sn2
假设样本服从某泊松分布 Pois(λ)。
有 E[X]=λ 与 E[X2]=λ2+λ。
同样解得
⎩⎨⎧λ^1λˉ2=Xˉn=Sn2−Xˉn−41
说明矩估计答案并不唯一。一般情况下采用低阶矩的结果,即 λ^=λ^1=Xˉn。
贝叶斯估计
对于投针试验,MLE 结果是 3.1,在已知先验知识 π≈3.14 的情况下:
- 频率学派:限制可选的 π∈[3.14,3.15],MLE 修正为 π=3.14;
- 贝叶斯学派:假设 π 服从与 3.14 有关的先验概率分布 Pr(π=π^)。
- 通过后验概率分布 Pr(π=π^∣X=x) 选择最好的估计值 π^;
- 给定数据 x,已知 Pr(X=x∣π=π^) 和 Pr(X=x);
- 贝叶斯定理有 Pr(π=π^∣X=x)=Pr(X=x)Pr(X=x∣π=π^)Pr(π=π^)。
选择先验分布:
- 应反映现实情况
- 实践中选择比较任意
- 选择适应面较广的分布,通过调参具体确定
- 便于计算
共轭(conjugacy)分布*:P(π) 与 P(π∣x) 同分布族,P(π) 是 P(x∣π) 的共轭先验。
由于 P(π∣x)∝P(x∣π)⋅P(π),选择 π^ 只需比较 P(x∣π)⋅P(π)。
计算后验预测分布 P(x~∣x)=∫πP(x~∣π)⋅P(π∣x)dπ。
假设样本服从某伯努利分布,参数 p=θ,令 Y=∑iXi∼Bin(n,p)。
则伯努利分布与二项分布的共轭先验分布是贝塔分布。
贝塔分布
Beta(x,y)=∫01tx−1(1−t)y−1dt∼2π(x+y)x+y−1/2xx−1/2yy−1/2
假设后验分布 P(θ)=Beta(α,β)θα−1(1−θ)β−1,α,β 是灵活调节的参数。
有
P(y)=∫01P(y∣θ)P(θ)dθ=(yn)Beta(α,β)Beta(α+y,n+β−y)
于是
P(θ∣y)=P(y)P(y,θ)=Beta(α+y,n+β−y)θy+α−1(1−θ)n−y+β−1
从而有
P(θ∣y)∝P(y∣θ)P(θ)=Beta(α,β)θy+α−1(1−θ)n−y+β−1
给定当前数据,最有可能的 π^:π^argmaxP(π=π^∣X=x)。
有最大后验估计(Maximum A Posteriori, MAP):
θ^=n+α+β−2y+α−1
后验预测分布
P(y~∣y)=∫01P(y~∣θ)P(θ∣y)dθ=n+α+βy+α
比较估计量
- 最大似然估计(MLE)
- 哪个参数最有可能使得当前数据出现
- 直观,适合大样本,有时不易计算
- 矩估计(MOM)
- 大数定律:样本矩会收敛到总体矩
- 容易计算,有时不太准确,甚至自相矛盾
- 最大后验估计(MAP)
- 给定当前数据,最有可能的那个参数
- 引入先验知识的辅助,适合小样本,经常难以计算
相合/一致(Consistency)
大数定理保证了 Xˉn→E[X]。对于估计量能否有数据越多,估计越准?
相合(Consistency):θ^n→θ
- (弱)相合:θ^Pθ
- 强相合*:θ^a.s.θ
- r 阶矩相合*:∣θ^−θ^∣r→0
无偏(Unbiasedness)
假设样本 X1,…,Xn 服从某分布,估计其方差。
二阶样本中心矩 Sn2=i∑n(Xi−Xˉ)2,大数定理有 Sn2→E[(X−μ)2]。
有
E[Sn2]=i∑nE[Xi2]−2E[XˉnXi]+E[Xˉn2]=E[X2]−E[Xˉn2]=E[X2]−n2E[∑iXi2]+∑i=jE[XiXj]=nn−1(E[X2]−E[X]2)=nn−1σ2
第二个等号是因为
E[XˉnXi]=n1j∑E[XiXj]=n21i,j∑E[XiXj]=E[i∑nXij∑nXj]=E[Xˉn2]
Sn2 称为渐近无偏估计量(未修正的样本方差)。有 E[Sn2]→σ2。
样本方差的无偏估计量
S2=n−1nSn2=n−1∑i(Xi−Xˉ)2
有 E[S2]=σ2。
偏差(bias)为 E[θ^]−θ。
平均绝对误差(average absolute deviation)为 E[∣θ^−θ∣]。
均方误差(mean squared error, MSE)为 E[(θ^−θ)2]。
贝叶斯估计:
- 最大后验估计(MAP):π^=π^argmaxP(π=π^∣X=x)
- 后验中位数估计(Posterior median):平均绝对误差最小 π^=π^argminE[∣π−π^∣∣X=x];
- 最小均方估计(Least Mean Squares, LMS):最小均方误差估计(MMSE)π^=π^argminE[(π−π^)2∣X=x]。
有效性(Efficiency)
估计量有方差,方差更小的无偏估计更「有效」(efficient)。
最小方差无偏估计(Minimum Variance Unbiased Estimator, MVUE):方差最小的无偏估计。
若无论 θ 的取值,θ^(X;θ) 都是 MVUE,则它是一致最小无偏估计(Uniformly Minimum Variance Unbiased Estimator, UMVUE)。UMVUE 是唯一的。
Cramér-Ra bound
假设样本 X1,…,Xn 服从某分布,pdf 为 f(x;θ)。若 θ^(X1,…,Xn) 是 θ 的无偏估计量,则
Var[θ^]⩾n⋅I(θ)1
其中 I(θ) 是该概率分布关于未知参数 θ 的费希尔讯息数(Fisher Information):
I(θ)=E[(∂θ∂logf(X;θ))2]=∫−∞∞(∂θ∂logf(x;θ))2f(x;θ)dx
Cramér-Rao bound 不一定可达。
若 θ^ 是 θ 的无偏估计:
- 有效估计(efficient estimator):Var[θ^]=nI(θ)1,即效率为 1;
- θ^ 的效率(efficiency)为 en(θ^)=nI(θ)Var[θ^]1∈[0,1];
- 渐近有效(asymptotically efficient):en(θ^)→1。
充分统计量(sufficient statistic)*
假设样本 X1,…,Xn 服从某伯努利分布 p=θ,令 Y=∑iXi∼Bin(n,θ)。
已知 Y,在获得别的信息,能更好地估计 θ 吗?
若给定统计量 T(X1,…,Xn),样本 (X1,…,Xn) 与参数 θ 无关,则统计量 T 是参数 θ 的充分统计量。
充分统计量 T 包含了样本中所有关于参数 θ 的信息。
Fisher-Neyman 因子分解定理
令 f 是似然函数/pdf/pmf,统计量 T 是参数 θ 的充分统计量当且仅当存在非负函数 h,g 使得
f(x;θ)=h(x)⋅g(θ,T(x))
概率分布可以分解为两个函数的乘积,其中一个与 θ 无关,另一个仅通过 T 与样本 x 产生关联。
充分统计量不唯一。如果统计量 S(X) 是 θ 的充分统计量,且对于任意 θ 的充分统计量 T(X) 都存在函数 g 使得 S(X)=g(T(X)),则 S(X) 是 θ 的最小充分统计量(minimal sufficiency)。
最小充分统计量通常存在,但不总是存在。
Rao-Blackwell-Kolmogorov 定理
已知参数 θ 的充分统计量 T,对于任意估计量 θ^1(X),利用充分统计量的新估计量 θ^2=E[θ^1(X)∣T(X)],有
E[(θ^2(X)−θ)2]⩽E[(θ^1(X)−θ)2]
利用充分统计量可以得到均方误差更小的估计量。
Lehmann-Scheffé 定理
若 θ^ 是 θ 的无偏估计量,T 是完备(complete)充分统计量,则 E[θ^∣T] 是唯一的一致最小方差无偏估计(UMVUE)。
不严格地说,完备统计量只包含了样本中关于目标参数的信息,不含其他信息。
区间估计(interval estimation)
假设样本 X1,…,Xn 服从某伯努利分布 p=θ,令 Y=∑iXi∼Bin(n,θ)。
霍夫丁不等式有
Pr(∣Y−np∣⩾t)⩽2exp(−n2t2)
取一定的 t(Θ(n)),可使 Pr[p=nY±t]=0.95,即以 95% 的概率,p=Y/n±O(n)。
更严格地说,应该是有 95% 的概率,该置信区间包含真实参数 p。而非 p 在该区间的概率为 95%,因为 p 是一个固定值。
nY±O(n) 是一个随机的区间,取决于随机样本 X1,…,Xn。
从后验分布中选择一段区间(可信区间,credible interval)使得
Pr[θ∈[a,b]∣X=x]=1−α
选法*:
- 选择最短的区间(highest density interval, HDI)
- 基于分位数(quantile-based interval, QBI):如中位数,左右各取 21−α。
(原则上)给定置信度 1−α,任意统计量 a(X1,…),b(X1,…),使得
Pr[a⩽θ⩽b]⩾1−α
枢轴变量(pivot/pivotal quantity)法:假设样本 X1,…,Xn 服从 N(μ,1):
- 统计量 Xˉn∼N(μ,n1),枢轴变量 Xˉn−μ∼N(0,n1)
- 寻找分位数 [c,d] 使得 Pr[Xˉn−μ∈[c,d]]⩾1−α
- 置信水平 1−α 的置信区间为 [Xˉn−d,Xˉn−c]