假设检验

  • 问题:抽卡是否被暗改概率?
  • 收集数据:抽卡记录

永远无法准确地判断,但可以量化我们的把握:

假设检验

概念

  • 原假设(零假设,null hypothesis)
  • 备择假设(alternative hypothesis)
  • 检验法则(decision rule):
    • 接受域(acceptance region):应该接受原假设
    • 拒绝域(rejection region)/临界域(critical region):应该拒绝原假设
接受原假设 拒绝原假设
原假设为真 正确(TP) 一类错误(弃真/假阳性 FP)
原假设为假 二类错误(取伪/假阴性 FN) 正确(TN)

一种假设检验基本步骤:

  1. 提出统计假设:原假设 H0H_0 和备择假设 H1H_1
  2. 针对两种假设确定能区分它们的统计量
  3. 根据统计量确定拒绝域和接受域
  4. 采样,从样本中计算出统计值
  5. 判断统计值是否在拒绝域内,做出决策

对这种方法,考虑边界情况、判断的可信度、出错率?

犯错概率,有

  • 原假设为真,犯一类错误概率为 α\alpha
    • 显著性(significance):α\alpha
    • 置信水平 γ=1α\gamma = 1-\alpha
  • 备择假设为真,犯二类错误概率为 β\beta
    • 检验功效(power):1β1-\beta

Fisher 显著性检验:

  • 显著:5%5\%
  • 极为显著:1%1\%
接受原假设 拒绝原假设
原假设为真 1α1-\alpha α\alpha
原假设为假 β\beta 1β1-\beta

生男生女

John Arbuthnot(1710)统计了 82 年间(1629 ~ 1710)伦敦出生的男女比例,均为男比女多。如果假设男女比例相等,那么这种情况发生的概率是 1282\dfrac{1}{2^{82}}

改版女士品茶

某个吃货能否区分:

  • 先吃一口夏洛特蛋糕,再吃一口便利店鸡排
  • 先吃一口便利店鸡排,再吃一口夏洛特蛋糕

原假设是这两种吃法口味一样,备择假设是不一样。

  • 试验:有四组实验,每组各有一份,让她在无感知情况下随机品尝,并从中选出一份先吃夏洛特蛋糕的。[1]
  • 数据:受试者对了 kk
  • 原假设为真情况下样本出现的概率为 (4k)/(84)\dbinom{4}{k} / \dbinom{8}{4}

原版女士品茶中,受试者藻类学家 Muriel Bristol 全对,概率为 1/(84)=1701.429%1 / \dbinom{8}{4} = \dfrac{1}{70} \approx 1.429\%


  1. 改了例子后说明很拗口。换成可乐比较容易懂。就是有四杯可口和四杯百事,受试者随机品尝并从中选出四杯可口,数据是对了 kk 杯。不过本来就是私货,拗口也要放在主体。 ↩︎

由此添加了第三步「规定显著性水平 α\alpha」。

假设检验基本步骤(Neyman-Pearson's approach):

  1. 提出统计假设:原假设 H0H_0 和备择假设 H1H_1
  2. 针对两种假设确定能区分它们的统计量
  3. 规定显著性水平 α\alpha
  4. 根据统计量确定拒绝域和接受域
  5. 采样,从样本中计算出统计值
  6. 判断统计值是否在拒绝域内,做出决策:「在显著性水平 α\alpha 下接受/拒绝原假设」

α,β\alpha, \beta 互相矛盾(像是精确度 PP 和召回率 RR)。

可以增大样本量,减小假设样本方差,假设样本更集中,重叠区域更小:

  • 固定 α\alpha,提高样本量使 βα\beta \le \alpha
  • 样本量由 β\beta 确定(功耗)

正态总体参数检验

已知方差 σ2\sigma^2,检验期望 μ\mu

例如一洗衣粉包装机,额定标准为 500g/包,袋装重量服从正态分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2),称得样本 X1,,XnX_1, \dots, X_n,取显著性水平 α\alpha,包装机是否工作正常?

Z 检验

若样本 X1,,XnX_1, \dots, X_n 服从正态分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2),取显著性水平 α\alpha,则:

检验统计量 Z=Xˉμ0σ/n\boxed{Z = \dfrac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}},若原假设 H0 ⁣:μ=μ0H_0\colon \mu = \mu_0 成立,则 ZN(0,1)Z \sim \mathcal{N}(0, 1)

XN(0,1)X \sim \mathcal{N}(0, 1),有

  • 备择假设 H1 ⁣:μμ0H_1\colon \mu \ne \mu_0(双侧检验)拒绝域

{z ⁣:Pr(Xz)α/2 or Pr(Xz)α/2}\left\lbrace z\colon \Pr(X \le z) \le \alpha / 2 \text{ or } \Pr(X \ge z) \le \alpha / 2 \right\rbrace

  • 备择假设:H1 ⁣:μ<μ0H_1\colon \mu < \mu_0(左侧检验)拒绝域

{z ⁣:Pr(Xz)α}\left\lbrace z\colon \Pr(X \le z) \le \alpha \right\rbrace

  • 备择假设 H1 ⁣:μ>μ0H_1\colon \mu > \mu_0(右侧检验)拒绝域

{z ⁣:Pr(Xz)α}\left\lbrace z\colon \Pr(X \ge z) \le \alpha \right\rbrace

zαz_{\alpha} 表示使得 Pr(Xzα)=α\Pr(X \ge z_{\alpha}) = \alphazz 值,其中 XN(0,1)X \sim \mathcal{N}(0, 1)

已知期望 μ\mu,检验方差 σ2\sigma^2

例如一洗衣粉包装机,额定标准为 500g/包,袋装重量服从正态分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2),称得样本 X1,,XnX_1, \dots, X_n,取显著性水平 α\alpha,检验 σ2=σ02\sigma^2 = \sigma_0^2

卡方检验

若样本 X1,,XnX_1, \dots, X_n 服从正态分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2),则:

样本方差 S2=i(XiXˉ)2n1S^2 = \dfrac{\sum_i (X_i - \bar{X})^2}{n - 1},有 E[S2]=σ2\mathbb{E}[S^2] = \sigma^2

检验统计量 Z=i(Xiμ)2σ02\boxed{Z = \dfrac{\sum_i(X_i - \mu)^2}{\sigma_0^2}},若原假设 H0 ⁣:σ2=σ02H_0\colon \sigma^2 = \sigma_0^2,则 Zχ2(n)Z \sim \chi^2(n)

Xχ2(n)X \sim \chi^2(n),有

  • 备择假设 H1 ⁣:σ2σ02H_1\colon \sigma^2 \ne \sigma_0^2(双侧检验)拒绝域

{z ⁣:Pr(Xz)α/2 or Pr(Xz)α/2}\left\lbrace z\colon \Pr(X \le z) \le \alpha / 2 \text{ or } \Pr(X \ge z) \le \alpha / 2 \right\rbrace

卡方分布

X1,,XnX_1, \dots, X_n 独立同分布,且 XiN(0,1)X_i \sim \mathcal{N}(0, 1),则 Q=iXi2χ2(n)Q = \sum_i X_i^2 \sim \chi^2(n),称 QQ 服从自由度为 nn卡方分布

Qχ2(n)Q \sim \chi^2(n),则有 E[Q]=n\mathbb{E}[Q] = n。若 X1χ2(m),X2χ2(n)X_1 \sim \chi^2(m), X_2 \sim \chi^2(n) 相互独立,则 X1+X2χ2(m+n)X_1 + X_2 \sim \chi^2(m + n)

未知期望 μ\mu,检验方差 σ2\sigma^2

例如一洗衣粉包装机,额定标准为 500g/包,袋装重量服从正态分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2),称得样本 X1,,XnX_1, \dots, X_n,已知 μ=μ0\mu = \mu_0,取显著性水平 α\alpha,检验 σ2=σ02\sigma^2 = \sigma_0^2

卡方检验

未知期望,检验统计量 Z=i(XiXˉ)2σ02\boxed{Z = \dfrac{\sum_i (X_i - \bar{X})^2}{\sigma_0^2}},若原假设 σ2=σ02\sigma^2 = \sigma_0^2 成立,则 Zχ2(n1)Z \sim \chi^2(n-1)

证明

即证若 X1,,XnN(0,1)X_1, \dots, X_n \sim \mathcal{N}(0, 1),则 Z=i(XiXˉ)2χ2(n1)Z = \sum_i (X_i - \bar{X})^2 \sim \chi^2(n - 1)

样本方差 S2=i=1n(XiXˉ)2n1S^2 = \displaystyle \sum_{i=1}^{n} \dfrac{(X_i - \bar{X})^2}{n - 1}

i=1n(XiXˉ)2=i=1nXi2nXˉ2\displaystyle \sum_{i=1}^{n} (X_i - \bar{X})^2 = \sum_{i=1}^{n} X_i^2 - n \bar{X}^2,显然 i=1nXi2χ2(n)\displaystyle \sum_{i=1}^{n} X_i^2 \sim \chi^2(n)

XˉN(0,1n)\bar{X} \sim \mathcal{N}\left(0, \frac{1}{n}\right),于是 nXˉN(0,1)\sqrt{n}\bar{X} \sim \mathcal{N}(0, 1),且 nXˉ2χ2(1)n \bar{X}^2 \sim \chi^2(1)

改写 i=1nXi2=(n1)S2+nXˉ2\displaystyle \sum_{i=1}^{n} X_i^2 = (n - 1)S^2 + n \bar{X}^2,记作 χ2(n)=(n1)S2+χ2(1)\chi^2(n) = (n - 1)S^2 + \chi^2(1),这两个是相互独立的(样本方差与样本均值相互独立)。

于是可以用 MGF 有

Mχn2(t)=M(n1)S2+χ2(1)(t)=M(n1)S2(t)Mχ2(1)(t)\begin{aligned} M_{\chi^2_n}(t) &= M_{(n-1)S^2 + \chi^2(1)}(t) \\ &= M_{(n-1)S^2}(t) \cdot M_{\chi^2(1)}(t) \\ \end{aligned}

Mχn2(t)=(12t)n/2M_{\chi_n^2}(t) = (1 - 2t)^{-n / 2},则有

M(n1)S2(t)=Mχn2(t)/Mχ2(1)(t)=(12t)n/2(12t)1/2=(12t)(n1)/2\begin{aligned} M_{(n - 1)S^2}(t) &= M_{\chi_n^2}(t) / M_{\chi^2(1)}(t) \\ &= (1 - 2t)^{-n / 2} \cdot (1 - 2t)^{1 / 2} \\ &= (1 - 2t)^{-(n - 1) / 2} \end{aligned}

因此 i=1n(XiXˉ)2=(n1)S2χ2(n1)\displaystyle \sum_{i=1}^{n} (X_i - \bar{X})^2 = (n - 1)S^2 \sim \chi^2(n - 1)

上面的证明还有两步未完成,即「样本方差与样本均值相互独立」和「MGF 的计算」,先看后者:

Xχn2X \sim \chi_n^2,则其概率密度函数[1]

f(x)=xn/21ex/22n/2Γ(n/2)f(x) = \dfrac{x^{n / 2 - 1} \e^{-x / 2}}{2^{n / 2} \Gamma(n / 2)}

Γ(z)=0tz1et ⁣dt\Gamma(z) = \int_0^\infty t^{z - 1} \e^{-t} \d t

于是

MX(t)=E[exp(tX)]=0exp(tx)f(x) ⁣dx=12n/2Γ(n/2)0xn/21exp((1/2t)x) ⁣dx=12n/2Γ(n/2)0(u1/2t)n/21eu1/2t ⁣du(u=(1/2t)x)=12n/2Γ(n/2)(1/2t)n/20un/21eu ⁣du=12n/2Γ(n/2)(1/2t)n/2Γ(n/2)=(12t)n/2\begin{aligned} M_X(t) &= \mathbb{E}[\exp(t X)]\\ &= \int_0^{\infty } \exp(t x) \cdot f(x) \d x\\ &= \dfrac{1}{2^{n / 2} \Gamma(n / 2)} \int_0^{\infty } x^{n / 2 - 1} \exp\left( - (1 / 2 - t) x \right) \d x\\ &= \dfrac{1}{2^{n / 2} \Gamma(n / 2)} \int_0^{\infty } \left( \dfrac{u}{1 / 2 - t} \right)^{n / 2 - 1} \dfrac{\e^{-u}}{1 / 2 - t} \d u & (u = (1 / 2 - t) x)\\ &= \dfrac{1}{2^{n / 2} \Gamma(n / 2) (1 / 2 - t)^{n / 2}} \int_0^{\infty } u^{n / 2 - 1} \e^{-u} \d u\\ &= \dfrac{1}{2^{n / 2} \Gamma(n / 2) (1 / 2 - t)^{n / 2}} \Gamma(n / 2)\\ &= (1 - 2t)^{-n / 2} \end{aligned}

另一个见下面。

Xχ2(n1)X \sim \chi^2(n-1),有

  • 备择假设 H1 ⁣:σ2σ02H_1\colon \sigma^2 \ne \sigma_0^2(双侧检验)拒绝域

{z ⁣:Pr(Xz)α/2 or Pr(Xz)α/2}\left\lbrace z\colon \Pr(X \le z) \le \alpha / 2 \text{ or } \Pr(X \ge z) \le \alpha / 2 \right\rbrace


  1. 那卡方分布 PDF 怎么来的呢?即答「PPT 是这样写的」,查表可得。那为啥 MGF 不查表呢?我只是个抄书的,我什么都不知道↩︎

未知方差 σ2\sigma^2,检验期望 μ\mu

t 检验

样本 X1,,XnX_1, \dots, X_n 服从某正态分布 N(μ,σ2)\mathcal{N}(\mu, \sigma^2),方差 σ2\sigma^2 未知。取显著性水平 α\alpha,检验 μ=μ0\mu = \mu_0

  • 原假设 H0 ⁣:μ=μ0H_0\colon \mu = \mu_0
  • 备择假设 H1 ⁣:μμ0H_1\colon \mu \ne \mu_0

检验统计量 Z=Xˉμ0S/n\boxed{Z = \dfrac{\bar{X} - \mu_0}{S / \sqrt{n}}},若原假设成立,则 Zt(n1)Z \sim t(n-1)

{XˉN(μ0,σ2/n)(n1)S2nσ2χ2(n1)Z=(Xˉμ0)/(σn)((n1)S2/(nσ2))/(n1)\left\lbrace\begin{aligned} \bar{X} &\sim \mathcal{N}(\mu_0, \sigma^2 / n)\\ \dfrac{(n - 1)S^2}{n \sigma^2}&\sim \chi^2(n - 1)\\ Z &= \dfrac{(\bar{X} - \mu_0) / (\sigma \sqrt{n})}{\sqrt{((n - 1)S^2 / (n \sigma^2)) / (n - 1)}} \end{aligned}\right.

Xt(n1)X \sim t(n-1),有

  • 备择假设 H1 ⁣:μμ0H_1\colon \mu \ne \mu_0(双侧检验)拒绝域

{z ⁣:Pr(Xz)α/2 or Pr(Xz)α/2}\left\lbrace z\colon \Pr(X \le z) \le \alpha / 2 \text{ or } \Pr(X \ge z) \le \alpha / 2 \right\rbrace

学生 t 分布

若随机变量 XN(0,1),Yχ2(n)X \sim \mathcal{N}(0, 1),\, Y \sim \chi^2(n) 独立,则随机变量

T=XY/nT = \dfrac{X}{\sqrt{Y/n}}

服从 nn 个自由度的学生 tt 分布,记作 Tt(n)T \sim t(n)

正态总体样本均值和样本方差相互独立的证明

X1,,XnN(μ,σ2)X_1, \dots, X_n \sim \mathcal{N}(\mu, \sigma^2),则有 Xˉ2\bar{X}^2S2S^2 相互独立。

(不严格地证明)有

f(x1,,xn)=(2πσ2)n/2exp(i(xiμ)22σ2)=(2πσ2)n/2exp(i(xixˉ)22σ2)exp(n(xˉμ)22σ2)\begin{aligned} f(x_1, \dots, x_n) &= (2 \pi \sigma^2)^{-n / 2} \exp\left( - \dfrac{\sum_i (x_i - \mu)^2}{2 \sigma^2} \right) \\ &= (2 \pi \sigma^2)^{-n / 2} \exp \left( - \dfrac{\sum_i (x_i - \bar{x})^2}{2 \sigma^2} \right) \exp \left( - \dfrac{n (\bar{x} - \mu)^2}{2 \sigma^2} \right) \end{aligned}

第一个 exp\exp 可以看作 S2S^2,第二个 exp\exp 可以看作 Xˉ\bar{X},即联合分布可以分解为 Xˉ\bar{X}S2S^2 的乘积,因此 Xˉ\bar{X}S2S^2 相互独立。

严格证明,有 XˉN(μ,σ2/n)\bar{X} \sim \mathcal{N}(\mu, \sigma^2 / n),与 XˉXj=1nijXin1nXj\bar{X} - X_{j} = \dfrac{1}{n} \displaystyle \sum_{i \ne j} X_i - \dfrac{n - 1}{n}X_{j},于是

XˉXjN((n1)μn(n1)μn,(n1)σ2n2+(n1)2σ2n2)=N(0,n1nσ2)\begin{aligned} \bar{X} - X_{j} &\sim \mathcal{N}\left( \dfrac{(n - 1) \mu}{n} - \dfrac{(n - 1) \mu}{n}, (n - 1)\dfrac{\sigma^2}{n^2} + (n - 1)^2 \dfrac{\sigma^2}{n^2} \right) \\ &= \mathcal{N}\left(0, \dfrac{n - 1}{n} \sigma^2\right) \end{aligned}

两两之间的协方差有

Cov(XˉXj,Xˉ)=Cov(Xˉ,Xˉ)Cov(Xj,Xˉ)=n1nσ2\begin{aligned} \operatorname{Cov}(\bar{X} - X_{j}, \bar{X}) &= \operatorname{Cov}(\bar{X}, \bar{X}) - \operatorname{Cov}(X_j, \bar{X})\\ &= \dfrac{n - 1}{n} \sigma^2 \end{aligned}

Cov(Xj,Xˉ)=Cov(Xj,Xj/n)=σ2n\operatorname{Cov}(X_{j}, \bar{X}) = \operatorname{Cov}(X_{j}, X_{j} / n) = \dfrac{\sigma^2}{n},同时 Cov(Xˉ,Xˉ)=σ2n\operatorname{Cov}(\bar{X}, \bar{X}) = \dfrac{\sigma^2}{n},即 Xˉ\bar{X}XˉXj\bar{X} - X_{j} 不相关。

在联合正态分布中,不相关等价于相互独立,因此 Xˉ\bar{X}S2S^2 相互独立。

检验比较两个正态总体

已知方差 σ12,σ22\sigma_1^2, \sigma_2^2,检验期望差 μ1μ2\mu_1 - \mu_2

样本 X1,,Xn1N(μ1,σ12),Y1,,Yn2N(μ2,σ22)X_1, \dots, X_{n_1} \sim \mathcal{N}(\mu_1, \sigma_1^2),\, Y_1, \dots, Y_{n_2} \sim \mathcal{N}(\mu_2, \sigma_2^2),取显著性水平 α\alpha,检验 μ1=μ2\mu_1 = \mu_2

  • 原假设 H0 ⁣:μ1=μ2H_0\colon \mu_1 = \mu_2
  • 备择假设 H1 ⁣:μ1μ2H_1\colon \mu_1 \ne \mu_2(双侧检验)。

检验统计量 Z=(XˉYˉ)(μ1μ2)σ12/n1+σ22/n2\boxed{Z = \dfrac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\sigma_1^2 / n_1 + \sigma_2^2 / n_2}}},若原假设成立,则 ZN(0,1)Z \sim \mathcal{N}(0, 1)

XN(0,1)X \sim \mathcal{N}(0, 1),有

  • 备择假设 H1 ⁣:μ1μ2H_1\colon \mu_1 \ne \mu_2(双侧检验)拒绝域

{z ⁣:Pr(Xz)α/2 or Pr(Xz)α/2}\left\lbrace z\colon \Pr(X \le z) \le \alpha / 2 \text{ or } \Pr(X \ge z) \le \alpha / 2 \right\rbrace

未知方差 σ12=σ22\sigma_1^2 = \sigma_2^2,检验期望差 μ1μ2\mu_1 - \mu_2

样本 X1,,Xn1N(μ1,σ12),Y1,,Yn2N(μ2,σ22)X_1, \dots, X_{n_1} \sim \mathcal{N}(\mu_1, \sigma_1^2),\, Y_1, \dots, Y_{n_2} \sim \mathcal{N}(\mu_2, \sigma_2^2),取显著性水平 α\alpha,检验 μ1=μ2\mu_1 = \mu_2

  • 原假设 H0 ⁣:μ1=μ2H_0\colon \mu_1 = \mu_2
  • 备择假设 H1 ⁣:μ1μ2H_1\colon \mu_1 \ne \mu_2(双侧检验)。

检验统计量 Z=(XˉYˉ)(μ1μ2)(1n1+1n2)(n11)S12+(n21)S22n1+n22\boxed{Z = \dfrac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\left( \frac{1}{n_1} + \frac{1}{n_2} \right) \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}}},若原假设成立,则 Zt(n1+n22)Z \sim t(n_1 + n_2 - 2)

Xt(n1+n22)X \sim t(n_1 + n_2 - 2),有

  • 备择假设 H1 ⁣:μ1μ2H_1\colon \mu_1 \ne \mu_2(双侧检验)拒绝域

{z ⁣:Pr(Xz)α/2 or Pr(Xz)α/2}\left\lbrace z\colon \Pr(X \le z) \le \alpha / 2 \text{ or } \Pr(X \ge z) \le \alpha / 2 \right\rbrace

未知方差 σ12σ22\sigma_1^2 \ne \sigma_2^2,检验期望差 μ1μ2\mu_1 - \mu_2*

Behrens-Fisher problem

Welech's 近似 tt 解法(Welch's approximate tt solution):

S2=S12/n1+S22/n2S^2 = S_1^2 / n_1 + S_2^2 / n_2,则 S2S^2 近似服从卡方分布。

检验统计量 Z=(XˉYˉ)(μ1μ2)S2/?\boxed{Z = \dfrac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{S^2 / \mathord{?}}}}

近似自由度 (g1+g2)2g12/(n11)+g22/(n21)\ell \approx \dfrac{(g_1 + g_2)^2}{g_1^2 / (n_1 - 1) + g_2^2 / (n_2 - 1)},其中 g1=S12/n1,g2=S22/n2g_1 = S_1^2 / n_1, g_2 = S_2^2 / n_2

比较方差 σ12,σ22\sigma_1^2, \sigma_2^2

F 检验

样本 X1,,Xn1N(μ1,σ12)X_1, \dots, X_{n_1} \sim \mathcal{N}(\mu_1, \sigma_1^2),样本 Y1,,Yn2N(μ2,σ22)Y_1, \dots, Y_{n_2} \sim \mathcal{N}(\mu_2, \sigma_2^2),取显著性水平 α\alpha,检验 σ12=σ22\sigma_1^2 = \sigma_2^2

  • 原假设 H0 ⁣:σ12=σ22H_0\colon \sigma_1^2 = \sigma_2^2
  • 备择假设 H1 ⁣:σ12σ22H_1\colon \sigma_1^2 \ne \sigma_2^2(双侧检验)。

检验统计量 Z=S12/σ12S22/σ22Z = \dfrac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2},若原假设成立,则 ZF(n11,n22)Z \sim F(n_1 - 1, n_2 - 2)

XF(n11,n22)X \sim F(n_1 - 1, n_2 - 2),有

  • 备择假设 H1 ⁣:σ12σ22H_1\colon \sigma_1^2 \ne \sigma_2^2(双侧检验)拒绝域

{z ⁣:Pr(Xz)α/2 or Pr(Xz)α/2}\left\lbrace z\colon \Pr(X \le z) \le \alpha / 2 \text{ or } \Pr(X \ge z) \le \alpha / 2 \right\rbrace

F 分布

若随机变量 Xχ2(n),Yχ2(m)X \sim \chi^2(n),\, Y \sim \chi^2(m) 独立,则随机变量

F=X/nY/mF = \dfrac{X/n}{Y/m}

服从 n,mn, m 个自由度的 FF 分布,记作 FF(n,m)F \sim F(n, m)

配对差异检验(paired difference test)

现实场景往往较为复杂,没有大量理想样本:

  • 比较两种肥料的效果:不同农田本身条件不同。
    • 同一块田分两半,配对比较
  • 检验药效:不同志愿者本身体质不同、病情不同。
    • 同一患者比较服药前后变化
  • 比较机器学习算法性能:不同数据集性质不同。
    • 比较每组数据在不同算法下的准确度

配对差异检验

假设机器学习算法 LA,LB\mathfrak{L}_A, \mathfrak{L}_B 在数据集 ii 上的准确度分别服从正态分布 N(μiA,σ12)\mathcal{N}(\mu^A_i, \sigma_1^2)N(μiB,σ22)\mathcal{N}(\mu^B_i, \sigma_2^2)σ1,σ2\sigma_1, \sigma_2 未知。取显著性水平 α\alpha,比较两种算法的性能 iμiA/n=iμiB/n\sum_i \mu_i^A / n = \sum_i \mu_i^B / n

  • 原假设 H0 ⁣:iμiA/n=iμiB/nH_0\colon \sum_i \mu_i^A / n = \sum_i \mu_i^B / n
  • 备择假设 H1 ⁣:iμiA/niμiB/nH_1\colon \sum_i \mu_i^A / n \ne \sum_i \mu_i^B / n(双侧检验)。

检验统计量 Z=XˉYˉ(1n1+1n2)(n11)S12+(n21)S22n1+n22\boxed{Z = \dfrac{\bar{X} - \bar{Y}}{\sqrt{\left( \frac{1}{n_1} + \frac{1}{n_2} \right) \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}}}},若原假设成立,则 Zt(n1+n22)Z \sim t(n_1 + n_2 - 2)

Xt(n1+n22)X \sim t(n_1 + n_2 - 2),有

  • 备择假设 H1 ⁣:iμiA/niμiB/nH_1\colon \sum_i \mu_i^A / n \ne \sum_i \mu_i^B / n(双侧检验)拒绝域

{z ⁣:Pr(Xz)α/2 or Pr(Xz)α/2}\left\lbrace z\colon \Pr(X \le z) \le \alpha / 2 \text{ or } \Pr(X \ge z) \le \alpha / 2 \right\rbrace

更多的例子:如比较两种不同的教学方法:

  • 不同的学生现有成绩不同,优生可能方法 A 更有效,差生可能应该用方法 B
  • 不同知识点不一样,不能对同一个学生先后应用两种不同的方法以比较
  • 同一个学生对不同学科的天赋不同,不能对同一个学生的不同科目应用不
    同的教学方法

复杂的场景需要更为细致的分类和精妙的实验设计。

pp-值(pp-value / prob-value)

假设检验基本步骤(Neyman-Pearson's approach):

  1. 提出统计假设:原假设 H0H_0备择假设 H1H_1
  2. 针对两种假设确定能区分它们的统计量
  3. 规定显著性水平 α\alpha
  4. 根据统计量确定拒绝域和接受域
  5. 采样,从样本中计算出统计值
  6. 判断统计值是否在拒绝域内,做出决策:「在显著性水平 α\alpha 下接受/拒绝原假设」

可以「丢掉」备择假设。

假设原假设为真,样本有多罕见?

统计假设:样本相互独立。中心极限定理:样本总体近似正态分布。

p=Pr(TtH0)p=Pr(TtH0)p=2min{Pr(TtH0),Pr(TtH0)}\begin{aligned} p &= \Pr(T \ge t \mid H_0)\\ p &= \Pr(T \le t \mid H_0)\\ p &= 2 \min\left\lbrace \Pr(T \le t \mid H_0), \Pr(T \ge t \mid H_0) \right\rbrace \end{aligned}

利用 pp-值进行检验(Fisher's approach):

  1. 提出统计假设:原假设 H0H_0
  2. 采样并从样本中计算出 pp-值
  3. 报告样本确切的 pp-值,而非简单的「接受」或「拒绝」

pp-值误用:如下图

原假设

将不同的假设作为原假设,可以得出完全相反的结论。

原假设反映了实验者的倾向:

  • 同样的数据在不同倾向下有不同的假设
  • 应选择较为中立和保守的原假设

原假设应该是清晰的,必须为分析概率分布提供基础。

应尽可能考虑多种不同的原假设。

非正态总体的参数检验*

样本 X1,,Xnexp(λ)X_1, \dots, X_n \sim \exp(\lambda),取显著性水平 α\alpha,检验 λ=λ0\lambda = \lambda_0

  • 原假设 H0 ⁣:λ=λ0H_0\colon \lambda = \lambda_0

检验统计量 Xˉ\boxed{\bar{X}},有 E[Xˉ]=1λ\mathbb{E}[\bar{X}] = \dfrac{1}{\lambda}

Gamma 分布

随机变量 XX 服从参数为 k,λ>0k, \lambda > 0伽马分布,记作 XΓ(k,λ)X \sim \Gamma(k, \lambda),若其概率密度函数为

fX(x)=1Γ(k)λkxk1exp(λx),x0f_X(x) = \dfrac{1}{\Gamma(k)} \lambda^k x^{k-1} \exp(-\lambda x),\quad x \ge 0

运用 Gamma 分布,有 exp(λ)=Γ(1,λ),χ2(n)=Γ(n2,12)\exp(\lambda) = \Gamma(1, \lambda),\, \chi^2(n) = \Gamma\left(\frac{n}{2}, \frac{1}{2}\right),从而有 nXˉΓ(n,λ),2λnXˉΓ(n,12)=χ2(2n)n \bar{X} \sim \Gamma(n, \lambda),\, 2 \lambda n \bar{X} \sim \Gamma\left(n, \frac{1}{2}\right) = \chi^2(2n)

pp 值为 2min{Pr(χ2(2n)2λnXˉ),Pr(χ22λnXˉ)}2 \min\left\lbrace \Pr(\chi^2(2n) \le 2 \lambda n \bar{X}), \Pr(\chi^2 \ge 2 \lambda n \bar{X}) \right\rbrace

似然比检验(likelihood ratio test, LRT)

似然函数 L(x;θ0),L(x;θ1)L(x; \theta_0),\, L(x; \theta_1) 分别表示两种假设下样本的概率。:

  • L(x;θ0)L(x; \theta_0):原假设下的似然函数
  • L(x;θ1)L(x; \theta_1):备择假设下的似然函数

L(x;θ0)L(x;θ1)L(x; \theta_0) \ge L(x; \theta_1) 时更应该支持原假设 H0H_0(反之亦然)。即 L(x;θ0)/L(x;θ1)1L(x; \theta_0) / L(x; \theta_1) \ge 1 更应该支持原假设。

Neyman-Pearson 引理

给定显著性 α\alpha,LRT 是功效 1β1 - \beta 最高的检验方法。

非参数假设检验

拟合优度检验(goodness of fit)

德军轰炸分布是否服从泊松分布?期末成绩得分是否符合正态分布?

步骤:

  1. 将所有可能的结果分成不相交的事件 E1,,Em\mathscr{E}_1, \dots, \mathscr{E}_m
  2. 通过点估计确定猜测分布的部分参数,假设服从分布 p(Ei)p(\mathscr{E}_i)(可选);
  3. 检验统计量 χ2=i=1m(p(Ei)Ei)2p(Ei)\boxed{\chi^2 = \displaystyle \sum_{i=1}^m \dfrac{(p(\mathscr{E}_i) - E_i)^2}{p(\mathscr{E}_i)}},其中 EiE_i 是样本中事件 Ei\mathscr{E}_i 发生的频率,kk 是估计的未定参数个数;
  4. 若服从分布,则统计量 χ2χ2(mk1)\chi^2 \approx \chi^2(m - k - 1)
  5. pp 值显著性检验。

Pearson's chi-squared test

考虑二项分布 XBin(n,p)X \sim \operatorname{Bin}(n, p),由中心极限定理有 Z=Xnpnp(1p)DN(0,1)Z = \dfrac{X - np}{\sqrt{np (1 - p)}} \xrightarrow[]{D} \mathcal{N}(0, 1),于是 Z2Dχ2(1)Z^2 \xrightarrow[]{D} \chi^2(1)

p1=p,p2=1p,Y=nXp_1 = p, p_2 = 1 - p, Y = n - X,于是有 Z2=(Xnp1)2np1+(Ynp2)2np2Dχ2(1)Z^2 = \dfrac{(X - np_1)^2}{np_1} + \dfrac{(Y - np_2)^2}{np_2} \xrightarrow[]{D} \chi^2(1)

多项式分布也可以得出相似的结论。

独立性检验(statistical independence)

唯一的高中内容?然而我也忘了。

两种因素对样本有影响吗?数据样本的特征和它的分类是否相互独立?

步骤:

  1. 根据 rr 种分类和 cc 种特征,构建 r×cr \times c 的「列联表」(contingency table/cross tabulation/crosstab);
  2. 从样本中估计分类与特征的分布函数 pi,pjp_{i \odot }, p_{\odot j}[1]
  3. 若分类与特征相互独立,有 nijnpipjn_{ij} \approx n p_{i \odot } p_{\odot j}
  4. 检验统计量 χ2=i=1rj=1c(nijnpipj)2npipj\boxed{\chi^2 = \displaystyle \sum_{i=1}^{r}\sum_{j=1}^{c} \dfrac{(n_{ij} - np_{i \odot } p_{\odot j})^2}{n p_{i \odot } p_{\odot j}}}
  5. 若相互独立,则统计量 χ2χ2((r1)(c1))\chi^2 \approx \chi^2((r-1)(c-1))
  6. pp 值显著性检验。

同质性检验(statistical homogeneity)

两种因素对样本有影响吗?两种机器学习算法在不同数据集上有性能差异吗?

步骤:

  1. 根据 2 种算法和 cc 个数据集,构建 2×c2 \times c 的「列联表」(contingency table/cross tabulation/crosstab);
  2. 从样本中估计每组数据的正确率 pjp_{j}
  3. 若没有性能差异,则 n1jn2jpjn_{1j} \approx n_{2j} \approx p_{j}
  4. 检验统计量 χ2=i=12j=1c(nijpj)2pj\boxed{\chi^2 = \displaystyle \sum_{i=1}^{2}\sum_{j=1}^{c} \dfrac{(n_{ij} - p_{j})^2}{p_{j}}}
  5. 若相互独立,则统计量 χ2χ2(c1)\chi^2 \approx \chi^2(c-1)
  6. pp 值显著性检验。

符号检验(sign test)

检验总体的中位数 m=m0m = m_0?检验上了课的学生 GPA 变高?

步骤:

  1. 对每个样本 X1,,XnX_1, \dots, X_n 检验是否 X1<m0X_1 < m_0 并记录 +/+ / -
  2. 若原假设成立,则 #Bin(n,12)\#- \sim \operatorname{Bin}\left(n, \frac{1}{2}\right)
  3. pp 值显著性检验。

对于上面 GPA 的检验,就是把步骤中的 #\#- 换成 #+\#+12\frac{1}{2} 换成 p>12p > \frac{1}{2}

秩和检验(rank-sum test)

Mann-Whitney-Wilcoxon UU test

这里的 rank 实际是「排名」,「排名和检验」比「秩和检验」更清晰易懂。

两个总体 D1,D2\mathscr{D}_1, \mathscr{D}_2 是否有差不多 Pr(X>Y)=Pr(Y>X)\Pr(X > Y) = \Pr(Y > X),其中 XD1,YD2X \in \mathscr{D}_1, Y \in \mathscr{D}_2

步骤:

  1. 采样样本 X1,,Xn1D1,Y1,,Yn2D2X_1, \dots, X_{n_1} \sim \mathscr{D}_1, Y_1, \dots, Y_{n_2} \sim \mathscr{D}_2
  2. X1,,Xn1,Y1,,Yn2X_1, \dots, X_{n_1}, Y_1, \dots, Y_{n_2} 按大小顺序排序,并记录每个样本的排名;
  3. 检验统计量 min{U1,U2}\boxed{\min\left\lbrace U_1, U_2 \right\rbrace},其中
    • U1=n1n2+n1(n1+1)2R1U_1 = n_1 n_2 + \dfrac{n_1 (n_1 + 1)}{2} - R_1
    • U2=n1n2+n2(n2+1)2R2U_2 = n_1 n_2 + \dfrac{n_2 (n_2 + 1)}{2} - R_2
    • R1,R2R_1, R_2 分别表示两组样本的排名之和
    • U1+U2=n1n2U_1 + U_2 = n_1 n_2[2]
    • UU 统计量外部资料
  4. 若原假设成立,小样本时查表,大样本时利用中心极限定理;
  5. pp 值显著性检验。

符号秩检验(Wilcoxon signed-rank test)

样本 X1,,XnX_1, \dots, X_n 来自总体 D\mathscr{D},检验 D\mathscr{D} 是否关于 0 轴对称?

步骤:

  1. 将样本按 Xi|X_i| 排序,并记录排名;
  2. 检验统计量 T+=i ⁣:Xi>θRi\boxed{T^{+} = \sum_{i\colon X_i > \theta}R_i},其中 RiR_i 表示 XiX_i 在上述排序中的排名,θ\theta 为检验的中位数;
  3. 若原假设成立,小样本时查表,大样本时中心极限定理有 T+N(μ,σ2)T^{+} \sim \mathcal{N}(\mu, \sigma^2),其中 E[T+]=n(n+1)4,Var[T+]=n(n+1)(2n+1)24\mathbb{E}[T^{+}] = \dfrac{n(n+1)}{4}, \operatorname{Var} [T^{+}] = \dfrac{n(n+1)(2n+1)}{24}
  4. pp 值显著性检验。

  1. PPT 用的是 \cdot \cdot,可惜不太清晰,我换成了 \odot \odot。不过前面用的还是前者,但我懒得改了。 ↩︎

  2. U1+U2=2n1n2+12(n12+n22+n1+n2)(n1+n2)(n1+n2+1)2=n1n2U_1 + U_2 = 2 n_1 n_2 + \dfrac{1}{2} \left( n_1^2 + n_2^2 + n_1 + n_2 \right) - \dfrac{(n_1 + n_2)(n_1 + n_2 + 1)}{2} = n_1 n_2↩︎