离散概率分析
概率分析四步法:
- 选定样本空间(Find the sample space)
- 定义相关事件(Define events of interests)
- 确定结果概率(Determine outcome probabilities)
- 计算事件概率(Compute event probabilities)
选定样本空间
样本空间是所有可能结果的集合。
定义相关事件
事件是样本空间的一个子集。
概率的定义
古典概率(Laplacian probability):对于结果具有相同可能性的有限样本空间 S 及其一个事件 E,则称事件 E 的概率为
P(E)=∣S∣∣E∣
频率主义的概率(frequentist probability):定义事件 E 的概率为
P(E)=n→∞limnnE
伯特兰悖论(Bertrand's paradox):对于一个圆上的随机弦,其长度的概率分布是不确定的。
随机端点:2πr32πr=31
随机弦:r2r=21
随机中点:πr2π(2r)2=41
其原因在于「随机」的定义不明确,从而使样本空间不确定。
基于集合论的概率
基于集合论的概率定义
可数样本空间 S 是一个可数集合,S 的每一个元素 ω 称为一个结果。
满足下列条件的函数 Pr:S→R 称为样本空间 S 上的一个概率函数:
- 非负性:对于任意 ω∈S,有 Pr[ω]⩾0;
- 规范性:ω∈S∑Pr[ω]=1;
样本空间 S 的一个子集 E⊆S 称为一个事件。事件 E 的概率定义为 Pr[E]=ω∈E∑Pr[ω]。
基于集合论的概率计算
设 E 是样本空间 S 的一个事件,E 的补事件 Eˉ 的概率定义为 Pr[Eˉ]=1−Pr[E]。
设 E1,E2 是样本空间 S 的两个事件,E1∪E2 的概率定义为 Pr[E1∪E2]=Pr[E1]+Pr[E2]−Pr[E1∩E2]。
假设 S 是一个含 n 个元素的样本空间,均匀分布(Uniform Distribution)赋给 S 中的每一个元素的概率都是 n1。
条件概率
设 E,F 为事件,且 Pr[F]>0,则 E 在事件 F 发生的条件下的条件概率(Conditional Probability)定义为 Pr[E∣F]=Pr[F]Pr[E∩F]。
贝叶斯定理
贝叶斯定理
设 E,F 是样本空间 S 中的事件,且 Pr[E],Pr[F]=0,则
Pr[E∣F]=Pr[F]Pr[F∣E]Pr[E]=Pr[F∣E]Pr[E]+Pr[F∣Eˉ]Pr[Eˉ]Pr[F∣E]Pr[E]
证明:
由条件概率,有
Pr[E∣F]Pr[E]=Pr[E∩F]=Pr[F∩E]=Pr[F∣E]Pr[E]
又
Pr[F]=Pr[(E∩F)∪(Eˉ∩F)]=Pr[E∩F]+Pr[Eˉ∩F]=Pr[F∣E]Pr[E]+Pr[F∣Eˉ]Pr[Eˉ]
- Pr[A] 是 A 的先验概率(Prior Probability),因为它是在考虑任何新证据(B)之前的概率
- Pr[A∣B] 是已知 B 发生后 A 的后验概率(Posterior Probability)
- Pr[B∣A] 是已知 A 发生后 B 的后验概率
- Pr[B] 是 B 的先验概率,也作标准化常量(Normalizing Constant)
贝叶斯定理在罕见病的例子,可以见 3Blue1Brown 视频:医检阳性≠得了病?重新理解贝叶斯定理。
事件独立性
事件 E,F 是独立的,当且仅当 Pr[E∩F]=Pr[E]⋅Pr[F]。
随机变量、期望和方差
随机变量
随机变量
一个随机变量 X 是一个定义域为样本空间 S 的函数。
其伴域可为任意非空集合,但通常取为实数集 R,即 X:S→R。
随机变量既不「随机」,也非「变量」,而是一个函数。
随机变量的分布
X 是样本空间 S 上的一个随机变量,X 的分布(Distribution)是形如 (r,Pr[X=r]) 的二元组集合,其中 r∈X(S),Pr[X=r] 是 X 取值为 r 的概率。
期望
期望
设 X 是样本空间 S 上的一个随机变量,X 的期望(Expectation)定义为
E[X]=ω∈S∑X(ω)⋅Pr[ω]
X(ω)−E[X] 称为 X 在 ω 处的偏差(Deviation)。
显然有
E[X1]=E[X]1
等价定义:
E[X]=x∈X(S)∑x⋅Pr[X=x]
因为有
E[X]=ω∈S∑X(ω)⋅Pr[ω]=x∈X(S)∑ω∈[X=x]∑X(ω)⋅Pr[ω]=x∈X(S)∑ω∈[X=x]∑x⋅Pr[ω]=x∈X(S)∑x⋅ω∈[X=x]∑Pr[ω]=x∈X(S)∑x⋅Pr[X=x]
条件期望
给定随机变量 R,R 在已知事件 A 条件下的期望值是 R 在 A 中结果上的取值的概率加权平均值,即
E[R∣A]=r∈R(S)∑r⋅Pr[R=r∣A]
全期望公式
令 R 为样本空间 S 上的一个随机变量,且 S 可以分解为一系列互斥事件 A1,A2,⋯,则
E[R]=i∑E[R∣Ai]⋅Pr[Ai]
期望的线性性质:
- E[i=1∑nXi]=i=1∑nE[Xi]
- E[aX+b]=aE[X]+b
独立随机变量
样本空间 S 上的随机变量 X,Y 是独立的,当且仅当对于所有 x∈X(S) 和 y∈Y(S),有 Pr[X=x∧Y=y]=Pr[X=x]⋅Pr[Y=y]。
对于样本空间 S 上独立的随机变量 X,Y,有 E[XY]=E[X]⋅E[Y]。
方差
方差
设 X 是样本空间 S 上的一个随机变量,X 的方差(Variance)定义为
V[X]=E[(X−E[X])2]
即方差是「随机变量 X 在 ω 处偏差的平方的加权平均值」。
标准差
随机变量 X 的标准差(Standard Deviation)定义为 V[X],记作 σX 或 σ(X)
样本空间 S 上的随机变量 X 的方差有
V[X]=E[X2]−E[X]2
- 对于样本空间 S 上的两两独立随机变量 X1,X2,⋯Xn,有 V[i=1∑nXi]=i=1∑nV[Xi]
- V[aX+b]=a2V[X]
Bienaymé 公式
对样本空间 S 上独立的随机变量 X,Y 有:
V[X+Y]=V[X]+V[Y]
并推广到 n 个独立随机变量的情况:
V[i=1∑nXi]=i=1∑nV[Xi]