前言
这篇文章最初写于 2022 年 2 月 22 日。2023 年 9 月 24 日初次改写为博文。
过程不太严谨,但一定程度上反映了我的思考。只进行了部分格式修正以适应博文格式,未进行内容的修改。
引子问题
信息学之父香农定义随机变量 X 的信息熵 H(X)=−i=1∑nP(xi)log2P(xi) ,其中 xi 为基本事件,n 为基本事件的个数,P(xi) 为基本事件 xi 的概率。例如「抛一次硬币」的信息熵 H(X)=−(21log221+21log221)=1
(1) 若 x+y=a(x,y,a>0) ,证明:xlog2x+ylog2y⩾alog22a
(2) 证明:H(X)⩽log2n
解答
(1)
设 y=a−x,f(x)=xlog2x+ylog2y=xlog2x+(a−x)log2(a−x)
则 f′(x)=ln21(log2x+1−log2(a−x)−1)=ln2log2(a−xx)
分析知当 x∈(0,2a) 时 f(x) 单调递减,当 x∈(2a,a) 时 f(x) 单调递增,故 f(x) 在 x=2a 处取得最小值 fmin(x)=alog22a
(2)
不妨设 pi=P(xi),p1⩽p2⩽⋯⩽pn
定义操作 M 如下:
令 x=min(pi),y=max(pi),p=n1 ,则 x⩽p⩽y
若 p⩾2x+y ,则 p⩽y ,由 (1) 知 xlog2x+ylog2y⩾plog2p+(x+y−p)log2(x+y−p)
若 p⩽2x+y ,则 p⩾x ,由 (1) 知 xlog2x+ylog2y⩾plog2p+(x+y−p)log2(x+y−p)
即 xlog2x+ylog2y⩾plog2p+(x+y−p)log2(x+y−p)
由于 i=1∑n=1 仍成立,因此上面的步骤可以一直进行。
而每次操作都会产生一个 plog2p ,因此只需进行 n−1 次操作就有所有 pi 都被替换为 p
即 p1log2p1+p2log2p2+⋯+pnlog2pn=i=1∑npilog2pi⩾n⋅plog2p=log2n1
即 H(X)=−i=1∑npilog2pi⩽−log2n1=log2n
引理
若 i=1∑nai=r;ai,r>0 ,则 i=1∏naiai=a1a1a2a2⋯anan⩾(nr)r
证明:
命题等价于证明 i=1∑nailnai⩾rlnnr
令 bi=rai ,则 i=1∑nbi=1
则 i=1∑nailnai=r(i=1∑nbilnbi+lnri=1∑nbi)⩾rlnnr
参考
知乎苗华栋的回答
信息熵最大值的证明