初遇信息熵 Information Entropy

前言

这篇文章最初写于 2022 年 2 月 22 日。2023 年 9 月 24 日初次改写为博文。

过程不太严谨,但一定程度上反映了我的思考。只进行了部分格式修正以适应博文格式,未进行内容的修改。

引子问题

信息学之父香农定义随机变量 XX信息熵 H(X)=i=1nP(xi)log2P(xi)H(X)={\displaystyle -\sum_{i=1}^{n} P(x_i)\log_2 P(x_i)} ,其中 xix_i 为基本事件,nn 为基本事件的个数,P(xi)P(x_i) 为基本事件 xix_i 的概率。例如「抛一次硬币」的信息熵 H(X)=(12log212+12log212)=1H(X)=-\left(\dfrac{1}{2}\log_2 \dfrac{1}{2}+\dfrac{1}{2}\log_2 \dfrac{1}{2}\right)=1
(1) 若 x+y=a(x,y,a>0)x+y=a\quad (x,\,y,\,a>0) ,证明:xlog2x+ylog2yalog2a2x\log_2 x+y\log_2 y\ge a\log_2 \dfrac{a}{2}
(2) 证明:H(X)log2nH(X)\le \log_2 n

解答

(1)
y=ax,f(x)=xlog2x+ylog2y=xlog2x+(ax)log2(ax)y=a-x,\,f(x)=x\log_2 x+y\log_2 y=x\log_2 x+(a-x)\log_2 (a-x)

f(x)=1ln2(log2x+1log2(ax)1)=log2(xax)ln2f'(x)=\dfrac{1}{\ln 2}\left(\log_2x+1-\log_2(a-x)-1\right)=\dfrac{\log_2\left(\dfrac{x}{a-x}\right)}{\ln 2}

分析知当 x(0,a2)x\in \left\lparen 0, \dfrac{a}{2}\right\rparenf(x)f(x) 单调递减,当 x(a2,a)x \in \left\lparen \dfrac{a}{2}, a\right\rparenf(x)f(x) 单调递增,故 f(x)f(x)x=a2x=\dfrac{a}{2} 处取得最小值 fmin(x)=alog2a2f_{\min }(x)=a\log_2 \dfrac{a}{2}

(2)
不妨设 pi=P(xi),p1p2pnp_i=P(x_i),\,p_1\le p_2\le \cdots \le p_n

定义操作 MM 如下:

x=min(pi),y=max(pi),p=1nx=\min (p_i),\,y=\max (p_i),\,p=\dfrac{1}{n} ,则 xpyx\le p\le y

px+y2p\ge \dfrac{x+y}{2} ,则 pyp\le y ,由 (1) 知 xlog2x+ylog2yplog2p+(x+yp)log2(x+yp)x\log_2x+y\log_2y\ge p\log_2p+(x+y-p)\log_2(x+y-p)

px+y2p\le \dfrac{x+y}{2} ,则 pxp\ge x ,由 (1) 知 xlog2x+ylog2yplog2p+(x+yp)log2(x+yp)x\log_2x+y\log_2y\ge p\log_2p+(x+y-p)\log_2(x+y-p)

xlog2x+ylog2yplog2p+(x+yp)log2(x+yp)x\log_2x+y\log_2y\ge p\log_2p+(x+y-p)\log_2(x+y-p)

由于 i=1n=1{\displaystyle \sum_{i=1}^{n}=1} 仍成立,因此上面的步骤可以一直进行。

而每次操作都会产生一个 plog2pp\log_2p ,因此只需进行 n1n-1 次操作就有所有 pip_i 都被替换为 pp

p1log2p1+p2log2p2++pnlog2pn=i=1npilog2pinplog2p=log21np_1\log_2p_1+p_2\log_2p_2+\cdots +p_n\log_2p_n={\displaystyle \sum_{i=1}^{n}p_i\log_2p_i\ge n\cdot p\log_2p=\log_2 \dfrac{1}{n}}

H(X)=i=1npilog2pilog21n=log2nH(X)=-{\displaystyle \sum_{i=1}^{n}p_i\log_2p_i}\le -\log_2 \dfrac{1}{n}=\log_2n

引理

i=1nai=r;  ai,r>0{\displaystyle \sum_{i=1}^{n}a_i=r;\;a_i,\,r> 0} ,则 i=1naiai=a1a1a2a2anan(rn)r{\displaystyle \prod_{i=1}^{n}a_i^{a_i}=a_1^{a_1}a_2^{a_2}\cdots a_n^{a_n}\ge \left(\dfrac{r}{n}\right)^r}

证明:
命题等价于证明 i=1nailnairlnrn{\displaystyle \sum_{i=1}^{n}a_i\ln a_i\ge r\ln \dfrac{r}{n}}

bi=airb_i=\dfrac{a_i}{r} ,则 i=1nbi=1{\displaystyle \sum_{i=1}^{n}b_i}=1

i=1nailnai=r(i=1nbilnbi+lnri=1nbi)rlnrn{\displaystyle \sum_{i=1}^{n}a_i\ln a_i = r\left(\sum_{i=1}^{n}b_i\ln b_i + \ln r\sum_{i=1}^{n}b_i\right)\ge r\ln \dfrac{r}{n}}

参考

知乎苗华栋的回答
信息熵最大值的证明