微分熵

微分熵是消息理论中的一个概念，是从以离散随机变量所计算出的香农熵推广，以连续型随机变量计算所得之熵，微分熵与离散随机变量所计算出之香农熵，皆可代表描述一信息所需码长的下界，然而，微分熵与香农熵仍存在着某些相异的性质。

定义

令 $X$ 为一连续型随机变量，其几率密度函数为 $f_{X}(x)$ ，其中 $X$ 的支撑集为 $S=\{x\in X|f_{X}(x)>0}\$ 。微分熵 $h_{X}(x)$ :

$h_{X}(x)=-\int _{S}f_{X}(x)log(f_{X}(x))dx$ 。

与香农熵为模拟，计算香农熵之算式中的 $\log$ 通常以2为底，而微分熵为计算方便，常以 $ln$ 计算后再转换为 $log_{2}$ 的结果。微分熵与香农熵最大的不同点在于 $f_{X}(x)$ 可为大于1的数值，此时可能会造成 $h_{X}(x)$ 为负值，而香农熵 $H_{X}(x)$ 恒不为负。

例如， $X$ 为均匀分布 $U(0,a),a<1$ ：

$f_{X}(x)=$ $1 \over a$ $;h_{X}(x)=-\int \limits _{0}^{a}$ $1 \over a$ $ln$ $1 \over a$ $dx$

$h_{X}(x)=ln(a)$ $<0$

性质

相对熵恒正

与香农相对熵性质相同，恒正。

$-{\displaystyle D(f||g)=\int flog{g \over f}}$

$\leq log\int f{g \over f}$ (延森不等式)

$\leq 0$ 。

链式法则

一次观测所有随机变量所测得的联合熵，与个别接收随机变量后计算的条件熵总和相同，即观测顺序与间隔不影响微分熵。

$h(X_{1},X_{2},...,X_{n})=\sum _{k=1}^{n}h(X_{i}|X_{1},X_{2},...,X_{i-1})$ 。

平移

随机变量的平移不影响微分熵，因为固定的平移不会增加随机变量的方差。

$h(X+c)=h(X)$

缩放

将随机变量缩放会增加其方差，微分熵亦会随之增加。

$h(AX)=h(X)+log|det(A)|$

上界

期望值为0，方差为 $\sigma ^{2}$ 且值域为 $R$ 之随机变量 $X$ 的微分熵，其上界为常态分布 $N(0,\sigma ^{2})$ 的微分熵。

$h(X)\leq {1 \over 2}log(2\pi e\sigma ^{2})$

估计误差

随机变量 $X$ 与其估计子 ${\widehat {X}}$ 之均方误差存在下界，当 $X$ 为常态分布且 ${\widehat {X}}$ 为无偏估计子时，等号成立。

$E[(X-{\widehat {X}})^{2}]\geq {1 \over {2\pi e}}e^{2h(X)}$

渐进等分性

离散随机变量的香农熵中，独立同分布的随机变量串行，在渐进等分性(Asymptotic equipartition property)之下其几率质量函数 $p(X_{1},X_{2},...,X_{n})$ 趋近于 $2^{-nH(X)}$ 。

连续型随机变量之渐进等分性：

$-{1 \over n}log(f(X_{1},X_{2},...,X_{n}))\rightarrow h(X)$

典型集

典型集(Typical set)定义如下

$A_{\epsilon }^{(n)}=\{(x_{1},x_{2},...,x_{n})\in S^{n}:|-{1 \over n}logf(x_{1},x_{2},...,x_{n})-h(X)|\leq \epsilon }\$ , $\epsilon >0$

体积

集合包含于 $R^{n}$ , $A\subset R^{n}$ ，其体积(Volume) $Vol(A)$ 定义如下:

$Vol(A)=\int \limits _{A}dx_{1}dx_{2}...dx_{n}$ 。

典型集 $A_{\epsilon }^{(n)}$ 的体积有以下性质:

1. $Vol(A_{\epsilon }^{(n)})\leq 2^{n(h(X)+\epsilon )}$

2. $Vol(A_{\epsilon }^{(n)})\geq (1-\epsilon )2^{n(h(X)-\epsilon )}$

证明

1.

由 $-{1 \over n}log(f(X_{1},X_{2},...,X_{n}))\rightarrow h(X)$ ，

可得：

$1=\int _{S^{n}}f(x_{1},x_{2},...,x_{n})dx_{1}dx_{2}...dx_{n}$

$\geq \int _{A_{\epsilon }^{(n)}}f(x_{1},x_{2},...,x_{n})dx_{1}dx_{2}...dx_{n}$

$\geq \int _{A_{\epsilon }^{(n)}}2^{-n(h(X)+\epsilon )}dx_{1}dx_{2}...dx_{n}$

$=2^{-n(h(X)+\epsilon )}\int _{A_{\epsilon }^{(n)}}dx_{1}dx_{2}...dx_{n}$

$=2^{-n(h(X)+\epsilon )}Vol(A_{\epsilon }^{(n)})$

2.

当n足够大时， $Pr(A_{\epsilon }^{(n)})>1-\epsilon$ ，

因此：

$1-\epsilon \leq \int _{A_{\epsilon }^{(n)}}f(x_{1},x_{2},...,x_{n})dx_{1}dx_{2}...dx_{n}$

$\leq \int _{A_{\epsilon }^{(n)}}2^{-n(h(X)-\epsilon )}dx_{1}dx_{2}...dx_{n}$

$=2^{-n(h(X)-\epsilon )}\int _{A_{\epsilon }^{(n)}}dx_{1}dx_{2}...dx_{n}$

$=2^{-n(h(X)-\epsilon )}Vol(A_{\epsilon }^{(n)})$

量化

我们可以将几率密度函数量化后，以香农熵来计算微分熵。首先将连续随机变量X以 $\Delta$ 分为数个区间，根据均值定理， $x_{i}$ 满足：

$f(x_{i})\Delta =\int _{i\Delta }^{(i+1)\Delta }f(x)dx=p_{i}$

量化后的随机变量 $X^{\Delta }$ :

$X^{\Delta }=x_{i},i\Delta \leq X<(i+1)\Delta$

香农熵为:

$H(X^{\Delta })=-\sum _{-\infty }^{\infty }f(x_{i})\Delta log(f(x_{i}))-log\Delta$

意即，当 $\Delta \rightarrow 0$ ， $h(f)=h(X)$ 。

例子：

1.

对X做n比特量化 $X\sim U(0,{1 \over 8})$ 。

$H(X^{\Delta })=-3+n$

上式表示，若我们想得到n比特精确度，则需要n-3个比特来表示。

2.

对X做n比特量化 $X\sim N(0,{\sigma }^{2})$ 。

$H(X^{\Delta })={1 \over 2}log(2\pi e\sigma ^{2})+n$

上式表示，若我们想得到n比特精确度，需要 ${1 \over 2}log(2\pi e\sigma ^{2})+n$ 个比特来表示。

最大熵

常态分布

随机变量 $X$ ， $X_{N}$ 值域为 $(-\infty ,\infty )$ ，方差为 $\sigma ^{2}$ ， $X$ 为任意分布， $X_{N}$ 为常态分布，几率密度函数分别为 $f(x),g(x)$ 。

则 $h_{X}(X)\leq {1 \over 2}log(2\pi e\sigma ^{2})$

证明:

${\begin{aligned}0&\leq D(f||g)\\&=\int f(x)log({f(x) \over {g(x)}})dx\\&=-h(X)-\int f(x)log(g(x))dx\\&=-h(X)+h(x)\end{aligned}}$

其中，

${\begin{aligned}-\int _{-\infty }^{\infty }f(x)log(g(x))dx&=-\int _{-\infty }^{\infty }f(x)({1 \over 2}log(2\pi \sigma ^{2})+{1 \over 2}({{x-\mu } \over \sigma })^{2})dx\\&={1 \over 2}log(2\pi e\sigma ^{2})\end{aligned}}$

指数分布

随机变量 $X$ ， $Y$ 值域为 $(0,\infty )$ ，期望值为 $\lambda$ ， $X$ 为任意分布， $Y$ 为指数分布，几率密度函数分别为 $f(x),g(x)$ 。

则 $h_{X}(X)\leq 1+log\lambda$ 。

证明:

${\begin{aligned}0&\leq D(f||g)\\&=\int f(x)log({f(x) \over {g(x)}})dx\\&=-h(X)-\int f(x)log(g(x))dx\\&=-h(X)+h(Y)\end{aligned}}$

其中，

${\begin{aligned}-\int \limits _{0}^{\infty }f(x)log(g(x))dy&=-\int \limits _{0}^{\infty }f(x)(log\lambda +{x \over \lambda })dx\\&=1+log\lambda \end{aligned}}$

参考文献

Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 1991 John Wiley & Sons, Inc, 1971. ISBN 0-471-20061-1

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

微分熵

定义

相关计算

条件熵

相对熵

互信息

性质

相对熵恒正

链式法则

平移

缩放

上界

估计误差

渐进等分性

渐进等分性

典型集

体积

量化

例子：

最大熵

常态分布

指数分布

参考文献