相对熵

KL散度Kullback-Leibler divergence,简称KLD[1],在消息系统中称为相对熵(relative entropy),在连续时间串行中称为随机性(randomness),在统计模型推断中称为消息增益(information gain)。也称消息散度(information divergence)。

KL散度是两个几率分布P和Q差别的非对称性的度量。 KL散度是用来度量使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布、估计的模型分布、或P的近似分布。[1]

定义

对于离散随机变量,其几率分布PQ的KL散度可按下式定义为

等价于

即按几率P求得的PQ对数商的平均值。KL散度仅当几率PQ各自总和均为1,且对于任何i皆满足时,才有定义。式中出现的情况,其值按0处理。

对于连续随机变量,其几率分布PQ的KL散度可按积分方式定义为 [2]

其中pq分别表示分布PQ的密度。

更一般的,若PQ为集合X的几率测度,且P关于Q绝对连续,则从PQ的KL散度定义为

其中,假定右侧的表达形式存在,则Q关于PR–N导数

相应的,若P关于Q绝对连续,则

即为P关于Q的相对熵。

特性

相对熵的值为非负数:

吉布斯不等式可知,当且仅当为零。

尽管从直觉上KL散度是个度量或距离函数, 但是它实际上并不是一个真正的度量或距离。因为KL散度不具有对称性:从分布PQ的距离通常并不等于从QP的距离。


KL散度和其它量的关系

自信息和KL散度


互信息和KL散度


信息熵和KL散度


条件熵和KL散度


交叉熵和KL散度

参考文献

  1. Kullback, S.; Leibler, R. A. . The Annals of Mathematical Statistics. 1951-03, 22 (1) [2022-08-15]. ISSN 0003-4851. doi:10.1214/aoms/1177729694. (原始内容存档于2022-08-18).
  2. C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.