本文基于维基百科相关词条整理

定义

信息论中,熵(entropy)代表了消息中所包含的信息的平均量,是不确定性的度量。
熵$H(X) = E[I(X)] = E[-ln(P(X))]$
其中P为随机变量X的概率质量函数,E为期望,I(X)代表X的信息量。
当X为离散随机变量时,可以写成:$H(x) = \sum_{i}P(x_i)\log_2{P(x_i)}$

条件熵

定义

对应于条件概率,条件熵描述了在已知随机变量X的值的前提下,随机变量Y的信息量有多少。其中$\mathcal{X},\mathcal{Y}$分别代表随机变量X和Y的定义域。
$$
\begin{aligned}
H(Y|X) &= \sum_{x\in\mathcal{X}}p(x)H(Y|X=x) \\
&= -\sum_{x\in\mathcal{X}}{p(x)}\sum_{y\in\mathcal{Y}}{p(y|x)\log_2{p(y|x)}} \\
&= \sum_{x\in\mathcal{X},y\in\mathcal{Y}}{p(x,y)\log_2{\frac{p(x)}{p(x,y)}}} \\
\end{aligned}
$$
当且仅当Y的值完全由X决定时,条件熵H(Y|X)=0。同理,若Y和X互相独立,则条件熵H(Y|X) = H(Y)。

链式法则

假设两个随机变量X和Y确定的组合系统的联合熵为H(X,Y)。现在,若先观测X的值,得到H(X)bits的信息。已知了X,则只需要H(X,Y)-H(X)bits的信息就可以描述整个系统状态。则条件熵的链式法则为:
$$H(Y|X) = H(X,Y) - H(X)$$

贝叶斯规则

由链式法则可得条件熵的贝叶斯规则表述为:
$$H(Y|X) = H(X|Y) - H(X) + H(Y)$$

相对熵 / KL散度

定义

相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence, KLD),信息散度(information divergence),信息增益(information gain)。
KL散度是两个概率分布P和Q之间差别的非对称性度量。KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下,P表示数据真实分布,Q表示数据理论分布,模型分布,或P的近似分布。
对于离散随机变量,其概率分布P和Q的KL散度为:
$$D_{KL}(P||Q)=-\sum_{i}{P(i)\ln\frac{Q(i)}{P{i}}}$$

特性

由吉布斯不等式,相对熵非负$D_{KL}(P||Q)>=0$

吉布斯不等式:
若$\sum_{i=1}^{n}{p_i}=\sum_{i=1}^{n}{q_i}=1$,且$p_i,q_i\in(0,1]$,则
$$-\sum_{i=1}^{n}{p_i\log{p_i}}\leq-\sum_{i=1}^{n}{p_i\log{q_i}}$$
当且仅当$\forall{i}, p_i=q_i$

KL散度并非为真正的度量或距离函数,因为它不具备对称性。

交叉熵

基于概率分布p和q的交叉熵定义为:
$$H(p,q) = E_p[-\log{q}] = H(p)+D_{KL}(p||q)$$
对于离散分布p和q,则可以写成:
$$H(p,q) = -\sum_{x}{p(x)\log{q(x)}}$$