接触机器学习和深度学习已经有一年多时间,曾经自以为已经对交叉熵的概念已经很熟悉了,日常涉猎的都是一些更高层面的针对特定问题的DL/ML算法。然而最近研究多轮对话接触到vhred以及其他变分模型的时候,才发现自己对交叉熵、KL散度的概念并不够清楚,甚至还存在一些误解。借此机会重新整理一下交叉熵的内容。（以下论述主要是一些通俗理解，追求数学严谨的同学请移步）

交叉熵是信息论中的一个概念，要想了解交叉熵的本质，就需要从最基本的概念说起。

1.信息量

假设 $X$ 是一个离散型随机变量，其取值集合为 $\chi$，概率分布函数 $p(x)=P(X=x), x \in \chi$，则定义事件 $X=x_0$ 的信息量为：

$I(x_0)=- \log (p(x_0))$

直观来看，信息量和事件发生的概率有关，越不可能发生的事件发生了，我们获取到的信息量就越大，而那些司空见惯的事发生了，我们获取到的信息量就很少，即信息量可以表示一个事件的自信息量。从另一角度看，信息量也可以衡量一个事件的不确定度，也就是说我们需要加入多少信息才能将该事件的发生确定下来，事件的不确定性越大，信息量也就越大，把它搞清楚所需要的信息量也就越大。

2.信息熵

信息熵是随机变量的信息量的期望：

$H(X) = - {\sum}_{i=1}^n p(x_i) \log (p(x_i))$

广义的熵可以衡量一个系统的有序化程度（或混乱程度），可以证明，一个系统越是混乱不确定（均匀分布），熵就越大。信息熵用于衡量数据的信息量时，可以得到对数据进行编码所需的最短平均编码长度，当平均编码长度大于信息熵时可以认为编码存在冗余。

3. KL散度（相对熵）

如果我们对于同一个随机变量 $X$ 有两个单独的概率分布 $P(X)$ 和 $Q(X)$，我们可以使用KL散度来衡量这两个分布的差异（不是距离，因为不具备对称性！）

$KL(p \mid \mid q)= {\sum}_{i=1}^n p(x_i) \log (\frac{p(x_i)}{q(x_i)})$

在机器学习中，$KL(P \mid \mid Q)$ 通常用来描述使用真实分布 $P$ 取代估计分布 $Q$ 时的信息增益。

KL散度的值越小，表示 $P$ 分布和 $Q$ 分布越接近。

（这里还有对KL散度的另一种解读：KL散度的意义是“额外所需的编码长度”如果我们用B的编码来表示A）

4. 交叉熵

直接给出公式：

$\begin{aligned} H(p, q) &= {\sum}_{i=1}^n p(x_i) \log (\frac{1}{q(x_i)})\\ &= - {\sum}_{i=1}^n p(x_i) \log q(x_i) \end{aligned}$

可以发现 $KL(p \mid \mid q) = H(p,q)-H(p)$，在机器学习中，我们需要评估某个样本的label和predicts之间的差距，使用KL散度刚刚好，由于KL散度中的 $H(p)$ 一直保持不变，故优化中只需要关注交叉熵即可。

重点开始：深度学习/机器学习中大部分任务都可以看作分类任务，我们这里说的分布 $p$ 和分布 $q$ 是针对对数据集中的某一个样本 $x$ 的label而言，而不是整个数据集中的所有样本的label分布。我们的任务是训练一个函数，向函数中输入一个样本 $x$ 可以得到其label的概率分布列 $\vec{P}(Y=y \mid x)$，训练的目标是对每个已观测到的样本 $(x,y)$，通过这个函数计算出的label分布列都要和观测的真实分布列尽可能接近。对于每个样本 $x$ 只有一种确定的label的情况（通常情况如此），其真实概率分布列 $p$ 其实是一个形如 $[0,1,0,0,0]$ 的向量，其信息熵 $H(p)$ 通过公式计算的结果为0（这也印证了对于已观测到的样本，其label的概率分布已知，不确定度为0），可以认为深度学习/机器学习中对常见分类任务使用的交叉熵其实就是”退化“的KL散度；由于样本真实概率分布 $p$ 为形如 $[0,1,0,0,0]$ 的向量，交叉熵 $H(p,q)$ 也只剩下真实概率分布中数值为1对应的项，此时交叉熵就完全等价于极大对数似然估计了，其优化目标是最大化已观测样本的 $(x,y)$ 的出现概率。