“熵”不起：从熵、最大熵原理到最大熵模型

引言

“熵”最初是热力学中的一个概念，之前关于决策树算法的部分涉及到一部分熵的知识，上世纪40年代，香农首先在信息论中引入了信息熵的概念。信息熵用来表示不确定度的度量，不确定度越大，熵值越大。极限情况，当一个随机变量均匀分布时，熵值最大；完全确定时，熵值为0。

什么是最大熵原理呢？我们常常讲不要把所有鸡蛋放在一个篮子里，这样可以降低风险，这其实就是最大熵原理的一个朴素说法，因为当我们遇到不确定性时，就要保留各种可能性。在信息处理中，这个原理同样适用。在数学上，这个原理被称为最大熵原理（the maximum entropy principle）。同样的，当我们在回答，扔一个色子的时候，每个面朝上的概率分别是多少？所有人都会回答说是$\frac{1}{6}$。这个回答是正确的，但是为什么是$\frac{1}{6}$而不是其他呢？这里就应用到最大熵原理。对这个“一无所知”的色子，假定每一面朝上的概率相同是最保险的做法。从信息论的角度来解释，就是保留了最大的不确定性，也就是让熵达到最大。

最大熵原理指出，当我们需要对一个随机事件的概率分布进行预测的时候，我们的预测应当满足已知的条件，而对未知的情况不做任何主观的假设。在这种情况下，概率分布最均匀，预测的风险最小。因为这时候概率分布的信息熵最大，所以人们称这种模型为“最大熵模型”。

最大熵模型是由最大熵原理推导实现。在这篇文章中的提纲如下：

预备知识
- 什么是熵 ( Entropy )
- 常见的「熵」
- 贝叶斯定理
- 拉格朗日乘数
- 最大似然估计
最大熵原理
最大熵模型
最大熵模型求解
最大熵模型算法实战
最大熵模型小结

预备知识

什么是熵

熵的概念最早起源于物理学，用于度量一个热力学系统的无序程度。后由香农引入到信息论中，在信息论和概率统计中，熵用来表示随机变量不确定性的度量。

熵是根据已知的知识进行建模，而对未知的的不作任何假设。熵是对「不确定性」的量度，比较不可能发生的事情，当它发生了，会提供更多的信息。也就是说，当信息源越随机，它的「熵」越大。

这部分其实在前面的文章中有过形象化的说明，这里不再细说。

具体的，随机变量X的熵的表达式如下：

$H(X) = -\sum\limits_{i=1}^{n}p_i logp_i$

其中$n$代表$X$的$n$种不同的离散取值。而$p_i$代表了$X$取值为$i$的概率，$log$为以2或者$e$为底的对数。当$p_i=0$时，定义$0log0=0$。

连续变量的表达式如下：

$S=-\sum_x p(x)\log p(x)$

或：

$S=-\int p(x)\log p(x) dx$

常见的熵

联合熵
熟悉了一个变量X的熵，很容易推广到多个变量的联合熵，这里给出两个变量X和Y的联合熵表达式：

$H(X,Y) = -\sum\limits_{i=1}^{n}p(x_i,y_i)logp(x_i,y_i)$

条件熵
有了联合熵，又可以得到条件熵的表达式$H(Y|X)$，条件熵类似于条件概率，描述了在已知第二个随机变量 $X$的值的前提下，随机变量 $Y$的信息熵还有多少。。表达式如下：

$H(Y|X) = -\sum\limits_{i=1}^{n}p(x_i,y_i)logp(y_i|x_i) = \sum\limits_{j=1}^{n}p(x_j)H(Y|x_j)$

交叉熵

相对熵与互信息