殊途同归的算法,本文将从数学,概率和信息论的角度来说明常见的几种机器学习算法都是等价的。一定程度上 最大熵模型(Maximum Entopy :MaxEnt),逻辑回归(Logit Regression),softmax 回归,

对数线性模型, 广义线性模型(指数模型), energy-based model, Boltzmann distribution, conditional random field 等都是等价的(参见Quora上Jason Eisner的回答) 。 对于一个监督学习的分类问题,我们常常从概率模型切入。即设X是输入空间的一个随机变量,Y是输出空间的随机变量,通常\(Y=\{c_1,c_2,\ldots,c_K\}\), 其中K大于等于2。监督学习的目的是得到条件概率分布:

\[P(Y|X)
\]

对给定的输入,预测相应的输出,并选取概率最大的那个类作为新输入的类别。

在聊各种模型之前,先来看看熵和似然函数

最大熵和极大似然估计

从信息论的角度来看世界,一切都是由0和1组成的,我们称一个信息所占用的二进制位的单位为bit。如果一个离散的随机变量X有n种可能,那么一般来讲最多需要log n 个bit位来表示。

熵度量的是某个事件的不确定性程度,大部分事件在最初的时候都是不确定的,比如明天的天气、某场比赛的结果,彩票的中奖号码等等。这都是一个一个的黑盒子,而熵度量的就是需要用多少bit来表示这种不确定性大小。在二进制世界,n个bit位可以表示\(2^n\)种可能,bit位数越大,说明不确定性程度越大,我们举一个找砝码的例子:

假设有8个砝码,其中有一个砝码的重量跟其他的不一样。问,如果给你一台天平,那么需要称几次才能确定这个砝码。其实如果不问具体的测量过程,那这种问题超级好解,即我们只需要知道需要几个bit位来度量这个黑盒子,而这里有8个砝码,即有8种可能。说明我们测量的结果必须表示出所有的可能。又我们知道每次称重只有两种可能,那么显然三次称重就有了8种可能,即只需要三次。

定义:设X是一个取有限个值的离散随机变量,且其概率分布为:

\[P(X=x_i)=p_i, \quad, i=1,2,\ldots,n
\]

则随机变量X的熵定义为:

\[H(X)=-\sum_{i=1}^{n} p_i \log p_i
\]

从测度论角度,熵可以看成是$-\log X $的期望。 再来看似然函数,似然函数刻画的是样本与真实事件之间的吻合度。同样考虑离散随机变量X,假设我们有m组样本(以抛硬币为例),正正反反正正反......,又设抛硬币出现正的概率为p,则该样本出现的可能性为:

\[L(p)=pp(1-p)(1-p)pp(1-p)\cdots=p^{\mbox{样本中正的个数}} (1-p)^{\mbox{样本中反的个数}}
\]

未完待续