殊途同归的机器学习算法

2023年4月13日上午12:20 • 机器学习

序

殊途同归的算法，本文将从数学，概率和信息论的角度来说明常见的几种机器学习算法都是等价的。一定程度上最大熵模型（Maximum Entopy ：MaxEnt），逻辑回归（Logit Regression），softmax 回归，

对数线性模型，广义线性模型（指数模型）， energy-based model, Boltzmann distribution, conditional random field 等都是等价的(参见Quora上Jason Eisner的回答）。对于一个监督学习的分类问题，我们常常从概率模型切入。即设X是输入空间的一个随机变量，Y是输出空间的随机变量，通常$Y=\{c_1,c_2,\ldots,c_K\}$, 其中K大于等于2。监督学习的目的是得到条件概率分布：

\[P(Y|X)
\]

对给定的输入，预测相应的输出，并选取概率最大的那个类作为新输入的类别。

在聊各种模型之前，先来看看熵和似然函数

最大熵和极大似然估计

从信息论的角度来看世界，一切都是由0和1组成的，我们称一个信息所占用的二进制位的单位为bit。如果一个离散的随机变量X有n种可能，那么一般来讲最多需要log n 个bit位来表示。

熵度量的是某个事件的不确定性程度，大部分事件在最初的时候都是不确定的，比如明天的天气、某场比赛的结果，彩票的中奖号码等等。这都是一个一个的黑盒子，而熵度量的就是需要用多少bit来表示这种不确定性大小。在二进制世界，n个bit位可以表示$2^n$种可能，bit位数越大，说明不确定性程度越大，我们举一个找砝码的例子：

假设有8个砝码，其中有一个砝码的重量跟其他的不一样。问，如果给你一台天平，那么需要称几次才能确定这个砝码。其实如果不问具体的测量过程，那这种问题超级好解，即我们只需要知道需要几个bit位来度量这个黑盒子，而这里有8个砝码，即有8种可能。说明我们测量的结果必须表示出所有的可能。又我们知道每次称重只有两种可能，那么显然三次称重就有了8种可能，即只需要三次。

定义：设X是一个取有限个值的离散随机变量，且其概率分布为：

\[P(X=x_i)=p_i, \quad, i=1,2,\ldots,n
\]

则随机变量X的熵定义为：

\[H(X)=-\sum_{i=1}^{n} p_i \log p_i
\]

从测度论角度，熵可以看成是$-\log X $的期望。再来看似然函数，似然函数刻画的是样本与真实事件之间的吻合度。同样考虑离散随机变量X，假设我们有m组样本（以抛硬币为例），正正反反正正反......，又设抛硬币出现正的概率为p，则该样本出现的可能性为：

\[L(p)=pp(1-p)(1-p)pp(1-p)\cdots=p^{\mbox{样本中正的个数}} (1-p)^{\mbox{样本中反的个数}}
\]

未完待续

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：殊途同归的机器学习算法 - Python技术站