1. 张量

从代数角度讲,张量可以看作是向量的推广。标量可以看作是0阶张量,向量可以看作1阶张量,矩阵可以看作2阶张量,n阶张量可以看成一个n维数组。
Reference:

2. 导数,微分和偏导数的区别

\(k\)为斜率,\(dy\)为纵坐标的增量,\(dx\)是横坐标的增量,那么简单地讲,导数就是斜率\(k=\frac{dy}{dx}\),微分就是是增量\(dy=kdx\)
偏导数主要是研究多元函数的导数。比方说,一元函数一个\(y\)对应 一个\(x\),只有一个导数,二元函数一个\(z\)对应一个\(x\)和一个\(y\),则有两个导数,一个是\(z\)\(x\)的导数,一个是\(z\)\(y\)的导数,称之为偏导数。

3. 信息熵,交叉熵和相对熵

信息熵

信息熵的公式为

\[H(X)=-\sum_{x\in X}p(x)log(p(x))
\]

我们用\(log(1/p(x))\)来衡量事情发生的不确定性的大小,其中\(p(x)\)是事件\(x\)发生的概率,\(p(x)\)越大,不确定性越小。信息熵的公式其实是\(log(1/p(x))\)的期望(对于每一个\(x\),计算\(log(1/p(x))=-log(p(x))\),然后再乘以\(x\)发生的概率\(p(x)\),将所有\(x\)的计算结果加起来,即为\(log(1/p(x))\)的期望),信息熵越大,不确定性越大,信息熵越小,不确定性越小。注意其中有个假设,就是服从\(X\)分布的\(x\)是相互独立的。\(log\)的底一般只要大于1即可,一般默认为2,因为信息论中二进制用的比较多。

交叉熵

假设一个数据集有两个概率分布\(p\)\(q\),其中\(p\)是真实概率分布,\(q\)是非真实概率分布。根据香浓信息量的定义,基于真实概率分布\(p\)的信息量为\(log(1/p)\),平均编码长度为:\(H(p)=\sum plog(1/p)=-\sum plog(p)\),也就是信息熵。基于非真实概率分布\(q\)的信息量为\(log(1/q(x))\),用非真实概率分布\(q\)表示来自真实分布\(p\)的样本的平均编码长度为:\(H(p,q)=\sum plog(1/q)=-\sum plog(q)\)\(H(p,q)\)即为交叉熵。设在机器学习中使用sigmoid函数作为激活函数,那么在求梯度下降时,若使用均方误差作为损失函数,则其学习速率会不断下降,而使用交叉熵作为损失函数则可以避免这个问题,因为其学习速率由两种概率分布之间的差别控制。

相对熵

一般来说,交叉熵\(H(p,q)\geq\)信息熵\(H(p)\)(当\(p=q\)时等号成立)。相对熵是交叉熵和信息熵的差,即\(D(p||q)=H(p,q)-H(p)\)。因为基于真实分布\(p\)的信息熵\(H(p)\)一般是确定的,所以相对熵\(D(p||q)\)可以由交叉熵\(H(p,q)\)确定,故一般来说,相对熵也可以叫做交叉熵。相对熵一般又叫KL散度(Kullback-Leibler divergence)。相对熵用来衡量两种函数或概率分布的相似性。相对熵越小,两种函数或概率分布越相似;相对熵越大,两种函数或概率分布差别越大。

  1. https://zhidao.baidu.com/question/183349740.html
  2. https://zh.wikipedia.org/wiki/張量
  3. https://zhidao.baidu.com/question/1512490450334812140.html
  4. https://zhidao.baidu.com/question/648661399387080885.html
  5. https://www.cnblogs.com/liaohuiqiang/p/7673681.html
  6. https://blog.csdn.net/tsyccnh/article/details/79163834
  7. https://www.zhihu.com/question/41252833