循环神经网络和LSTM

循环神经网络

定义

循环神经网络（Recurrent Neural Network, RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network）

应用领域

RNN的应用领域有很多, 可以说只要考虑时间先后顺序的问题都可以使用RNN来解决.这里主要说一下几个常见的应用领域:

自然语言处理(NLP): 主要有视频处理, 文本生成, 语言模型, 图像处理
机器翻译, 机器写小说
语音识别
图像描述生成
文本相似度计算
音乐推荐、网易考拉商品推荐、Youtube视频推荐等新的应用领域.

模型结构

循环神经网络和LSTM

问题

RNN存在梯度消失和梯度爆炸问题（BP算法和长时间依赖造成的）：
循环神经网络和LSTM
RNN的算法, 它处理时间序列的问题的效果很好, 但是仍然存在着一些问题, 其中较为严重的是容易出现梯度消失或者梯度爆炸的问题(BP算法和长时间依赖造成的). 注意: 这里的梯度消失和BP的不一样,这里主要指由于时间过长而造成记忆值较小的现象.
因此, 就出现了一系列的改进的算法, 这里介绍主要的两种算法: LSTM 和 GRU.
LSTM 和 GRU对于梯度消失或者梯度爆炸的问题处理方法主要是:
对于梯度消失: 由于它们都有特殊的方式存储”记忆”，那么以前梯度比较大的”记忆”不会像简单的RNN一样马上被抹除，因此可以一定程度上克服梯度消失问题。
对于梯度爆炸:用来克服梯度爆炸的问题就是gradient clipping，也就是当你计算的梯度超过阈值c或者小于阈值-c的时候，便把此时的梯度设置成c或-c

LSTM

基本概念

循环神经网络和LSTM
Long Short Term Memory networks（以下简称LSTMs），一种特殊的RNN网络，该网络设计出来是为了解决长依赖问题。该网络由 Hochreiter & Schmidhuber (1997)引入，并有许多人对其进行了改进和普及。他们的工作被用来解决了各种各样的问题，直到目前还被广泛应用。

所有循环神经网络都具有神经网络的重复模块链的形式。在标准的RNN中，该重复模块将具有非常简单的结构，例如单个tanh层。标准的RNN网络如下图所示
循环神经网络和LSTM
LSTMs也具有这种链式结构，但是它的重复单元不同于标准RNN网络里的单元只有一个网络层，它的内部有四个网络层。LSTMs的结构如下图所示。

循环神经网络和LSTM

在解释LSTMs的详细结构时先定义一下图中各个符号的含义，符号包括下面几种

循环神经网络和LSTM
图中黄色类似于CNN里的**函数操作，粉色圆圈表示点操作，单箭头表示数据流向，箭头合并表示向量的合并（concat）操作，箭头分叉表示向量的拷贝操作

核心思想

LSTMs的核心是细胞状态，用贯穿细胞的水平线表示。

细胞状态像传送带一样。它贯穿整个细胞却只有很少的分支，这样能保证信息不变的流过整个RNNs。细胞状态如下图所示
循环神经网络和LSTM
LSTM网络能通过一种被称为门的结构对细胞状态进行删除或者添加信息。

门能够有选择性的决定让哪些信息通过。其实门的结构很简单，就是一个sigmoid层和一个点乘操作的组合。如下图所示

循环神经网络和LSTM

因为sigmoid层的输出是0-1的值，这代表有多少信息能够流过sigmoid层。0表示都不能通过，1表示都能通过。

一个LSTM里面包含三个门来控制细胞状态。

前面提到LSTM由三个门来控制细胞状态，这三个门分别称为忘记门Forget、输入门Input和输出门Output。下面一个一个的来讲述。

LSTM的第一步就是决定细胞状态需要丢弃哪些信息。这部分操作是通过一个称为忘记门的sigmoid单元来处理的。它通过查看h_t-1和x_t信息来输出一个0-1之间的向量，该向量里面的0-1值表示细胞状态C_t-1中的哪些信息保留或丢弃多少。0表示不保留，1表示都保留。忘记门如下图所示。
循环神经网络和LSTM
下一步是决定给细胞状态添加哪些新的信息。这一步又分为两个步骤，首先，利用h_t-1和x_t通过一个称为输入门的操作来决定更新哪些信息。然后利用h_t-1和x_t通过一个tanh层得到新的候选细胞信息，这些信息可能会被更新到细胞信息C_t中。这两步描述如下图所示。
循环神经网络和LSTM
下面将更新旧的细胞信息C_t-1，变为新的细胞信息C_t。更新的规则就是通过忘记门选择忘记旧细胞信息的一部分，通过输入门选择添加候选细胞信息C_t的一部分得到新的细胞信息C_t。更新操作如下图所示

更新完细胞状态后需要根据输入h_t-1的x_t和来判断输出细胞的哪些状态特征，这里需要将输入经过一个称为输出门的sigmoid层得到判断条件，然后将细胞状态经过tanh层得到一个-1~1之间值的向量，该向量与输出门得到的判断条件相乘就得到了最终该RNN单元的输出。该步骤如下图所示
循环神经网络和LSTM