1.RNN的引出(槽位填充问题)

  • 槽位填充问题
      槽位填充问题:如下图所示,在售票系统中需要将客户的一句话中的信息提取出来填充到对应的槽位下:

循环神经网络|深度学习(李宏毅)(五)

  • 词的表示方法
  1. 1-of-N Encoding(独热编码)
      在知道总共有几个词的情况下使用。

循环神经网络|深度学习(李宏毅)(五)

  1. Beyond 1-of-N encoding

2.1 为独热编码增加“other”维度循环神经网络|深度学习(李宏毅)(五)

2.2 Word hashing
  词向量的每一个维度表示一个序列,如果词中出现该序列则标记为1。

循环神经网络|深度学习(李宏毅)(五)

  • 使用前馈神经网络解决槽位填充问题
      按照解决多分类问题的思路使用前馈神经网络来解决槽位填充问题,但是使用前馈神经网络有一定的局限性。
      输入:词向量
      输出:该词属于某一槽位的概率

循环神经网络|深度学习(李宏毅)(五)

  • 使用前馈神经网络存在的问题

循环神经网络|深度学习(李宏毅)(五)

循环神经网络|深度学习(李宏毅)(五)

  由上图可知,Taipei一词属于哪一个槽位还与其上下文有关,因此解决该问题的神经网络需要具有记忆,由此引入了具有记忆的神经网络——循环神经网络(RNN)。

2.循环神经网络(本小节指的是简单RNN)

  • RNN直观的架构
      循环神经网络相当于在全连接网络的隐藏层加入多个“memory”节点,隐藏层的输出值被保存在memory中,由此完成了“记忆”的过程,隐藏层的输入除了输入层的输入以外还包括memory中保存的数据,隐藏层的输出除了要传播到输出层以外还会用于更新memory中的值。其简单的架构图如下:

循环神经网络|深度学习(李宏毅)(五)

  • RNN详细的架构

循环神经网络|深度学习(李宏毅)(五)

  循环网络在每一时间t有相同的网络结构,假设输入x为n维向量,隐含层的神经元个数为m,输出层的神经元个数为r,则U的大小为n×m维;W是上一次的at1a_{t-1}作为这一次输入的权重矩阵,大小为m×m维;Ⅴ是连输出层的权重矩阵,大小为m×r维。而xtx_tata_toto_t都是向量,它们各自表示的含义如下:

  1. xt是时刻t的输入;
  2. ata_t是时刻t的隐层状态。它是网络的记忆。ata_t基于前一时刻的隐层状态和当前时刻的输入进行计算,即ata_t=f(Uxtx_t+Wat1a_{t-1})。函数f通常是非线性的,如tanh或者ReLU。at1a_{t-1}为前一个时刻的隐层状态,其初始化通常为0;
  3. oto_t是时刻t的输出。例如,如果我们想预测句子的下一个词,它将会是一个词汇表中的概率向量,oto_t=softmax(Vata_t);ata_t认为是网络的记忆状态,ata_t可以捕获之前所有时刻发生的信息。输出oto_t的计算仅仅依赖于时刻t的记忆。
  • 使用循环神经网络解决槽位填充问题
      将每个词向量输入到RNN中,得到的每一个输出向量表示对应的词属于某一个槽位的概率。

循环神经网络|深度学习(李宏毅)(五)

  回到上文中提到的“arrive”和“leave”问题,由于这两个词的词向量是不同的,因此在获得“Taipei”一词的输出时就不会像前馈神经网络一样得到相同的结果,说明网络的记忆为解决需要考虑上下文的槽位填充问题提供了可能。

循环神经网络|深度学习(李宏毅)(五)

  • 深层RNN
      RNN也可以“deep”,将RNN叠加到一起可以形成深层的RNN。

循环神经网络|深度学习(李宏毅)(五)

  • RNN变种
  1. Elman Network
      上述RNN为Elman Network架构,其主要特点是将隐藏层的输出保存在memory中传给下一个时间点。

循环神经网络|深度学习(李宏毅)(五)

  1. Jordan Network
      与Elman Network不同的是Jordan Network是将网络的输出层的输出保存在memory中传给下一个时间点。这样同Elman Network比起来我们更清楚memory中保存了什么。

循环神经网络|深度学习(李宏毅)(五)

  1. Bidirectional RNN(RNN)
      在Elman Network和Jordan Network中网络的某一个输出值只取决于这个输出对应的输入以及这个输入之前的输入的影响,而双向RNN的每一个输出值都会受到所有的输入的影响,真正地考虑了“上下文”。

循环神经网络|深度学习(李宏毅)(五)

3.Long Short-term Memory (LSTM 长短期记忆网络)

  在简单RNN中某一个时间点的memory会直接全部清洗掉上一个时间点的memory,而在LSTM中由于加入了遗忘门使得网络的上一个时间点的memory有机会根据遗忘门的值来保留下一部分。

  • LSTM直观的架构
      LSTM的一个cell有4个输入和一个输出,输入包括3个门结构(输入门、输出门、遗忘门)以及cell的输入,其简单架构图如下:

循环神经网络|深度学习(李宏毅)(五)

  门结构的值通常使用sigmoid函数作为**函数,因此其值均会在0-1之间。cell的输入会与输入门的值进行相乘来决定输入有多少可以进入cell,遗忘门的值决定原来的memory cell中的“记忆”有多少可以被保留,输入门的值决定cell中的值有多少可以输出。其具体的传播过程如下图,其中f(ziz_i)、f(zfz_f)、f(zoz_o)为门结构的输出值:

循环神经网络|深度学习(李宏毅)(五)

  上图与常见的LSTM架构图的对应关系如下图所示,首先要将t时刻的输入向量xtx^t成以四个不同的权重矩阵得到四个相同维度的向量zfz_fziz_izzzoz_o,这四个向量分别对应下图右半部分的较直观的架构图中cell的四个输入:

循环神经网络|深度学习(李宏毅)(五)

  • LSTM详细的架构
      下图展示了一个LSTM cell的细节,在这个图中将上一个时间点的输出向量与当前时间点的输入向量拼接到一起作为当前时间点的输入:

循环神经网络|深度学习(李宏毅)(五)

  • LSTM cell不同时间点之间的关系
      LSTM会以下图的连接方式连接不同的时间点:

循环神经网络|深度学习(李宏毅)(五)

  然而上图并非LSTM的最终状态,LSTM还会把上一个时间点的输出以及存在memory cell中的值与当前时间点的输入拼接到一起,通过这种方式使得操控LSTM四个输入的时候同时考虑了当前时间点的输入、上一个时间点的输出以及保存在memory cell中的值:

循环神经网络|深度学习(李宏毅)(五)

  • 深层LSTM
      LSTM也可以“deep”,将LSTM叠加到一起可以形成深层的LSTM。

循环神经网络|深度学习(李宏毅)(五)

参考资料

ref:吴茂贵《Python深度学习:基于TensorFlow》