RNN循环神经网络简介

1.RNN怎么来的？

循环神经网络的应用场景比较多，比如暂时能写论文，写程序，写诗，但是，（总是会有但是的），但是他们现在还不能正常使用，学习出来的东西没有逻辑，所以要想真正让它更有用，路还很远。

这是一般的神经网络应该有的结构：
RNN循环神经网络简介

既然我们已经有了人工神经网络和卷积神经网络，为什么还要循环神经网络？
原因很简单，无论是卷积神经网络，还是人工神经网络，他们的前提假设都是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。
但现实世界中，很多元素都是相互连接的，比如股票随时间的变化，一个人说了：我喜欢旅游，其中最喜欢的地方是云南，以后有机会一定要去_____” role=”presentation” style=”position: relative;”>__________.这里填空，人应该都知道是填“云南“。因为我们是根据上下文的内容推断出来的，但机会要做到这一步就相当得难了。因此，就有了现在的循环神经网络，他的本质是：像人一样拥有记忆的能力。因此，他的输出就依赖于当前的输入和记忆。

2.RNN的网络结构及原理

它的网络结构如下：
RNN循环神经网络简介
其中每个圆圈可以看作是一个单元，而且每个单元做的事情也是一样的，因此可以折叠呈左半图的样子。用一句话解释RNN，就是一个单元结构重复使用。

RNN是一个序列到序列的模型，假设xt−1,xt,xt+1” role=”presentation” style=”position: relative;”>xt−1,xt,xt+1xt−1,xt,xt+1应该是”人”的概率比较大。

因此，我们可以做这样的定义：

Xt:&#x8868;&#x793A;t&#x65F6;&#x523B;&#x7684;&#x8F93;&#x5165;&#xFF0C;ot:&#x8868;&#x793A;t&#x65F6;&#x523B;&#x7684;&#x8F93;&#x51FA;&#xFF0C;St:&#x8868;&#x793A;t&#x65F6;&#x523B;&#x7684;&#x8BB0;&#x5FC6;” role=”presentation” style=”text-align: center; position: relative;”> X t : 表 示 t 时 刻 的 输 入 ， o t : 表 示 t 时 刻 的 输 出 ， S t : 表 示 t 时 刻 的 记 忆 Xt:表示t时刻的输入，ot:表示t时刻的输出，St:表示t时刻的记忆

函数，其实这个函数是神经网络中的**函数，但为什么要加上它呢？
举个例子，假如你在大学学了非常好的解题方法，那你初中那时候的解题方法还要用吗？显然是不用了的。RNN的想法也一样，既然我能记忆了，那我当然是只记重要的信息啦，其他不重要的，就肯定会忘记，是吧。但是在神经网络中什么最适合过滤信息呀？肯定是**函数嘛，因此在这里就套用一个**函数，来做一个非线性映射，来过滤信息，这个**函数可能为tanh，也可为其他。

假设你大四快毕业了，要参加考研，请问你参加考研是不是先记住你学过的内容然后去考研，还是直接带几本书去参加考研呢？很显然嘛，那RNN的想法就是预测的时候带着当前时刻的记忆St” role=”presentation” style=”position: relative;”>StSt就表示时刻t的输出。

RNN中的结构细节：
1.可以把St” role=”presentation” style=”position: relative;”>StSt当作隐状态，捕捉了之前时间点上的信息。就像你去考研一样，考的时候记住了你能记住的所有信息。
2.ot” role=”presentation” style=”position: relative;”>otot是由当前时间以及之前所有的记忆得到的。就是你考研之后做的考试卷子，是用你的记忆得到的。
3.很可惜的是，St” role=”presentation” style=”position: relative;”>StSt并不能捕捉之前所有时间点的信息。就像你考研不能记住所有的英语单词一样。
4.和卷积神经网络一样，这里的网络中每个cell都共享了一组参数（U，V，W）,这样就能极大的降低计算量了。
5.ot” role=”presentation” style=”position: relative;”>otot在很多情况下都是不存在的，因为很多任务，比如文本情感分析，都是只关注最后的结果的。就像考研之后选择学校，学校不会管你到底怎么努力，怎么心酸的准备考研，而只关注你最后考了多少分。

3.RNN的改进1：双向RNN

在有些情况，比如有一部电视剧，在第三集的时候才出现的人物，现在让预测一下在第三集中出现的人物名字，你用前面两集的内容是预测不出来的，所以你需要用到第四，第五集的内容来预测第三集的内容，这就是双向RNN的想法。如图是双向RNN的图解：
RNN循环神经网络简介

&#x4ECE;&#x524D;&#x5F80;&#x540E;&#xFF1A;St1&#x2192;=f(U1&#x2192;&#x2217;Xt+W1&#x2192;&#x2217;St&#x2212;1+b1&#x2192;)” role=”presentation” style=”text-align: center; position: relative;”> 从 前 往 后 ： S 1 t \to = f (U 1 \to * X t + W 1 \to * S t - 1 + b 1 \to) 从前往后：St1\to=f(U1\to*Xt+W1\to*St-1+b1\to)

做的是一个拼接，如果他们都是1000X1维的，拼接在一起就是1000X2维的了。

双向RNN需要的内存是单向RNN的两倍，因为在同一时间点，双向RNN需要保存两个方向上的权重参数，在分类的时候，需要同时输入两个隐藏层输出的信息。

4.RNN的改进2：深层双向RNN

深层双向RNN 与双向RNN相比，多了几个隐藏层，因为他的想法是很多信息记一次记不下来，比如你去考研，复习考研英语的时候，背英语单词一定不会就看一次就记住了所有要考的考研单词吧，你应该也是带着先前几次背过的单词，然后选择那些背过，但不熟的内容，或者没背过的单词来背吧。

深层双向RNN就是基于这么一个想法，他的输入有两方面，第一就是前一时刻的隐藏层传过来的信息h→t−1(i)” role=”presentation” style=”position: relative;”>h→(i)t−1h→t−1(i)，包括前向和后向的。
RNN循环神经网络简介

我们用公式来表示是这样的:

然后再利用最后一层来进行分类，分类公式如下：
RNN循环神经网络简介

4.1 Pyramidal RNN

其他类似的网络还有Pyramidal RNN：
RNN循环神经网络简介
我们现在有一个很长的输入序列，可以看到这是一个双向的RNN，上图是谷歌的W.Chan做的一个测试，它原先要做的是语音识别，他要用序列到序列的模型做语音识别，序列到序列就是说，输入一个序列然后就输出一个序列。

由图我们发现，上一层的两个输出，作为当前层的输入，如果是非常长的序列的话，这样做的话，每一层的序列都比上一层要短，但当前层的输入f(x)” role=”presentation” style=”position: relative;”>f(x)f(x)也会随之增多，貌似看一起相互抵消，运算量并没有什么改进。

但我们知道，对于一层来说，它是从前往后转的，比如要预测一个股市的变化，以天为单位，假如要预测明天的股市变化，你就要用今天，以及今天之前的所有数据，我们暂时无法只用昨天的数据，不用今天的数据，预测明天的数据，也即是说，预测必须具有连续性。
但每一层的f” role=”presentation” style=”position: relative;”>ff运算是可以并行的，从这个角度来看，运算量还是可以接受的，特别是在原始输入序列较短的时候还是有优势的。

5.RNN的训练-BPTT

如前面我们讲的，如果要预测t时刻的输出，我们必须先利用上一时刻（t-1）的记忆和当前时刻的输入，得到t时刻的记忆：

st=tanh(Uxt+Wst&#x2212;1)” role=”presentation” style=”text-align: center; position: relative;”> s t = t a n h (U x t + W s t - 1) st=tanh(Uxt+Wst-1)

如图所示，你会发现每个cell都会有一个损失，我们已经定义好了损失函数，接下来就是熟悉的一步了，那就是根据损失函数利用SGD来求解最优参数，在CNN中使用反向传播BP算法来求解最优参数，但在RNN就要用到BPTT，它和BP算法的本质区别，也是CNN和RNN的本质区别：CNN没有记忆功能，它的输出仅依赖与输入，但RNN有记忆功能，它的输出不仅依赖与当前输入，还依赖与当前的记忆。这个记忆是序列到序列的，也就是当前时刻收到上一时刻的影响，比如股市的变化。

因此，在对参数求偏导的时候，对当前时刻求偏导，一定会涉及前一时刻，我们用例子看一下：

假设我们对E3” role=”presentation” style=”position: relative;”>E3E3
因此，根据链式法则可以有:

&#x2202;E3&#x2202;W=&#x2202;E3&#x2202;y&#x005E;3&#x2202;y&#x005E;3&#x2202;s3&#x2202;s3&#x2202;W” role=”presentation” style=”text-align: center; position: relative;”> \partial E 3 \partial W = \partial E 3 \partial y^3 \partial y^3 \partial s 3 \partial s 3 \partial W \partialE3\partialW=\partialE3\partialy^3\partialy^3\partials3\partials3\partialW

里面的函数还包含了W，因此，这个链式法则还没到底，就像图上画的那样，所以真正的链式法则是这样的：
RNN循环神经网络简介
我们要把当前时刻造成的损失，和以往每个时刻造成的损失加起来，因为我们每一个时刻都用到了权重参数W。和以往的网络不同，一般的网络，比如人工神经网络，参数是不同享的，但在循环神经网络，和CNN一样，设立了参数共享机制，来降低模型的计算量。