循环神经网络(RNNs)是基于序列的模型,对自然语言理解、语言生成、视频处理和其他许多任务至关重要。模型的输入是一个符号序列,在每个时间点一个简单的神经网络(RNN单元)应用于一个符号,以及此前时间点的网络输出。RNNs是强大的模型,在许多任务中表现出色,但会快速过拟合。RNN模型中缺少正则化使他难以处理小规模数据,为避免这种情况研究者经常使用提早停止,或者小规模的或未充分定义的模型。

Dropout是深度网络中常见的一种正则化技巧,在训练过程中网络单元随机的被隐藏/丢弃。但这种技巧在RNNs中一直未被成功应用。实证结果使很多人相信循环层(RNN单元之间的连接)中加入的噪音在长序列中会被放大,并淹没了信号。因此现存的研究认为这种技巧应仅用于RNN的输入和输出。但这种方式在研究中发现依然会导致过拟合。Dropout是一个同正则化完全不同的技术,与L1和L2范式正则化不同。dropout并不会修改代价函数而是修改深度网络本身。一个相关的早期使用这种技术的论文((**ImageNetClassification with Deep Convolutional Neural Networks, by AlexKrizhevsky, Ilya Sutskever, and Geoffrey Hinton (2012).))中启发性的dropout解释是:这种技术减少了神经元之间复杂的共适性。因为一个神经元不能依赖其他特定的神经元。因此,不得不去学习随机子集神经元间的鲁棒性的有用连接。换句话说。想象我们的神经元作为要给预测的模型,dropout是一种方式可以确保我们的模型在丢失一个个体线索的情况下保持健壮的模型。在这种情况下,可以说他的作用和L1和L2范式正则化是相同的。都是来减少权重连接,然后增加网络模型在缺失个体连接信息情况下的鲁棒性。

Dropout 方法的使用最常出现于卷积神经网络中,通过 Dropout 方法,卷积神经网络可以使鲁棒性更强。Dropout 方法不仅可以用在卷积神经网络中,在循环神经网络中使用 Dropout方法也能够得到良好的结果。在对循环神经网络使用 Dropout时,需要注意的是,一般Dropout只存在于相邻层的循环体结构之间,而同一层的循环体结构之间不会使用Dropout。循环神经网络使用 Dropout 的示意图如下图。以t-3时刻的输入x(t-3)得到t+1时刻的输出 o(t+I)为例,x(t-3)经过两层 LSTM 循环体结构 得到这一时刻的输出o(t-3)的过程需要用到 Dropout,但是这两层 LSTM 循环体结构在将状态传递到下一时刻相应的 LSTM 循环体结构时没有使用 Dropout。在这之后的时刻,循环体结构的执行以及是否使用 Dropout 也可以参考这一时刻的情况。

循环神经网络的 Dropout
我们使用TensorFlow 提供的DropoutWrapper 类来实现 Dropout 功能。这个类使用起来比较简单,代码如下:
循环神经网络的 Dropout

在使用 DropoutWrapper 时,要注意其构造函数有两个重要的参数——input_keep_prob 和 output_keep_prob, 其中 input_keep_prob用来控制对输入进行Dropout时的keep_prob,而参数 output_keep_prob 用来控制对输出进行 Dropout 时的 keep_prob。

关注小鲸融创,一起深度学习金融科技!

循环神经网络的 Dropout