典型的循环神经网络具有两个显著问题

传统循环神经网络的问题 (吴恩达老师_学习笔记)

(1)无法利用后文信息,只能利用前面的序列数据

解决办法-双向循环神经网络

(2)梯度消失

举个语言例子:(1)“The cat, which already ate ……, was full.”,前后应该保持一致,因为cat是单数,所以应该用was。(2)“The cats, which ate ……, were full.”,cats是复数,所以用were

这个例子中的句子有长期的依赖关系,最前面的单词对句子后面的单词有影响。但是上图这种基本的RNN模型,不擅长捕获这种长期依赖效应。

因为RNN的反向传播同样会面临梯度消失的问题,较后面层的输出误差很难影响较前面层的计算,这意味着基本的RNN模型存在局部影响关系,输出主要与之前的几个数值输入有关。

解决办法:GRU 门控循环单元网络

对于偶尔出现的梯度爆炸问题,这很容易发现,因为在计算的过程中参数会大到崩溃出现NaN,解决办法是梯度修剪,当梯度向量大于某个阈值后,缩放梯度向量。

小总结

训练很深的神经网络时,随着层数的增加,导数有可能指数型的下降或者指数型的增加,我们可能会遇到梯度消失或者梯度爆炸的问题。

假如一个RNN处理1,000个时间序列的数据集,这就是一个1,000层的神经网络,这样的网络很容易遇到上述类型的问题。梯度爆炸基本上用梯度修剪就可以应对,但梯度消失需要改善模型本身结构。