RNN model

模型架构

《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础

BPTT

《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础

不同类型的RNN

《序列模型》之循环神经网络基础

梯度爆炸和梯度消失

出现原因

《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础

解决梯度爆炸

检测

《序列模型》之循环神经网络基础

梯度裁剪

《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础

截断BPTT

《序列模型》之循环神经网络基础

解决梯度消失

很难检测

《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础

如何解决

  • LSTM,GRU
  • ReLU**函数
  • 循环权重矩阵初始化方法
  • Skip connections
    《序列模型》之循环神经网络基础
    《序列模型》之循环神经网络基础
    将权重矩阵分解Q1ΛQ的话,其中Λ是对角线上是特征值的对角矩阵,Q是特征值对应的特征向量组成的矩阵。
    那么若干时间步的权重乘积可以表示为Q1ΛnQ
    由正交矩阵的特征值绝对值等于1的特性,可以得出进行若干次矩阵乘法的结果既不会爆炸也不会消失。
    《序列模型》之循环神经网络基础

LSTM and GRU

《序列模型》之循环神经网络基础

LSTM v0

《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础

LSTM with forget gate

《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础
Long Short-term Memory

GRU

《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础
On the Properties of Neural Machine Translation: Encoder-Decoder Approaches
Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

LSTM or GRU

  • LSTM 更加灵活
  • GRU 更少的参数
    一般先训练LSTM,然后训练GRU,最后对比并选择

BiRNN and Deep RNN

《序列模型》之循环神经网络基础
《序列模型》之循环神经网络基础
参考资料

《深度学习》deeplearning.ai
Introduction to Deeplearning HEC