RNN model
模型架构
BPTT
不同类型的RNN
梯度爆炸和梯度消失
出现原因
解决梯度爆炸
检测
梯度裁剪
截断BPTT
解决梯度消失
很难检测
如何解决
- LSTM,GRU
- ReLU**函数
- 循环权重矩阵初始化方法
- Skip connections
将权重矩阵分解的话,其中是对角线上是特征值的对角矩阵,Q是特征值对应的特征向量组成的矩阵。
那么若干时间步的权重乘积可以表示为,
由正交矩阵的特征值绝对值等于1的特性,可以得出进行若干次矩阵乘法的结果既不会爆炸也不会消失。
LSTM and GRU
LSTM v0
LSTM with forget gate
GRU
On the Properties of Neural Machine Translation: Encoder-Decoder Approaches
Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
LSTM or GRU
- LSTM 更加灵活
- GRU 更少的参数
一般先训练LSTM,然后训练GRU,最后对比并选择
BiRNN and Deep RNN
参考资料
《深度学习》deeplearning.ai
Introduction to Deeplearning HEC
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:《序列模型》之循环神经网络基础 - Python技术站