深度学习原理：循环神经网络RNN和LSTM网络结构、结构变体(peephole,GRU)、前向传播公式以及TF实现简单解析

2023年4月5日下午11:22 • 循环神经网络

循环神经网络背景这里先不介绍了。本文暂时先记录RNN和LSTM的原理。

首先RNN。RNN和LSTM都是参数复用的，然后每个时间步展开。

深度学习原理：循环神经网络RNN和LSTM网络结构、结构变体(peephole,GRU)、前向传播公式以及TF实现简单解析

RNN的cell比较简单，我们用Xt表示t时刻cell的输入，Ct表示t时刻cell的状态，ht表示t时刻的输出（输出和状态在RNN里是一样的）。

那么其前向传播的公式也很简单：$h_t=C_t=[h_{t-1},X_t]*W+b$

其中[,]表示concat。W和b分别为RNN的kernel和bias。

然后LSTM，是RNN的升级版，加入了forget、input、output三个门，包含3个门，5对参数，两次更新。赋予了RNN选择性记忆的能力，一定程度解决了RNN中Long Term Dependency（长期依赖）的问题。

深度学习原理：循环神经网络RNN和LSTM网络结构、结构变体(peephole,GRU)、前向传播公式以及TF实现简单解析

从左向右，三个sigmoid分别对应三个门：forget,input,output，后面用f,i,o代替。

按从左至右顺序：

首先是forget gate：$f_t=sigma([h_{t-1},X_t]*W_f+b_f)$

forget gate用sigmoid函数激活，得到一个0~1的数，来决定$S_{t-1}$的“记忆”留着哪些，忘记哪些。剩下两个gate用法也类似。

然后是input gate:$i_t=sigma([h_{t-1},X_t]*W_i+b_i)$

更新细胞状态C:$C_t=f_totimes C_{t-1}+i_totimes tanh(([h_{t-1},X_t]*W_s+b_s)$

之后是output gate:$o_t=sigma([h_{t-1},X_t]*W_o+b_o)$

最后更新输出h:$h_t=o_totimes tanh(C_{t})$

整个流程大概就这样，方便记忆，我们可以把前向公式整理成下面顺序：

$f_t=sigma([h_{t-1},X_t]*W_f+b_f)$

$i_t=sigma([h_{t-1},X_t]*W_i+b_i)$

$o_t=sigma([h_{t-1},X_t]*W_o+b_o)$

$C_t=f_totimes C_{t-1}+i_totimes tanh(([h_{t-1},X_t]*W_s+b_s)$

$h_t=o_totimes tanh(C_{t})$

可以方便的看出5对参数（kernel+bias），3个门，2次更新。

以上是LSTM比较通用的原理，在tensorflow实现中，和上面略有不同，稍微做了简化。

具体源码可参见：https://github.com/tensorflow/tensorflow/blob/r1.12/tensorflow/python/ops/rnn_cell_impl.py L165：BasicLSTMCell

源码延续了f,i,o,c,h的表示

    #build
    self._kernel = self.add_variable(
        _WEIGHTS_VARIABLE_NAME,
        shape=[input_depth + h_depth, 4 * self._num_units])
    self._bias = self.add_variable(
        _BIAS_VARIABLE_NAME,
        shape=[4 * self._num_units],
        initializer=init_ops.zeros_initializer(dtype=self.dtype))

    gate_inputs = math_ops.matmul(
        array_ops.concat([inputs, h], 1), self._kernel)
    gate_inputs = nn_ops.bias_add(gate_inputs, self._bias)

    # i = input_gate, j = new_input, f = forget_gate, o = output_gate
    i, j, f, o = array_ops.split(
        value=gate_inputs, num_or_size_splits=4, axis=one)

在build方法中，将门和状态更新的参数们一起定义了。后面在call方法中，直接相乘再给split开，化简了操作。

    forget_bias_tensor = constant_op.constant(self._forget_bias, dtype=f.dtype)
    # Note that using `add` and `multiply` instead of `+` and `*` gives a
    # performance improvement. So using those at the cost of readability.
    add = math_ops.add
    multiply = math_ops.multiply
    new_c = add(multiply(c, sigmoid(add(f, forget_bias_tensor))),
                multiply(sigmoid(i), self._activation(j)))
    new_h = multiply(self._activation(new_c), sigmoid(o))

之后在更新操作中，将该用sigmoid的三个门的激活函数写死，两个更新操作的激活函数则随LSTM初始化参数改变。并多加了一个forget_bias_tensor，这个和原LSTM原理略有不同。

除此之外，LSTM还有几种变体：

1.peephole connection:

深度学习原理：循环神经网络RNN和LSTM网络结构、结构变体(peephole,GRU)、前向传播公式以及TF实现简单解析

思路很简单，也就是我们让门层也会接受细胞状态的输入。

其他没有改变。注意outputgate接受的是更新后的细胞状态。

2.coupled

深度学习原理：循环神经网络RNN和LSTM网络结构、结构变体(peephole,GRU)、前向传播公式以及TF实现简单解析

思路也很简单

inputgate forgetgate复用一个门，其他一样。

3.GRU

Gated Recurrent Unit (门控循环单元，GRU)是一个改动比较大的变体。这是由 Cho, et al. (2014) 提出。它将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态，和其他一些改动。最终的模型比标准的 LSTM 模型要简单，也是非常流行的变体。

深度学习原理：循环神经网络RNN和LSTM网络结构、结构变体(peephole,GRU)、前向传播公式以及TF实现简单解析

参考资料：

https://www.jianshu.com/p/9dc9f41f0b29

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习原理：循环神经网络RNN和LSTM网络结构、结构变体(peephole,GRU)、前向传播公式以及TF实现简单解析 - Python技术站

人工智能循环神经网络

0 0 打赏

微信扫一扫

支付宝扫一扫

人工智能深度学习入门练习之（28）TensorFlow – 例子：循环神经网络(RNN)

上一篇 2023年4月5日下午11:21

机器学习 —— 基础整理（八）循环神经网络的BPTT算法步骤整理；梯度消失与梯度爆炸

下一篇 2023年4月5日下午11:22

PHP和正则表达式教程集合之一

下面是关于“PHP和正则表达式教程集合之一”的完整攻略。解决方案以下是PHP和正则表达式教程集合之一的详细步骤：步骤一：PHP介绍 PHP是一种流行的服务器端脚本语言，用于开发Web应用程序。PHP可以与HTML一起使用，可以生成动态页面内容，可以访问数据库，并可以接收表单数据。步骤二：正则表达式介绍正则表达式是一种用于匹配字符串的模式。在PHP中…

循环神经网络 2023年5月16日
000
tensorflow

TensorFlow 深度学习笔记 Stochastic Optimization

转载请注明作者：梦里风林Github工程地址：https://github.com/ahangchen/GDLnotes欢迎star，有问题可以到Issue区讨论官方教程地址视频/字幕下载实践中大量机器学习都是通过梯度算子来求优化的但有一些问题，最大的问题就是，梯度很难计算我们要计算train loss，这需要基于整个数据集的数据做一个计算而计算使 …

2023年4月8日
000
Caffe

基于深度学习的人脸识别系统系列（Caffe+OpenCV+Dlib）——【四】使用CUBLAS加速计算人脸向量的余弦距离

前言基于深度学习的人脸识别系统，一共用到了5个开源库：OpenCV（计算机视觉库）、Caffe（深度学习库）、Dlib（机器学习库）、libfacedetection（人脸检测库）、cudnn（gpu加速库）。用到了一个开源的深度学习模型：VGG model。最终的效果是很赞的，识别一张人脸的速度是0.039秒，而且最重要的是：精度高啊！！！ CPU：…

2023年4月8日
001
循环神经网络

小孩都看得懂的循环神经网络

全文共 2014 字，28 幅图，预计阅读时间 20 分钟。本文是「小孩都看得懂」系列的第六篇，本系列的特点是极少公式，没有代码，只有图画，只有故事。内容不长，碎片时间完全可以看完，但我背后付出的心血却不少。喜欢就好！小孩都看得懂的循环神经网络本文受以下两部视频所启发，但用了我最喜欢的 NBA 巨星哈登举例。 Luis Serrano 的「A fri…

2023年4月7日
000
全卷积网络FCN和U-net分割算法优秀笔记收藏

看了下关于分割算法介绍的优秀笔记，把文章收藏记录一下语义分割–全卷积网络FCN详解这篇博客对FCN进行了系统的介绍，其中一个重要的知识点就是关于上采样和反卷积上池化，线性插值的介绍，我找了两篇比较容易理解的博客，Mark一下： CNN中的卷积、反卷积与反池化 FCN中反卷积、上采样、双线性插值之间的关系关于程序方面目前还没去研究，以后遇到了再补一下。…

卷积神经网络 2023年4月6日
000
图数据挖掘：级联的概率模型和疾病传播

这篇博客我们来介绍基于概率的级联行为模型，这种模型更关注系统整体，不过缺少对个体行为动机的刻画。基于随机树的传染病模型是分支过程（branching processes）的一种变种。在这种模型中，一个病人可能接触d个其他人，对他们中的每一个都有概率q>0将其传染，接下来我们来看当d和q取何值时，流行病最终会消失（die out） 1 导引在上一篇博客…

机器学习 2023年4月11日
000
PyTorch

Pytorch快速入门及在线体验

本文搭配了Pytorch在线环境，可以直接在线体验。 Pytorch是Facebook 的 AI 研究团队发布了一个基于 Python的科学计算包，旨在服务两类场合： 1.替代numpy发挥GPU潜能；2. 一个提供了高度灵活性和效率的深度学习实验性平台。 1.Pytorch简介 Pytorch是Facebook 的 AI 研究团队发布了一个基于 Pyth…

2023年4月8日
000
Caffe学习系列（三）Docker安装及一些问题的记录

前言： Docker安装倒是很简单，按照步骤轻松完成，但是在联网方面还是出现问题，大概是伟大的祖国防火墙将其拦下，但在开发中要遇山开山，见水搭桥。在其中我将解决方法记录下来，每次解决了困难想分享找不到地方，就把它写下来自己看吧，见证自己的成长。正文：（一）安装Docker 安装环境：Ubuntu 16.04（LTS） 1、简单方法 …

Caffe 2023年4月6日
000

深度学习原理：循环神经网络RNN和LSTM网络结构、结构变体(peephole,GRU)、前向传播公式以及TF实现简单解析

相关文章