深度学习——循环神经网络RNN（一）_反向传播算法

2023年4月8日上午10:40 • 循环神经网络

RNN网络结构

Elman神经网络是最早的循环神经网络，由Elman于1990年提出，又称为SRN（Simple Recurrent Network, 简单循环网络）。RNN考虑了时序信息，当前时刻的输出不仅和当前时刻的输入有关，还和前面所有时刻的输入有关。

RNN的结构图（引用[2]中的图）如下：
深度学习——循环神经网络RNN（一）_反向传播算法

xt表示t时刻的输入向量；
ht表示t时刻的隐藏层向量：
隐层计算公式为
$h t = f (W h h h t - 1 + W x h x t + b h) (1)$
f是隐层的**函数。h0一般初始化为0。
我们可以认为ht包含了当前时刻及以前的所有记忆。虽然理论上这句话没问题，但是在实际中，由于梯度消失/爆炸问题的存在，ht只包含了有限步的信息，并不能捕获太久之前的信息。这被称为长时依赖问题。
yt表示t时刻的输出向量：
输出yt的计算公式为
$y t = g (W h y h t + b y) (2)$
g一般为softmax函数。

在训练RNN时，一个输入序列看做一个实例，其误差由各时刻误差之和组成：

J = \sum t = 1 T J t (3)

梯度计算

RNN的梯度计算比多层前馈神经网络要复杂一些，其反向传播算法有个特有的名字：随时间反向传播算法（Backpropagation Through Time，BPTT）[Werbos, 1990]。

这里会介绍两种计算RNN梯度的方法，并且仅以Whh的梯度为例进行说明。

暴力求解

深度学习——循环神经网络RNN（一）_反向传播算法

我们暂且把t步的Whh写成Whht，于是：

\partial J \partial W h h = \sum t = 1 T \partial J \partial W h h t = \sum t = 1 T \partial h t \partial W h h t \partial J \partial h t (4)

而

\partial J \partial h t = \partial J \partial y t \partial y t \partial h t + \partial J \partial h t + 1 \partial h t + 1 \partial h t = \partial J t \partial h t + W h h T d i a g (f' (h t)) \partial J \partial h t + 1 = \partial J t \partial h t + W h h T d i a g (f' (h t)) \partial J t + 1 \partial h t + 1 + (W h h T d i a g (f' (h t))) (W h h T d i a g (f' (h t + 1))) \partial J t + 2 \partial h t + 2 + \dots + \prod i = t T - 1 (W h h T d i a g (f' (h i))) \partial J T \partial h T = \sum k = t T \prod i = t k - 1 (W h h T d i a g (f' (h i))) \partial J k \partial h k (5)

把(5)代入(4)中，得到

\partial J \partial W h h = \sum t = 1 T \partial h t \partial W h h [\sum k = t T \prod i = t k - 1 (W h h T d i a g (f' (h i))) \partial J k \partial h k] (6)

BPTT

深度学习——循环神经网络RNN（一）_反向传播算法

仍暂且把t步的Whh写成Whht，那么t时刻的误差会影响到{Whhk,k=1,2,...,t−1}，所以

\partial J \partial W h h = \sum t = 1 T \sum k = 1 t \partial J t \partial W h h k - 1 = \sum t = 1 T \sum k = 1 t \partial h k \partial W h h k - 1 \partial h t \partial h k \partial J t \partial h t = \sum t = 1 T \sum k = 1 t \partial h k \partial W h h k - 1 [\prod i = k t - 1 \partial h i + 1 \partial h i] \partial J t \partial h t = \sum t = 1 T \sum k = 1 t \partial h k \partial W h h k - 1 [\prod i = k t - 1 W h h i T d i a g (f' (h i))] \partial J t \partial h t = \sum t = 1 T \sum k = 1 t \partial h k \partial W h h [\prod i = k t - 1 W h h T d i a g (f' (h i))] \partial J t \partial h t (7)

可以证明公式(6)和(7)等价。

∂ht∂hk是矩阵的累乘，极容易出现趋于0的情况，这时当前时刻的误差传播不到比较久远的时刻，意味着RNN没有学到长时依赖关系。

参考

[1] Finding Structure in Time. JEFFREY L. ELMAN. 1990.
[2] 《神经网络与深度学习》讲义. 邱锡鹏. 2015.
[3] Recurrent Neural Networks Tutorial, Part 1 – Introduction to RNNs. WILDML. 2015.
[4] 博文Anyone Can Learn To Code an LSTM-RNN in Python (Part 1: RNN). 2015.

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习——循环神经网络RNN（一）_反向传播算法 - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

1.8 循环神经网络的梯度消失-深度学习第五课《序列模型》-Stanford吴恩达教授

上一篇 2023年4月8日上午10:38

【汉字文本识别】：基于卷积神经网络和循环神经网络的深度学习方法：CRNN

下一篇 2023年4月8日上午10:40

机器学习中分类问题

regression与线性回归（linear regression）线性回归（linear regression）：有监督学习 => 学习样本为D={(xi,yi)}ª 输出/预测的结果yi为连续值变量需要学习映射f：x～y 假定输入x和输出y之间有线性相关关系　　损失函数(loss function) 我们要找到最好的权重/参数Θ 怎…

机器学习 2023年4月13日
000
Caffe

【caffe编译】 fatal error: hdf5.h: 没有那个文件或目录

src/caffe/layers/hdf5_output_layer.cpp:3:18: fatal error: hdf5.h: 没有那个文件或目录查找文件 locate hdf5.h 修改Makefile.config文件，在下面的语句后面增加红色部分 INCLUDE_DIRS := $(PYTHON_INCLUDE) /usr/local/inclu…

2023年4月5日
000
Keras

keras人工神经网络构建入门

//2019.07.29-301、Keras 是提供一些高度可用神经网络框架的 Python API ，能帮助你快速的构建和训练自己的深度学习模型，它的后端是 TensorFlow 或者 Theano 。 2、Keras 被认为是构建神经网络的未来，以下是一些它流行的原因：(1)轻量级和快速开发：Keras的目的是在消除样板代码。几行Keras代码就能比原生…

2023年4月6日
000
目标检测

【转】目标检测方法——R-FCN

目录作者及相关链接方法概括方法细节实验结果总结参考文献作者：作者链接：代季峰，何恺明，孙剑论文链接：论文传送门代码链接：matlab版，python版方法概括 R-FCN解决问题——目标检测整个R-FCN的结构一个base的conv网络如ResNet101, 一个RPN（Faster RCNN来的）,一个position s…

2023年4月5日
000
keras模块学习之-参数初始化与对象调用-笔记

本笔记由博客园-圆柱模板博主整理笔记发布，转载需注明，谢谢合作! 参数初始化（Initializations）这个模块的作用是在添加layer时调用init进行这一层的权重初始化，有两种初始化方法，以下为样例： model.add(Dense(64, init=’uniform’)) 　　可以选择的初始化方法有： …

Keras 2023年4月5日
000
目标检测

Object Detection(目标检测神文)

转 2018年08月21日 14:25:28 Mars_WH 阅读数 23382 标签： object detect faster R-CNN SSD YOLO MTCNN 更多个人分类：目标检测 https://handong1587.github.io/deep_learning/2015/10/09/object-detection.html，如有…

2023年4月8日
000
tensorflow

远程ubuntu虚拟机Tensorflow搭建 – 1 SSH连接

感谢英才计划，我们每个人收获了一台清华的虚拟机。 4 core CPU 16GB Memory 80GB Disk 配置不错了。。。用ssh密钥登录。赠送hadoop-key.pem一把。先用sudo ssh ubuntu@ipipipipip登录一个接口虚拟机吧。很好，然后把这个作为跳板上自己的虚拟机：ssh ubuntu@myipipipi…

2023年4月8日
000
运动目标检测综述

运动目标检测背景差分法：能完整、快速地分割出运动对象。不足之处易受光线变化的影响，背景的更新是关键。不适用摄像头运动的情况。光流法：能检测独立运动的对象，可用于摄像头运动的情况，但计算复杂耗时，很难实时检测。帧差法：受光线变化影响较小，简单快速，但不能分割出完整的运动对象，需进一步运用目标分割算法。还有一些改进的算法，主要致力于减少光照影响和检测慢速物体变化…

目标检测 2023年4月6日
000

合作推广

合作推广

返回顶部