神经网络学习（十八）循环神经网络（RNN）的正向和反向传播算法梳理

2023年4月8日上午9:03 • 循环神经网络

系列博客是博主学习神经网络中相关的笔记和一些个人理解，仅为作者记录笔记之用，不免有很多细节不对之处。

回顾

前面五小节，我们简单学习了卷积神经网络（CNN）反向传播算法的推导，然后我们自己实现了一个浅层卷积神经网络。卷积神经网络在本系列中先告一段落，我们开始学习循环神经网络的相关知识。本系列的主旨是基础学习，大致了解各个神经网络的基本原理。至于更深的应用，我们留待以后学习。

正向传播

网上关于RNN的介绍非常多，我们这里就不多啰嗦了（主要博主也是似懂非懂），直接进入它的公式部分。为了方便理解，咱们还是以一个直观RNN的展开图开始

神经网络学习（十八）循环神经网络（RNN）的正向和反向传播算法梳理

就上面的网络结构而言，RNN结构的基本单元可以看作是简单的三层神经网络（也可以是多层的，为了简单起见，以三层为例），与常规的神经网络不同的地方在于，它的隐层会将上一个时刻的隐层输出纳入到当前时刻隐层的输入中，这样就携带了过往时刻的相关信息了。下面是公式的对比

	BP Net	RNN
input layer	$a = x$	$a^{t} = x^{t}$
hidden layer	$z_{h} = V a + b_{h} h = σ (z_{h})$	$z_{h}^{t} = V a^{t} + U h_{h}^{t - 1} + b_{h} h^{t} = σ (z_{h}^{t}) [一般选取 t a n h 函数]$
output layer	$z_{y} = W h + b_{y} y = σ (z_{y})$	$z_{y}^{t} = W h^{t} + b_{y} y^{t} = σ (z_{y}^{t})$

结合上图，RNN的正向传播算法就很好理解了。RNN的输入是序列数据，需要训练的模型参数有 $V$ 、 $W$ 、 $U$ 和 $b_{h} 、 b_{y}$ 。下图为某时刻隐层单元的结构示意图

神经网络学习（十八）循环神经网络（RNN）的正向和反向传播算法梳理

反向传播

记 $C = f (W, U, V, b_{h}, b_{h})$ 是我们的代价函数，依旧记 $δ = \partial C / \partial z$ 为误差。那么有

\begin{matrix} (1) & δ_{y}^{t} = \nabla_{y^{t}} C ⊙ σ^{'} (z_{y}^{t}) \end{matrix}

，由上式可推导出

\begin{matrix} (2) & δ_{h}^{t} = \frac{\partial C}{\partial z_{h}^{t}} = \frac{\partial C}{\partial z_{y}^{t}} \frac{\partial z_{y}^{t}}{\partial h^{t}} \frac{\partial h^{t}}{\partial z_{h}^{t}} + \frac{\partial C}{\partial z_{y}^{t + 1}} \frac{\partial z_{y}^{t + 1}}{\partial h^{t}} \frac{\partial h^{t}}{\partial z_{h}^{t}} = (W^{T} δ_{y}^{t} + U^{T} δ_{h}^{t + 1}) ⊙ σ^{'} (z_{h}^{t}) \end{matrix}

上面表红的地方是因为下一个时刻的 $z^{t + 1}$ 也需要当前时刻的 $h^{t}$ 。有了 $δ$ 的表达式，我们就可以很容易计算出模型参数的梯度，如下：

\begin{matrix} (3) & \frac{\partial C}{\partial W} = \frac{\partial C}{\partial z_{y}^{t}} \frac{\partial z_{y}^{t}}{\partial W} = {(h^{t})}^{T} δ_{y}^{t} \end{matrix}

\begin{matrix} (4) & \frac{\partial C}{\partial V} = \frac{\partial C}{\partial z_{h}^{t}} \frac{\partial z_{h}^{t}}{\partial W} = a^{T} δ_{h}^{t} \end{matrix}

\begin{matrix} (5) & \frac{\partial C}{\partial U} = \frac{\partial C}{\partial z_{h}^{t}} \frac{\partial z_{h}^{t}}{\partial U} = {(h^{t - 1})}^{T} δ_{h}^{t} \end{matrix}

\begin{matrix} (6) & \frac{\partial C}{\partial b_{h}} = δ_{h}^{t}, \frac{\partial C}{\partial b_{y}} = δ_{y}^{t} \end{matrix}

通过矩阵的写法，反向传播算法的表述十分简洁清晰。利用公式（1）-（6）我们就可以实现误差的反向传播了。

小结

上面简单总结了通用的RNN模型和正向反向传播算法。当然，有些RNN模型会有些不同，自然正向反向传播的公式会有些不一样，但是原理基本类似。

RNN虽然理论上可以很漂亮的解决序列数据的训练，但是它也像DNN一样有梯度消失时的问题，当序列很长的时候问题尤其严重。因此，上面的RNN模型一般不能直接用于应用领域。

参考资料：
1、循环神经网络RNN以及LSTM的推导和实现

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：神经网络学习（十八）循环神经网络（RNN）的正向和反向传播算法梳理 - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

深度学习之RNN(循环神经网络)

上一篇 2023年4月8日上午9:03

RNN循环神经网络以及LSTM长短期记忆模型-简介

下一篇 2023年4月8日上午9:03

基于区域的目标检测——细粒度

转自http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247485402&idx=2&sn=d4c0d65b75ebca219397cf2263ca480a&chksm=fb727b06cc05f21082d6e469496e7155974415250404d1e729…

目标检测 2023年4月7日
000
目标检测

7. 目标检测算法之Faster R-CNN算法详解(转)

原文链接： https://www.cnblogs.com/zyly/p/9247863.html 目录一 Faster R-CNN思路二 RPN详解 1、特征提取 2、候选区域(anchor) 3、框回归 4、候选框修正三 RoI Pooling层 1、为何使用RoI Pooling 2、RoI Pooling原理四分类和框回归五训练 …

2023年4月8日
000
Caffe

weight decay 和正则化caffe

正则化是为了防止过拟合,因为正则化能降低权重 caffe默认L2正则化代码讲解的地址:http://alanse7en.github.io/caffedai-ma-jie-xi-4/ 重要的一个回答:https://stats.stackexchange.com/questions/29130/difference-between-neural…

2023年4月7日
000
目标检测

项目总结三：目标检测项目（Car detection with YOLOv2）

1、 the YOLO model （YOLO ，you only look once）（1）We will use 5 anchor boxes. So you can think of the YOLO architecture as the following: IMAGE (m, 608, 608, 3) -> DEEP CNN -> …

2023年4月8日
000
TensorFlow Executor解析

目录前言准备工作会话运行参考资料 TF的单机运行模式下，DirectSession类是主要的会话运行时的类。我们平时在python中调用的session.run最终会调用到会话的入口方法，即 Status DirectSession::Run(const RunOptions& run_options, const NamedTensorLi…

tensorflow 2023年4月8日
000
神经网络卷积层要回计算output的维度 input 28 卷积是3×3 则output是26 但是channel是卷积核的数量

model = Sequential() model.add(Conv2D(32, kernel_size=(3, 3), activation=’relu’, input_shape=input_shape)) model.add(Conv2D(64, (3, 3), activation=’relu’)) model.add(MaxPooling2D…

卷积神经网络 2023年4月7日
000
目标检测

FoveaBox：目标检测新纪元，无Anchor时代来临！

点击我爱计算机视觉标星，更快获取CVML新技术目标检测的任务是“分类”并从图像中“定位”出物体，但长久以来，该领域的工作大多是这样：生成可能包含目标的区域，然后在该区域提取特征并分类。显然，人眼并不是这样工作的。人眼可以直接定位出物体，也就是对人眼来说发现目标的过程，定位和分类是一体的。现代深度学习的方法，代表性的包括二阶段的Faster R-CNN…

2023年4月8日
000
使用 tf.nn.dynamic_rnn 展开时间维度方式

下面是关于“使用 tf.nn.dynamic_rnn 展开时间维度方式”的完整攻略。解决方案以下是使用 tf.nn.dynamic_rnn 展开时间维度方式的详细步骤：步骤一：TensorFlow介绍 TensorFlow是一个开源的机器学习框架，由Google开发。它提供了丰富的工具和函数库，可以方便地进行各种计算和分析。TensorFlow支持多种…

循环神经网络 2023年5月16日
000

合作推广

合作推广

返回顶部