详解循环神经网络(Recurrent Neural Network)

2023年4月6日上午11:21 • 循环神经网络

yizhihongxing

本文结构：

模型
训练算法
基于 RNN 的语言模型例子
代码实现

1. 模型

和全连接网络的区别
更细致到向量级的连接图
为什么循环神经网络可以往前看任意多个输入值

循环神经网络种类繁多，今天只看最基本的循环神经网络，这个基础攻克下来，理解拓展形式也不是问题。

首先看它和全连接网络的区别：

下图是一个全连接网络：
它的隐藏层的值只取决于输入的 x

详解循环神经网络(Recurrent Neural Network)

而 RNN 的隐藏层的值 s 不仅仅取决于当前这次的输入 x，还取决于上一次隐藏层的值 s：
这个过程画成简图是这个样子：

详解循环神经网络(Recurrent Neural Network)

其中，t 是时刻， x 是输入层， s 是隐藏层， o 是输出层，矩阵 W 就是隐藏层上一次的值作为这一次的输入的权重。

上面的简图还不能够说明细节，来看一下更细致到向量级的连接图：

详解循环神经网络(Recurrent Neural Network)

Elman network

Elman and Jordan networks are also known as "simple recurrent networks" (SRN).

其中各变量含义：

详解循环神经网络(Recurrent Neural Network)

输出层是一个全连接层，它的每个节点都和隐藏层的每个节点相连，
隐藏层是循环层。

图来自wiki：https://en.wikipedia.org/wiki/Recurrent_neural_network#Gated_recurrent_unit

为什么循环神经网络可以往前看任意多个输入值呢？

来看下面的公式，即 RNN 的输出层 o 和隐藏层 s 的计算方法：

详解循环神经网络(Recurrent Neural Network)

如果反复把式 2 带入到式 1，将得到：

详解循环神经网络(Recurrent Neural Network)

这就是原因。

2. 训练算法

RNN 的训练算法为：BPTT

BPTT 的基本原理和 BP 算法是一样的，同样是三步：

1. 前向计算每个神经元的输出值；
1. 反向计算每个神经元的误差项值，它是误差函数E对神经元j的加权输入的偏导数；
1. 计算每个权重的梯度。

最后再用随机梯度下降算法更新权重。

BP 算法的详细推导可以看这篇：
手写，纯享版反向传播算法公式推导
 http://www.jianshu.com/p/9e217cfd8a49

下面详细解析各步骤：

1. 前向计算

计算隐藏层 S 以及它的矩阵形式：
注意下图中，各变量的维度，标在右下角了，
s 的上标代表时刻，下标代表这个向量的第几个元素。

详解循环神经网络(Recurrent Neural Network)

1

2. 误差项的计算

BTPP 算法就是将第 l 层 t 时刻的误差值沿两个方向传播：

一个方向是，传递到上一层网络，这部分只和权重矩阵 U 有关；（就相当于把全连接网络旋转90度来看）
另一个是方向是，沿时间线传递到初始时刻，这部分只和权重矩阵 W 有关。

如下图所示：

详解循环神经网络(Recurrent Neural Network)

所以，就是要求这两个方向的误差项的公式：

学习资料中式 3 就是将误差项沿时间反向传播的算法，求到了任意时刻k的误差项

详解循环神经网络(Recurrent Neural Network)

下面是具体的推导过程：
主要就是用了链锁反应和 Jacobian 矩阵

详解循环神经网络(Recurrent Neural Network)

2

其中 s 和 net 的关系如下，有助于理解求导公式：

详解循环神经网络(Recurrent Neural Network)

学习资料中式 4 就是将误差项传递到上一层算法：

详解循环神经网络(Recurrent Neural Network)

这一步和普通的全连接层的算法是完全一样的，具体的推导过程如下：

详解循环神经网络(Recurrent Neural Network)

3

其中 net 的 l 层和 l－1 层的关系如下：

详解循环神经网络(Recurrent Neural Network)

BPTT 算法的最后一步：计算每个权重的梯度
学习资料中式 6 就是计算循环层权重矩阵 W 的梯度的公式：

详解循环神经网络(Recurrent Neural Network)

具体的推导过程如下：

详解循环神经网络(Recurrent Neural Network)

4

和权重矩阵 W 的梯度计算方式一样，可以得到误差函数在 t 时刻对权重矩阵 U 的梯度：

详解循环神经网络(Recurrent Neural Network)

3. 基于 RNN 的语言模型例子

我们要用 RNN 做这样一件事情，每输入一个词，循环神经网络就输出截止到目前为止，下一个最可能的词，如下图所示：

详解循环神经网络(Recurrent Neural Network)

首先，要把词表达为向量的形式：

建立一个包含所有词的词典，每个词在词典里面有一个唯一的编号。
任意一个词都可以用一个N维的one-hot向量来表示。

详解循环神经网络(Recurrent Neural Network)

这种向量化方法，我们就得到了一个高维、稀疏的向量，这之后需要使用一些降维方法，将高维的稀疏向量转变为低维的稠密向量。

为了输出 “最可能” 的词，所以需要计算词典中每个词是当前词的下一个词的概率，再选择概率最大的那一个。

因此，神经网络的输出向量也是一个 N 维向量，向量中的每个元素对应着词典中相应的词是下一个词的概率：

详解循环神经网络(Recurrent Neural Network)

为了让神经网络输出概率，就要用到 softmax 层作为输出层。

softmax函数的定义：
因为和概率的特征是一样的，所以可以把它们看做是概率。

详解循环神经网络(Recurrent Neural Network)

例：

详解循环神经网络(Recurrent Neural Network)

计算过程为：

详解循环神经网络(Recurrent Neural Network)

含义就是：
模型预测下一个词是词典中第一个词的概率是 0.03，是词典中第二个词的概率是 0.09。

语言模型如何训练？

把语料转换成语言模型的训练数据集，即对输入 x 和标签 y 进行向量化，y 也是一个 one-hot 向量

详解循环神经网络(Recurrent Neural Network)

接下来，对概率进行建模，一般用交叉熵误差函数作为优化目标。

交叉熵误差函数，其定义如下：

详解循环神经网络(Recurrent Neural Network)

用上面例子就是：

详解循环神经网络(Recurrent Neural Network)

计算过程如下：

详解循环神经网络(Recurrent Neural Network)

有了模型，优化目标，梯度表达式，就可以用梯度下降算法进行训练了。

4. 代码实现

RNN 的 Python 实现代码可以在学习资料中找到。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：详解循环神经网络(Recurrent Neural Network) - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

关于卷积神经网络（CNN）与递归/循环神经网络(RNN)的入门学习

上一篇 2023年4月6日上午11:20

【机器学习面试题】——循环神经网络(RNN)

下一篇 2023年4月6日上午11:21

Caffe

caffe 训练过程中输出log日志,并可视化loss和accuracy曲线

使用Caffe自带的tools来产生loss和accuracy曲线举例说明: 本人训练时,使用的文件如下: [ trainsh->solve.py->solver.prototxt->train_val.prototxt ] 1. 训练过程中保存日志执行如下命令: bash ./train.sh 2>&1 |tee log…

2023年4月8日
000
Keras

环境配置—Tensorflow和Keras的版本对应关系

环境配置版本问题—Tensorflow和Keras的版本对应关系版本问题—Tensorflow和Keras的版本对应关系 keras和tensorflow的版本对应关系，可参考：您的支持，是我不断创作的最大动力~ 欢迎点赞，关注，留言交流~ 深度学习，乐此不疲~

2023年4月8日
000
目标检测

吴裕雄 python 人工智能——基于Mask_RCNN目标检测（3）

import os import sys import random import math import re import time import numpy as np import cv2 import matplotlib import matplotlib.pyplot as plt from config import Config impor…

2023年4月5日
000
GAN相关：PAN（Perceptual Adversarial Network）/ 感知对抗网络

GAN相关：PAN（Perceptual Adversarial Network）/ 感知对抗网络 Perceptual Adversarial Networks for Image-to-Image Transformation Chaoyue Wang et al intro 首先介绍pixel-wise的图像任务。指出用传统的l1和l2 norm来进行…

GAN生成对抗网络 2023年4月7日
000
Caffe

caffe笔记之例程学习（三）

原文链接：caffe.berkeleyvision.org/tutorial/layers.html 创建caffe模型，首先要在protocol buffer 定义文件(prototxt)中定义结构。在caffe环境中，图像的明显特征是其空间结构。主要layers 主要功能主要类型其他卷积层提取特征 CONVOLUTION 学习率、数据维度池…

2023年4月5日
000
GAN生成对抗网络

李宏毅机器学习2016 第十六讲生成对抗网络 GAN

视频链接：李宏毅机器学习(2016)_演讲•公开课_科技_bilibili_哔哩哔哩课程资源：Hung-yi Lee 课程相关PPT已经打包命名好了：链接：https://pan.baidu.com/s/1c3Jyh6S 密码：77u5 我的第十五讲笔记：李宏毅机器学习2016 第十五讲无监督学习生成模型之 VAE Generative Adversa…

2023年4月6日
000
【机器学习】PCA

目录 PCA 1. PCA最大可分性的思想 2. 基变换（线性变换） 3. 方差 4. 协方差 5. 协方差矩阵 6. 协方差矩阵对角化 7. PCA算法流程 8. PCA算法总结 PCA 就是找出数据最主要的方面，用数据里最主要的方面来代替原始数据。 PCA 是最重要的降维方法之一，在数据压缩、消除冗余和数据噪音消除等领域都有广泛的应用。 1. PCA最大…

机器学习 2023年4月13日
000
keras各种问题

还是不熟悉造成的，keras的各种包使用起来真是有点小麻烦。导入方式不同就容易引起错误，也不提示你导入的库不存在，但是就是调用的时候报错。比如近期写文章想画模型图，plot_model模块导入出问题。正确的是使用keras.utils.plot_model，而不是tf.keras.utils.plot_model，我其实开始是先在开始import pl…

Keras 2023年4月6日
000

合作推广

合作推广

返回顶部