详解循环神经网络(Recurrent Neural Network)

2023年4月6日上午11:21 • 循环神经网络

本文结构：

模型
训练算法
基于 RNN 的语言模型例子
代码实现

1. 模型

和全连接网络的区别
更细致到向量级的连接图
为什么循环神经网络可以往前看任意多个输入值

循环神经网络种类繁多，今天只看最基本的循环神经网络，这个基础攻克下来，理解拓展形式也不是问题。

首先看它和全连接网络的区别：

下图是一个全连接网络：
它的隐藏层的值只取决于输入的 x

详解循环神经网络(Recurrent Neural Network)

而 RNN 的隐藏层的值 s 不仅仅取决于当前这次的输入 x，还取决于上一次隐藏层的值 s：
这个过程画成简图是这个样子：

详解循环神经网络(Recurrent Neural Network)

其中，t 是时刻， x 是输入层， s 是隐藏层， o 是输出层，矩阵 W 就是隐藏层上一次的值作为这一次的输入的权重。

上面的简图还不能够说明细节，来看一下更细致到向量级的连接图：

详解循环神经网络(Recurrent Neural Network)

Elman network

Elman and Jordan networks are also known as "simple recurrent networks" (SRN).

其中各变量含义：

详解循环神经网络(Recurrent Neural Network)

输出层是一个全连接层，它的每个节点都和隐藏层的每个节点相连，
隐藏层是循环层。

图来自wiki：https://en.wikipedia.org/wiki/Recurrent_neural_network#Gated_recurrent_unit

为什么循环神经网络可以往前看任意多个输入值呢？

来看下面的公式，即 RNN 的输出层 o 和隐藏层 s 的计算方法：

详解循环神经网络(Recurrent Neural Network)

如果反复把式 2 带入到式 1，将得到：

详解循环神经网络(Recurrent Neural Network)

这就是原因。

2. 训练算法

RNN 的训练算法为：BPTT

BPTT 的基本原理和 BP 算法是一样的，同样是三步：

1. 前向计算每个神经元的输出值；
1. 反向计算每个神经元的误差项值，它是误差函数E对神经元j的加权输入的偏导数；
1. 计算每个权重的梯度。

最后再用随机梯度下降算法更新权重。

BP 算法的详细推导可以看这篇：
手写，纯享版反向传播算法公式推导
 http://www.jianshu.com/p/9e217cfd8a49

下面详细解析各步骤：

1. 前向计算

计算隐藏层 S 以及它的矩阵形式：
注意下图中，各变量的维度，标在右下角了，
s 的上标代表时刻，下标代表这个向量的第几个元素。

详解循环神经网络(Recurrent Neural Network)

1

2. 误差项的计算

BTPP 算法就是将第 l 层 t 时刻的误差值沿两个方向传播：

一个方向是，传递到上一层网络，这部分只和权重矩阵 U 有关；（就相当于把全连接网络旋转90度来看）
另一个是方向是，沿时间线传递到初始时刻，这部分只和权重矩阵 W 有关。

如下图所示：

详解循环神经网络(Recurrent Neural Network)

所以，就是要求这两个方向的误差项的公式：

学习资料中式 3 就是将误差项沿时间反向传播的算法，求到了任意时刻k的误差项

详解循环神经网络(Recurrent Neural Network)

下面是具体的推导过程：
主要就是用了链锁反应和 Jacobian 矩阵

详解循环神经网络(Recurrent Neural Network)

2

其中 s 和 net 的关系如下，有助于理解求导公式：

详解循环神经网络(Recurrent Neural Network)

学习资料中式 4 就是将误差项传递到上一层算法：

详解循环神经网络(Recurrent Neural Network)

这一步和普通的全连接层的算法是完全一样的，具体的推导过程如下：

详解循环神经网络(Recurrent Neural Network)

3

其中 net 的 l 层和 l－1 层的关系如下：

详解循环神经网络(Recurrent Neural Network)

BPTT 算法的最后一步：计算每个权重的梯度
学习资料中式 6 就是计算循环层权重矩阵 W 的梯度的公式：

详解循环神经网络(Recurrent Neural Network)

具体的推导过程如下：

详解循环神经网络(Recurrent Neural Network)

4

和权重矩阵 W 的梯度计算方式一样，可以得到误差函数在 t 时刻对权重矩阵 U 的梯度：

详解循环神经网络(Recurrent Neural Network)

3. 基于 RNN 的语言模型例子

我们要用 RNN 做这样一件事情，每输入一个词，循环神经网络就输出截止到目前为止，下一个最可能的词，如下图所示：

详解循环神经网络(Recurrent Neural Network)

首先，要把词表达为向量的形式：

建立一个包含所有词的词典，每个词在词典里面有一个唯一的编号。
任意一个词都可以用一个N维的one-hot向量来表示。

详解循环神经网络(Recurrent Neural Network)

这种向量化方法，我们就得到了一个高维、稀疏的向量，这之后需要使用一些降维方法，将高维的稀疏向量转变为低维的稠密向量。

为了输出 “最可能” 的词，所以需要计算词典中每个词是当前词的下一个词的概率，再选择概率最大的那一个。

因此，神经网络的输出向量也是一个 N 维向量，向量中的每个元素对应着词典中相应的词是下一个词的概率：

详解循环神经网络(Recurrent Neural Network)

为了让神经网络输出概率，就要用到 softmax 层作为输出层。

softmax函数的定义：
因为和概率的特征是一样的，所以可以把它们看做是概率。

详解循环神经网络(Recurrent Neural Network)

例：

详解循环神经网络(Recurrent Neural Network)

计算过程为：

详解循环神经网络(Recurrent Neural Network)

含义就是：
模型预测下一个词是词典中第一个词的概率是 0.03，是词典中第二个词的概率是 0.09。

语言模型如何训练？

把语料转换成语言模型的训练数据集，即对输入 x 和标签 y 进行向量化，y 也是一个 one-hot 向量

详解循环神经网络(Recurrent Neural Network)

接下来，对概率进行建模，一般用交叉熵误差函数作为优化目标。

交叉熵误差函数，其定义如下：

详解循环神经网络(Recurrent Neural Network)

用上面例子就是：

详解循环神经网络(Recurrent Neural Network)

计算过程如下：

详解循环神经网络(Recurrent Neural Network)

有了模型，优化目标，梯度表达式，就可以用梯度下降算法进行训练了。

4. 代码实现

RNN 的 Python 实现代码可以在学习资料中找到。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：详解循环神经网络(Recurrent Neural Network) - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

关于卷积神经网络（CNN）与递归/循环神经网络(RNN)的入门学习

上一篇 2023年4月6日上午11:20

【机器学习面试题】——循环神经网络(RNN)

下一篇 2023年4月6日上午11:21

卷积神经网络

卷积神经网络（四）人脸识别和风格转换

人脸识别 1、One-shot learning（一次学习）：仅仅通过一张图片来完成人脸识别，即只能通过一个样本来学习. similarity函数： d(img1,img2) = degree of difference between images 识别任务（verification）： if d(img1,img2) ≤ τ：“same”； else：…

2023年4月8日
000
机器学习之拟合和过拟合问题

过拟合：当某个模型过度的学习训练数据中的细节和噪音，以至于模型在新的数据上表现很差，我们称过拟合发生了，通俗点就是：模型在训练集中测试的准确度远远高于在测试集中的准确度。过拟合问题通常发生在变量特征过多的时候。这种情况下训练出的方程总是能很好的拟合训练数据，也就是说，我们的代价函数可能非常接近于0或者就为0，使其拟合只局限于训练样本中，无法很好预测其他新的…

机器学习 2023年4月16日
000
pytorch下的lib库源码阅读笔记（1）

置顶：将pytorch clone到本地，查看initial commit，已经是麻雀虽小五脏俱全了，非常适合作为学习模板。 2017年12月7日01:24:15 2017-10-25 17:51 参考了知乎问题如何有效地阅读PyTorch的源代码？相关回答按照构建顺序来阅读代码是很聪明的方法。 1，TH中最核心的是THStorage、THTen…

PyTorch 2023年4月8日
000
循环神经网络

欠拟合和过拟合&&梯度消失和梯度爆炸&&循环神经网络进阶

一.欠拟合和过拟合 1.1训练误差与泛化误差在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。 1.2 模型选择1.2.1 验证数据集从严格意义…

2023年4月8日
000
tensorflow

快速入门 TensorFlow2 模型部署

机器学习问题不仅是一个科学问题，更是一个工程问题。大多数年轻的数据科学家都希望将大部分时间花在构建完美的机器学习模型上，但是企业不仅需要训练一个完美的模型，同时也需要将其部署，向用户提供便捷的服务。如下图所示，机器学习系统由机器学习代只包含一小部分，而在中间的小黑匣子周围，所需要的基础设施庞大而复杂。因此，在实际应用中，一个优秀的程序员不仅要学会构建完…

2023年4月8日
000
PyTorch

pytorch常用函数总结（持续更新)

torch.max(input,dim) 求取指定维度上的最大值，,返回输入张量给定维度上每行的最大值，并同时返回每个最大值的位置索引。比如： demo.shape Out[7]: torch.Size([10, 3, 10, 10]) torch.max(demo,1)[0].shape Out[8]: torch.Size([10, 10, 10]) t…

2023年4月6日
000
循环神经网络

深度学习笔记——循环神经网络RNN/LSTM

原文来自知乎专栏NLP进阶之路，作者韦伟。以下文章是摘录了原文部分内容的学习笔记，侵删。循环神经网络（Rerrent Neural Network) RNN是神经网络的一种，RNN对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息。其中，序列特性包括时间顺序，逻辑顺序等其他顺序。例如：I like eating apple ! / The …

2023年4月6日
000
目标检测

目标检测之Loss：softmaxLoss函数代码解读

在caffe中softmaxwithLoss是由两部分组成，softmax+Loss组成，其实主要就是为了caffe框架的可扩展性。表达式（1）是softmax计算表达式，（2）是sfotmaxLoss的计算损失表达。在caffe中是单独的计算每层的输入和输出，然后再进行向后传递data结果和向前传递diff的结果。 caffe中softma…

2023年4月8日
000

合作推广

合作推广

返回顶部