深度学习NLP开篇-循环神经网络(RNN)

2023年4月7日下午10:13 • 循环神经网络

从这篇文章开始，有三AI-NLP专栏就要进入深度学习了。本文会介绍自然语言处理早期标志性的特征提取工具-循环神经网络(RNN)。首先，会介绍RNN提出的由来；然后，详细介绍RNN的模型结构，前向传播和反向传播的过程；最后，讨论RNN的特点及其优劣势。

作者&编辑 | 小Dream哥

完整的NLP深度学习介绍，应该从反向传播(BP)开始，进而介绍深度神经网络(DNN)，卷积神经网络(CNN)也是必不可少的内容。鉴于有三AI已经发布了大量的CV相关的文章，其中必有相关的介绍。所以，在NLP专栏就暂不介绍相关的内容了。如果有需要的同学，可以留言提出来。

1 引言：RNN

对于一些序列输入的信息，例如语音、语言等，不同时刻之间的输入存在相互的影响，需要一种模型能够“记忆”历史输入的信息，进而对整个序列进行完整的特征提取和表征。

循环神经网络(RNN)就是面对这样的需求提出来的，它能够“记忆”序列输入的历史信息，从而能够较好的对整个序列进行语义建模。

目前，RNN及其变种在NLP领域有着广泛的应用。语音识别、对话系统、机器翻译、情感分析等等领域，在产业界，RNN及其变种都是最主要的特征提取工具。

关于RNN的特性，这里先不做太多理论上的说明，等介绍完其结构、前向传播和反向传播后我们再来讨论。

基于篇幅的限制，本文会先介绍最基本的RNN模型结构和原理，LSTM会在下一篇文章中做详细的介绍。

2 RNN的结构

深度学习NLP开篇-循环神经网络(RNN)

如上图所示，是RNN的结构图。相较于CNN繁杂的卷积运算过程和复杂的网络层次，RNN的模型结构看上去相当的简洁。同样的，RNN模型的结构也分为输入层(Input Layer)、隐藏层(Hidden Layer)和输出层(Output Layer)。图中的箭头表示数据的流动，需要注意的是在隐藏层，有一个回流的箭头，这是这个箭头的作用，使得RNN具有了“记忆”的能力。

这样看，同学们可能还无法看清楚数据在RNN模型内到底是如何流动的。我们将RNN模型的单元按时间展开，如下图所示：

深度学习NLP开篇-循环神经网络(RNN)

图片来自：https://www.nature.com/articles/nature14539

可以看到，不同时刻的数据x_t与上一时刻的状态s_(t-1)，从输入层输入，经过一系列运算(**函数)之后，得到该时刻的状态s_t，s_t再经过矩阵运算得到该时刻的输出o_t，同时t时刻的状态s_t会传给下一时刻的输入层。

通过这种方式，任意时刻的序列输入都会包含前面所有时刻的状态信息，就实现了“记忆”的目的，实际就是一种残差的结构。

需要注意的是，这里所有的RNN结构单元是权重共享的，用大白话说，就是只有一个RNN单元。

下面我们来详细看看数据的流动过程，也就是RNN的正向传播与反向传播过程。

3 RNN的正向传播

RNN的正向传播过程，就是通过输入数据x_t，求该时刻的RNN单元状态(Cell State)s_t以及输出o_t的过程。

我们先来看s_t

深度学习NLP开篇-循环神经网络(RNN)

U和W是权重参数，f是**函数，**函数有sigmoid、relu以及tanh等。

o_t的计算过程为：

深度学习NLP开篇-循环神经网络(RNN)

V是权重参数，g是输出函数，因为通常是预测类别，所以一般是softmax。

4 RNN的反向传播

下面我们基于RNN的正向传播过程来介绍下RNN的反向传播过程。RNN的反向传播与DNN的反向传播的基本理论是一致的。差别在于，因为RNN是序列的输入，因此其反向传播是基于时间的，叫BPTT(Back PropagationThrough Time)。

与DNN一致，反向传播的过程其实就是更新参数U，W，V的过程。知道反向传播的同学应该知道，更新，W，V其实就是求梯度。

用L_t表示t时刻的模型损失，则输入完一个序列后的总损失值为：

深度学习NLP开篇-循环神经网络(RNN)

我们先来看参数V的更新，根据偏导公式，

深度学习NLP开篇-循环神经网络(RNN)

损失函数通常为交叉熵，因此，

深度学习NLP开篇-循环神经网络(RNN)

再来看看W和U的更新，像DNN的反向传播一样，我们引入一个中间变量，暂称之误差delta，t时刻的误差delta_t：

深度学习NLP开篇-循环神经网络(RNN)

我们的目标是要得到一个递推公式，用delta_(t+1)来表示delta_t，注意这里**函数用的是tanh函数。

深度学习NLP开篇-循环神经网络(RNN)

最后时刻的误差可以表示为：

深度学习NLP开篇-循环神经网络(RNN)

这样就可以通过delta_T一步一步得到所有时刻的误差。

那么，怎么通过误差得到W和U的梯度呢？

深度学习NLP开篇-循环神经网络(RNN)

深度学习NLP开篇-循环神经网络(RNN)

罗列了一大堆的公式，肯定有同学看花了眼。公式推导有不明白的地方，没有关系，我们暂且先放下，后面再慢慢的思考，最重要的是理解反向传播时，梯度更新的思想和技巧。下面我带着大家总结一下这个过程，相信你能获益匪浅。

1.正向传播，求得所有时刻的x_t，o_t，s_t

2. 根据梯度公式，求V的梯度

3. 求得T时刻的误差delta_T

4.根据误差的递推公式，求得所有时刻的误差delta_1,delta_2,...,delta_T

5. 根据梯度公式，和上述误差值求得W的梯度

6. 根据梯度公式，和上述误差值求得U的梯度

7. 更新权重参数

总结

上文详细讲述了RNN的模型结构及其正向和反向传播过程。

RNN虽然理论上可以很漂亮的解决序列数据的训练，但是它也像DNN一样有梯度消失的问题，当序列很长的时候问题尤其严重。虽然同选择合适的**函数等方法能够一定程度的减轻该问题。但人们往往更青睐于使用RNN的变种。

因此，上面的RNN模型一般都没有直接应用的领域。在语音识别，对话系统以及机器翻译等NLP领域实际应用比较广泛的是基于RNN模型的变种。

深度学习NLP开篇-循环神经网络(RNN)

“哪吒头”—玩转小潮流

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习NLP开篇-循环神经网络(RNN) - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

解决梯度消失梯度爆炸强力推荐的一个算法—–GRU（门控循环神经⽹络）

上一篇 2023年4月7日

4.4 高级神经网络结构-什么是 LSTM 循环神经网络

下一篇 2023年4月7日

pytorch下的lib库源码阅读笔记（1）

置顶：将pytorch clone到本地，查看initial commit，已经是麻雀虽小五脏俱全了，非常适合作为学习模板。 2017年12月7日01:24:15 2017-10-25 17:51 参考了知乎问题如何有效地阅读PyTorch的源代码？相关回答按照构建顺序来阅读代码是很聪明的方法。 1，TH中最核心的是THStorage、THTen…

PyTorch 2023年4月8日
000
目标检测

干货 | 基于深度学习的目标检测算法综述

来源｜美图云视觉技术部编辑｜Debra AI 前线导读：目标检测（Object Detection）是计算机视觉领域的基本任务之一，学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展，目标检测算法也从基于手工特征的传统算法转向了基于深度神经网络的检测技术。从最初 2013 年提出的 R-CNN、OverFeat，到后面的 Fast/Faste…

2023年4月8日
000
循环神经网络

用tensorflow实现自然语言处理——基于循环神经网络的神经语言模型

自然语言处理和图像处理不同，作为人类抽象出来的高级表达形式，它和图像、声音不同，图像和声音十分直觉，比如图像的像素的颜色表达可以直接量化成数字输入到神经网络中，当然如果是经过压缩的格式jpeg等必须还要经过一个解码的过程才能变成像素的高阶矩阵的形式，而自然语言则不同，自然语言和数字之间没有那么直接的相关关系，也就不是那么容易作为特征输入到神经网络中去了，所以…

2023年4月6日
000
Caffe之layer_factory

之前在测试NN中各个层的时间的时候，遇到一个非常奇怪的问题，分别使用Caffe自己的gpu方法和cuDNN方法，在卷积上性能差异非常大，但是在pooling层上基本没有变化。抽空检查了代码之后，发现是layer_factory模式导致的问题。下面就以下几个方面来进行 1.工厂模式 2.layer_factory详解 3.layer_factory中坑 4.问…

Caffe 2023年4月6日
000
GAN生成对抗网络

生成对抗网络GAN系列（四）— LSGAN—最小二乘GAN（Least Squares Generative Adversarial Networks）—

Least Squares Generative Adversarial Networks Xudong Mao, Qing Li, Haoran Xie, Raymond Y.K. Lau, Zhen Wang, Stephen Paul Smolley 论文链接：https://arxiv.org/pdf/1611.04076.pdf 1.简介传统的G…

2023年4月5日
000
CNN卷积层：ReLU函数 Rectified Linear Units)激活函数

卷积层的非线性部分一、ReLU定义 ReLU：全称 Rectified Linear Units)激活函数定义 def relu(x): 　　return x if x >0 else 0 #Softplus为ReLU的平滑版二、传统sigmoid系激活函数 Sigmoid与人的神经反应很相似，在很多浅层模型上发挥巨大作用传统神经网络中最常…

卷积神经网络 2023年4月7日
000
Caffe

在Caffe添加Python layer详细步骤

本文主要讨论的是在caffe中添加python layer的一般流程，自己设计的test_python_layer.py层只是起到演示作用，没有实际的功能。 1） Python layer 在caffe目录结构中放哪？下图是caffe的目录结构，在本文中我是将python layer防止examples/pycaffe/layers/下 2）Pytho…

2023年4月8日
000
目标检测

多尺度目标检测 Multiscale Object Detection

多尺度目标检测 Multiscale Object Detection 我们在输入图像的每个像素上生成多个锚框。这些定位框用于对输入图像的不同区域进行采样。但是，如果锚定框是以图像的每个像素为中心生成的，很快就会有太多的锚框供我们计算。例如，我们假设输入图像的高度和宽度分别为561和728像素。如果以每个像素为中心生成五个不同形状的锚框，则超过两百万个锚框(…

2023年4月6日
000

合作推广

合作推广

返回顶部