神经网络基础-循环神经网络

2023年4月8日上午9:30 • 循环神经网络

在深度学习的路上，从头开始了解一下各项技术。本人是DL小白，连续记录我自己看的一些东西，大家可以互相交流。

本文参考：本文参考吴恩达老师的Coursera深度学习课程，很棒的课，推荐

本文默认你已经大致了解深度学习的简单概念，如果需要更简单的例子，可以参考吴恩达老师的入门课程：

http://study.163.com/courses-search?keyword=%E5%90%B4%E6%81%A9%E8%BE%BE#/?ot=5

转载请注明出处，其他的随你便咯

一、前言

循环神经网络(Recurrent Neural Network，RNN)是一类用于处理序列数据的神经网络。我们在深度学习的学习过程中，会碰到很多序列类型的问题，这时候普通的的神经网络在处理这类问题的时候不适用，所以提出了这种特别的神经网络，在自然语言处理情形下，很有优势。

二、序列模型

我们在深度学习的领域，经常能碰到如下的一些问题：

语音识别：将输入的语音信号直接输出相应的语音文本信息。无论是语音信号还是文本信息均是序列数据。
音乐生成：生成音乐乐谱。只有输出的音乐乐谱是序列数据，输入可以是空或者一个整数。
情感分类：将输入的评论句子转换为相应的等级或评分。输入是一个序列，输出则是一个单独的类别。
DNA序列分析：找到输入的DNA序列的蛋白质表达的子序列。
机器翻译：两种不同语言之间的想换转换。输入和输出均为序列数据。
视频行为识别：识别输入的视频帧序列中的人物行为。
命名实体识别：从输入的句子中识别实体的名字。

神经网络基础-循环神经网络

在这些问题中，我们的输入值和输出值，并不是固定长度，也可能需要根据的上下文来判断。我们先给出一个普通神经网络模型：

神经网络基础-循环神经网络

首先给出数学符号定义：

输入x：如“Harry Potter and Herminone Granger invented a new spell.”(以序列作为一个输入)，x<t>表示输入x中的第t个符号。
输出y：如“1 1 0 1 1 0 0 0 0”（人名识别定位），同样，用y<t>表示输出y中的第t个符号。
Tx用来表示输入x的长度；
Ty用来表示输出y的长度；
x(i)<t>表示第i个样本的第t个符号，其余同理。
利用单词字典编码来表示每一个输入的符号：如one-hot编码等，实现输入x和输出y之间的映射关系。

在上图表示的神经网络中，我们发现主要存在下面俩个问题：

输入和输出数据在不同的样本中可能有不同的长度；
在不同文本中每一个位置学习的特征值不能共享，也就是说权重的最优值在每个样本都不固定。

为了改变上述问题，所以提出了循环神经网络(RNN)。

三、循环神经网络

在RNN中，我们通过延迟输出和传递时间步来解决上述两个问题。在每一个时间步中，RNN会传递一个**值到下一个时间步中，用于下一个时间步的计算。下面给出RNN的图示：

神经网络基础-循环神经网络

如上图，每个X<t>都输入进一个NN，同时输出一个Yhat<t>和一个a<t>。Yhat<t>是基于这个输入X<t>对应的输出值，a<t>是目标节点之前需要记忆的数据的集合。RNN是从左到右扫描数据的，同时共享每个时间步的参数。右侧是RNN的简写方式。

这是需要注意的是，在零时刻a<0>，需要初始化一个**值输入。通常输入零向量，也可以用随机数的方法来输入。

在图中红字所示的Wax、Waa和Way是权重，这三个参数在每个时间步中共享(参数相同)：

Wax是从输入值X<t>到隐层a<t>的连接权重；

Waa是从a隐层<t-1>到隐层a<t>的连接权重；

Wya是从隐层a<t>到输出层Yhat<t>的连接权重。

PS.上述RNN还有一个问题，每个预测值Yhat<t>只包含了在它之前的信息，而没有使用后面的信息，这个问题可以用BRNN(双向循环神经网络)或SLTM来解决，后文会提到。

RNN的前向传播

我们给出一个RNN的结构图：

神经网络基础-循环神经网络

接下来是前向传播的步骤：

构造初始**向量：a<0> = 0(向量)；
- 我们通常用tanh作为**函数，有时也可以用ReLU；
- 如果是二分类问题，可以用sigmoid**函数，如果是多分类问题，可以用softmax**函数；

Note：我们可以利用矩阵的乘法，将Waa和Wax拼为Wa；将a<t-1>和x<t>拼在一起，这将就可以简化我们的前向传播公式：

神经网络基础-循环神经网络

如上简化之后，RNN的前向传播公式为：

神经网络基础-循环神经网络

RNN的反向传播

我们在进行RNN的反向传播计算时候，也是使用梯度下降法来更新RNN的参数，我们定义其损失函数为：

神经网络基础-循环神经网络

在RNN中，反向传播称为穿越时间的反向传播，因为需要通过时间步来传递。

不同类型的RNN

多对多(Tx = Ty)：

在输入和输出的长度相同时，是上面例子的结构，如下图所示：

神经网络基础-循环神经网络

多对多(Tx != Ty)：

在输入和输出长度不同时候，会有如下结构：

神经网络基础-循环神经网络

多对一：

比如在情感分类模型中，我们对一段语言文本进行情感判断。输入值是一个序列，而输出值只有一个值：

神经网络基础-循环神经网络

一对多：

比如在音乐生成模型中，我们输入一个音乐的类型，输出为一段音乐序列：

神经网络基础-循环神经网络

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：神经网络基础-循环神经网络 - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

[机器学习入门] 李宏毅机器学习笔记-32 (Recurrent Neural Network part 1;循环神经网络 part 1)

上一篇 2023年4月8日上午9:30

循环神经网络的 Dropout

下一篇 2023年4月8日上午9:31

caffe学习(1):多平台下安装配置caffe 如何在 centos 7.3 上安装 caffe 深度学习工具

有好多朋友在安装 caffe 时遇到不少问题。(看文章的朋友希望关心一下我的创业项目趣智思成) 今天测试并整理一下安装过程。我是在阿里云上测试，选择centos 7.3 镜像。先安装 epel 源 1 yum install epel-release 安装基本编译环境 1 2 yum install protobuf-devel leveldb-de…

Caffe 2023年4月8日
000
目标检测

目标检测YOLOV2：You Only Look Once

参考文献：Redmon J , Farhadi A . [IEEE 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) – Honolulu, HI (2017.7.21-2017.7.26)] 2017 IEEE Conference on Computer Visi…

2023年4月8日
000
卷积神经网络

深度拾遗(06) – 1X1卷积/global average pooling

什么是1X1卷积 11的卷积就是对上一层的多个feature channels线性叠加，channel加权平均。只不过这个组合系数恰好可以看成是一个11的卷积。这种表示的好处是，完全可以回到模型中其他常见N*N的框架下，不用定义新的层。比如上一层通过100个卷积核得到了 W * H * 100的数据，进行10个1X1卷积后得到 W * H * 10 的数据，…

2023年4月6日
000
PyTorch

基于 PyTorch 和神经网络给 GirlFriend 制作漫画风头像

摘要：本文中我们介绍的 AnimeGAN 就是 GitHub 上一款爆火的二次元漫画风格迁移工具，可以实现快速的动画风格迁移。本文分享自华为云社区《AnimeGANv2 照片动漫化：如何基于 PyTorch 和神经网络给 GirlFriend 制作漫画风头像？【秋招特训】》，作者：白鹿第一帅。前言将现实世界场景的照片转换为动漫风格图像的方法，这是计算…

2023年4月8日
000
tensorflow

【原创深度学习与TensorFlow 动手实践系列 – 1】第一课：深度学习总体介绍

最近一直在研究机器学习，看过两本机器学习的书，然后又看到深度学习，对深度学习产生了浓厚的兴趣，希望短时间内可以做到深度学习的入门和实践，因此写一个深度学习系列吧，通过实践来掌握《深度学习》和 TensorFlow，希望做成一个系列出来，加油！学习内容包括了： 1. 小象学院的《深度学习》课程 2. TensorFlow的官方教程 3. 互联网上跟深度学…

2023年4月8日
000
Caffe

ubuntu14.04&matlab2015b 测试caffe的Matlab接口

Step1: 修改caffe-master中的Makefile.config 提示：可以到文件中直接“ctrl+f”，键入相应大写字母即可查找到相应位置。 Step2：编译接口。如果之前编译caffe环境时候，已经runtest过了的话，可以直接编译接口，在caffe-master目录下打开终端，输入： make catcaffe。注：一定记得在这步之前修…

2023年4月5日
000
循环神经网络

循环神经网络–LSTM（Long-Short Term Memory）与GRU（Gated Recurrent Unit ）

LSTM 为了解决 Gradient Vanish 的问题，Hochreiter&Schmidhuber 在论文“Long short-term memory, 1997”中提出了 LSTM（Long Short-Term Memory）。原始的 LSTM 只有 Input Gate、Output Gate。而咱们现在常说的 LSTM 还有 Forg…

2023年4月8日
000
PyTorch

深度学习之PyTorch实战（4）——迁移学习

　　（这篇博客其实很早之前就写过了，就是自己对当前学习pytorch的一个教程学习做了一个学习笔记，一直未发现，今天整理一下，发出来与前面基础形成连载，方便初学者看，但是可能部分pytorch和torchvision的API接口已经更新了，导致部分代码会产生报错，但是其思想还是可以借鉴的。因为其中内容相对比较简单，而且目前其实torchvision中已经存…

2023年4月5日
000

合作推广

合作推广

返回顶部