循环神经网络(RNN) 基础详解

2023年4月7日下午9:53 • 循环神经网络

7.循环神经网络(RNN) 基础详解

7.1 RNN(recurrent neural network)原理

7.1.1 RNN为序列数据而生

词序其实是很重要的

循环神经网络(RNN) 基础详解

中文中，这样的例子也很多。“怎么样投资白银”vs“白银投资怎么样”；“北京到上海的机票”vs“上海到北京的机票”。

设计RNNs的目的，就是处理序列数据。

在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNNs之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNNs能够对任何长度的序列数据进行处理。

RNN was born in 1980s!

7.1.2 图灵机(Turing machine)

图灵机Turing machine可以看作等价于任何有限逻辑数学过程的终极强大逻辑机器。图灵机又称确定型图灵机，是英国数学家艾伦·图灵于1936年提出的一种抽象计算模型，其更抽象的意义为一种数学逻辑机。

turing-complete的定义:

A Turing Complete system means a system in which a program can be written that will find an answer (although with no guarantees regarding runtime or memory).

So, if somebody says "my new thing is Turing Complete" that means in principle (although often not in practice) it could be used to solve any computation problem.

神经图灵机(Neural Turing Machine)

循环神经网络(RNN) 基础详解

7.1.3 RNN的价值

我们知道，一个三层的前馈神经网络可以学到任何的函数，而RNN则是“turing-complete”的，它可以逼近任何算法。

RNN can approximate any algorithm

a recurrent neural network RNN is Turing complete and so can compute anything that can be computed.

RNN具有强大的计算和建模能力，因而只要合理建模，它就可以模拟任何计算过程。

RNN具有记忆能力。给RNN同样的输入，得到的输出可能是不一样的。

7.2 RNN的基本结构

RNNs包含输入单元(Input units)，输入集标记为{x0,x1,...,xt,xt+1,...}，而输出单元(Output units)的输出集则被标记为{y0,y1,...,yt,yt+1.,..}。RNNs还包含隐藏单元(Hidden units)，我们将其输出集标记为{h0,h1,...,ht,ht+1,...}，这些隐藏单元完成了最为主要的工作。

循环神经网络(RNN) 基础详解

各个变量的含义：

循环神经网络(RNN) 基础详解

展开以后形式：

循环神经网络(RNN) 基础详解

一个RNN的小例子：

循环神经网络(RNN) 基础详解

把RNN做深(deep)

循环神经网络(RNN) 基础详解

字符级别RNN

循环神经网络(RNN) 基础详解

char-rnn的代码

Torch版本

https://github.com/karpathy/char-rnn

Tensorflow版本

https://github.com/sherjilozair/char-rnn-tensorflow

7.3 RNN的高级形式

7.3.1 双向RNN (Bidirectional RNN )

RNN既然能继承历史信息，是不是也能吸收点未来的信息呢？因为在序列信号分析中，如果我能预知未来，对识别一定也是有所帮助的。因此就有了双向RNN、双向LSTM，同时利用历史和未来的信息。

循环神经网络(RNN) 基础详解

双向RNN

循环神经网络(RNN) 基础详解

值得一提的是，但由于RNN 建模中的遗忘性，最后一个 state 中包含的信息是有损的，且序列越靠前的信息损失可能越严重。一种比较可行的解决方法是同时训练两个RNN，一个正向学习，一个反向学习，将正向的和反向的最后一个state 对应向量 concate 后得到的向量作为最终产物。

循环神经网络(RNN) 基础详解

对于正向RNN最后一个向量中记录的信息量从前往后依次增强，反向的最后一个state记录的信息从后往前依次增强，两者组合正好记录了比较完整的信息

7.3.2 LSTM(Long Short-term Memory)

名字很有意思，又长又短的记忆？其实不是，注意“Short-term”中间有一个“—”连接。代表LSTM本质上还是短期记忆(short-term memory)，只是它是比较长一点的short-term memory。

循环神经网络(RNN) 基础详解

由于LSTM有四个参数做输入，LSTM需要的参数量是一般的神经网络模型的4倍。

循环神经网络(RNN) 基础详解

台湾大学李宏毅讲的LSTM的小例子，非常清晰。

https://www.youtube.com/watch?v=xCGidAeyS4M

LSTM在1997年由“Hochreiter & Schmidhuber”提出，目前已经成为RNN中的标准形式。

7.3.3 GRU(Gated Recurrent Unit)

LSTM的一个稍微简化一点的版本。只有两个gate，据说效果和LSTM差不多，但是参数少了1/3，不容易过拟合。

如果发现LSTM训练出来的模型过拟合比较严重，可以试试GRU

LSTM vs GRU

循环神经网络(RNN) 基础详解

7.4 RNN的训练

7.4.1 普通的RNN(simple RNN)不好训练

相较于CNN，RNN训练过程较不稳定，训练难度和计算量都大得多。当然，RNN用GPU加速效果会比较明显。

循环神经网络(RNN) 基础详解

RNN不好训练的原因

循环神经网络(RNN) 基础详解

weight被高频地使用，0.99的1000次方和1.01的1000次方有本质的区别。导致RNN的误差面(error surface)常常要么是很平坦要么是很陡峭(The error surface is either very flat or very steep)。

循环神经网络(RNN) 基础详解

7.4.2 LSTM，让RNN的训练更简单

1997年，LSTM的提出就是为了解决RNN的梯度弥散的问题(gradient vanish)。那么LSTM比普通的RNN好在哪呢？LSTM为什么能够解决gradient vanish的问题？

LSTM如何避免梯度消失：

循环神经网络(RNN) 基础详解

循环神经网络(RNN) 基础详解

参考文献：

[1] Rafa Jozefowicz et al. An Empirical Exploration of Recurrent Network Architectures.

[2] Junyoung Chung et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling.

虽然LSTM并没有解决梯度爆炸的问题，但是梯度膨胀(gradient explosion)不是个严重的问题，一般靠裁剪后的优化算法即可解决，比如gradient clipping（如果梯度的范数大于某个给定值，将梯度同比收缩），具体参考“梯度裁剪”。

经验：

训练LSTM要保证forget gate多数情况下都是开启的；

97年最开始提出LSTM就是为了解决梯度弥散的问题，最开始LSTM是没有forget gate的，forget gate是后来才加上的。

本文首发于：人工智能A7论坛

转载请注明出处

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：循环神经网络(RNN) 基础详解 - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

第六讲循环神经网络–LSTM–stock

上一篇 2023年4月7日

协同过滤结合循环神经网络的推荐系统——期末作业

下一篇 2023年4月7日

PyTorch

pytorch的topk()函数

pytorch.topk()用于返回Tensor中的前k个元素以及元素对应的索引值。例： import torch item=torch.IntTensor([1,2,4,7,3,2]) value,indices=torch.topk(item,3) print(“value:”,value) print(“indices:”,indices) 输出结果为…

2023年4月8日
000
基于区域的目标检测——细粒度

转自http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247485402&idx=2&sn=d4c0d65b75ebca219397cf2263ca480a&chksm=fb727b06cc05f21082d6e469496e7155974415250404d1e729…

目标检测 2023年4月7日
000
机器学习中减弱不同图像数据色调及颜色深浅差异

关键词：消除不同图像数据色调差异/消除颜色深浅差异/病理/机器学习/深度学习/人工智能机器学习训练图像数据时可能会因为图像数据之间的颜色深浅，色调等影响训练和预测结果，本方法可以减弱颜色深浅/色调不同对训练造成的影响本栗子用到的是彩色图片 import numpy as np import cv2 import histomicstk as htk ro…

机器学习 2023年4月13日
000
Keras

ubuntu 16.04+Anaconda+theano+keras安装

ubuntu 16.04+Anaconda+theano+keras安装安装软件部分浪费了好长时间才装好。之前一直各种问题，后来卸卸了radinka虚拟机，从头开始才终于弄好。 1，安装anaconda Anaconda集成了Python。这一部分基本上是完全按照网上来的，网页连接如下 http://blog.csdn.net/xi…

2023年4月8日
000
Caffe

CAFFE学习笔记（三）在VS2013下生成需要的exe文件

如我们所知，CAFFE_ROOT下有一个文件夹叫tools，里面中有许多cpp文件，它们各自有其不同的功能。但是很显然，当我们要完成某样工作时，我们是不能直接用cpp文件的，只能用exe文件。如何利用这些cpp文件生成exe文件呢？这就是本次博客的主题。请记住，一大堆繁琐的配置不是目的，我们的目标是成功compile和build文件夹tools中的cpp文件…

2023年4月6日
000
循环神经网络

循环神经网络之LSTM

1、从LSTM的经典图入手可以看到中间的 cell 里面有四个黄色小框:– 每一个小黄框代表一个前馈网络层，其实就是经典的神经网络的结构– 这个cell神经元个数和隐藏层个数皆可以设置– 其中1、2、4层的**函数是 sigmoid，第三层的**函数是 tanh。 2、对LSTM的理解 1）、cell 的状态是一个向量，是有多个值的 — cell在…

2023年4月6日
000
循环神经网络

RNN循环神经网络学习——概述

　　循环神经网络（Recurrent Neural NetWork,RNN）是一种将节点定向连接成环的人工神经网络，其内部状态可以展示动态时序行为。　　循环神经网络的主要用途是处理和预测序列数据。循环神经网络最初就是为了刻画一个序列当前的输出与之前信息的关系。从网络结构上来看，循环神经网络会记忆之前的信息，并利用之前的信息影响后面节点的输出。也就是说，循环…

2023年4月6日
000
循环神经网络

循环神经网络总结整理(RNN、LSTM、GRU)

在经过了一个周期迭代之后，猛地发现不记录一些东西是真的不行的，只有将知识娓娓道来，把自己当作一个教师的身份整理这些思路，才算真正的掌握了。故，将这一章的知识点整理记录下来，以供自己学习理解，查阅运用。综述：在前馈神经网络中，信息的传递是单向的，即网络的输出只依赖于当前的输入。但是在很多现实的任务中，网络的输出不仅和当前的输入有关还和之前的输入（当前的状态…

2023年4月8日
000

合作推广

合作推广

返回顶部