神经网络基础–循环神经网络RNN

2023年4月7日下午9:54 • 循环神经网络

yizhihongxing

在处理序列问题（如语言识别等）上，使用循环神经网络（Recurrent Neural Networks，RNN）是很自然的方式；所谓循环神经网络，其实就是把上一时刻的信息作为当前时刻输入的一部分，从而实现信息的传递；本文将先介绍基础版RNN，并说明基础版的问题，然后介绍改进版的循环神经网络LSTM、GRU。

RNN

RNN的基本结构如下图所示：

神经网络基础--循环神经网络RNN

结构比较简单，通过单元状态s的循环来实现信息的传递，其公式如下：

神经网络基础--循环神经网络RNN

单元状态s的更新公式就是一个递推公式，依赖当前输入和上一时刻的单元状态。

RNN的训练通过BPTT（backpropagation through time）来完成，即累加loss对每个时刻的梯度；

、神经网络基础--循环神经网络RNN ，当t很大时，这种连乘的结构很容易导致梯度消失和爆炸；这也造成了RNN对长时记忆的困难【seq2seq任务中，可通过翻转输入序列来缓解；若使用正常序列输入，则输入序列的第一个词和输出序列的第一个词相距较远，难以学到长期依赖。将输入序列反向后，输入序列的第一个词就会和输出序列的第一个词非常接近，二者的相互关系也就比较容易学习了。】；虽然可以通过一些方法来缓解梯度消失（使用ReLU等**函数、初始化W为正交矩阵【神经网络基础--循环神经网络RNN 】）和梯度爆炸（Clipping Gradients），但一般实际应用时还是会倾向于使用LSTM或GRU。

LSTM

LSTM（Long Short Term Memory networks）中引入了门控机制来控制信息的流入流出，包括有选择地加入新的信息，并有选择地遗忘之前累计的信息，其结构和公式如下：

神经网络基础--循环神经网络RNN

LSTM有三个门：遗忘门forget gate、输入门input gate、输出门output gate，每个门都是由上一时刻的输出和当前时刻的输入控制；遗忘门控制上一状态流入的信息量，输入门控制当前输入流入的信息量，从而完成状态的更新；输出门控制流出；

对当前状态的更新公式进行展开，有

神经网络基础--循环神经网络RNN ，可知当前状态等于当前为止的各个临时状态（输入相关）的加权和，也就是说可以通过遗忘门和输入门的控制来灵活调制各时刻输入对当前状态的影响，从而达到长短时记忆的效果；

当前状态对上一状态的导数：

，由于有加法项神经网络基础--循环神经网络RNN 的存在，在进行BPTT时，能有效避免导数连乘时的梯度消失问题。

GRU

GRU（Gated Recurrent Unit）是对LSTM的一种变形，将单元状态和单元输出合二为1，也简化了门控，其结构和公式如下：

神经网络基础--循环神经网络RNN

Ref：

https://colah.github.io/posts/2015-08-Understanding-LSTMs/

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：神经网络基础–循环神经网络RNN - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

《神经网络与深度学习》（六）循环（递归）神经网络RNN – Flippedkiki

上一篇 2023年4月7日

解决梯度消失梯度爆炸强力推荐的一个算法—–GRU（门控循环神经⽹络）

下一篇 2023年4月7日

目标检测

学习笔记——目标检测

目标检测记得看一下吴恩达明天 yolo目标检测 https://blog.csdn.net/guleileo/article/details/80581858 FASTER -RCNN: (1)输入测试图像；(2)将整张图片输入CNN，进行特征提取；(3)用RPN先生成一堆Anchor box，对其进行裁剪过滤后通过softmax判断anchors属于前景…

2023年4月8日
000
tensorflow

Tensorflow实践

确定文件的编码格式 # -*- coding : utf-8 -*- 引入tensorflow库 import tensorflow as tf 定义常量 hw=tf.contant(“hellow”) 创建一个tensorflow的session sess=tf.Session() 运行一个计算图 print tf.run(hw) 关闭回话 tf.…

2023年4月8日
000
Keras

【推荐】Keras/Theano/OpenCV实现的CNN手势识别

摘要转自：爱可可-爱生活 CNNGestureRecognizer ver 2.0 Gesture recognition via CNN neural network implemented in Keras + Theano + OpenCV Key Requirements: Python 2.7.13 OpenCV 2.4.8 Keras 2.0.…

2023年4月8日
000
深度学习框架caffe/CNTK/Tensorflow/Theano/Torch的对比

在单GPU下，所有这些工具集都调用cuDNN,因此只要外层的计算或者内存分配差异不大其性能表现都差不多。 Caffe: 1）主流工业级深度学习工具，具有出色的卷积神经网络实现。在计算机视觉领域Caffe仍然是最流行的工具包，他有很多扩展，但是由于一些遗留的架构问题，它对递归网络和语言建模的支持很差。此外，在caffe种图层需要使用C++定义，而网络则使用p…

Caffe 2023年4月6日
000
目标检测

手机端 19FPS 的实时目标检测算法：YOLObile

本文转载自机器之心。本文提出了一套模型压缩和编译结合的目标检测加速框架，根据编译器的硬件特性而设计的剪枝策略能够在维持高 mAP 的同时大大提高运行速度，压缩了 14 倍的 YOLOv4 能够在手机上达到 19FPS 的运行速度并且依旧维持 49mAP（COCO dataset）的高准确率。相比 YOLOv3 完整版，该框架快出 7 倍，并且没有牺牲准确率…

2023年4月6日
000
机器学习-决策树-ID3决策树

原理看上一篇，这篇只有代码实现它以信息熵为度量标准，划分出决策树特征节点，每次优先选取信息量最多的属性，也就是使信息熵变为最小的属性，以构造一颗信息熵下降最快的决策树。缺点 ID3算法的节点划分度量标准采用的是信息增益，信息增益偏向于选择特征值个数较多的特征。而取值个数较多的特征并不一定是最优的特征，所以需要改进选择属性的节点划分度量标准 ID3算法递归…

机器学习 2023年4月13日
000
目标检测之行人检测（Pedestrian Detection）基于hog（梯度方向直方图）— 梯度直方图特征行人检测、人流检测2

本文主要介绍下opencv中怎样使用hog算法，因为在opencv中已经集成了hog这个类。其实使用起来是很简单的，从后面的代码就可以看出来。本文参考的资料为opencv自带的sample。　关于opencv中hog的源码分析，可以参考本人的另一篇博客：opencv源码解析之(6)：hog源码分析　　开发环境：opencv2.4.2+Qt4.8.2+…

目标检测 2023年4月7日
000
Django整合Keras报错：ValueError: Tensor Tensor(“Placeholder:0”, shape=(3, 3, 1, 32), dtype=float32) is not an element of this graph.解决方法

本人在写Django RESful API时，碰到一个难题，老出现，整合Keras,报如下错误；很纠结，探索找资料近一个星期，皇天不负有心人，解决了 Internal Server Error: /pic/analysis/ Traceback (most recent call last): File “D:\AI\Python35\lib\site-…

Keras 2023年4月8日
000

合作推广

合作推广

返回顶部