机器学习【3】：RNN（循环神经网络），LSTM改进

2023年4月8日上午10:24 • 循环神经网络

一. RNN

1. RNN作用是什么？

RNN是一种可以具有前后记忆的一种特殊的神经网络，它不仅考虑当前时刻的输入,而且赋予了网络对前面的内容的一种'记忆'功能.当前节点的输出是基于上一个节点的状态加上当前节点的输入。这样的神经网络是具有上下文关系对应的，后面的信息是基于前面的信息而得出的，几乎所有和时间序列有关的数据我们都可以用循环神经网络进行训练。

2. RNN的应用

之前已经说过：RNN的应用范围非常广泛，凡是考虑时间先后顺序的问题都可以使用RNN来解决，这里主要说一下几个常见的应用领域:

① 自然语言处理(NLP): 主要有视频处理, 文本生成, 语言模型, 图像处理

② 机器翻译, 机器写小说

③ 语音识别

④ 图像描述生成

⑤ 文本相似度计算

⑥ 音乐推荐、网易考拉商品推荐、Youtube视频推荐等新的应用领域。

3. RNN模型

机器学习【3】：RNN（循环神经网络），LSTM改进

上图是一个折叠起来的RNN，我们看看他展开之后是怎样。

机器学习【3】：RNN（循环神经网络），LSTM改进

这里隐藏层展示了3个神经元节点，第一个节点的状态是St-1,下一个隐藏层节点的输出就是由St-1和下一个的输入Xt决定的。以此类推。各个节点的参数计算公式：

机器学习【3】：RNN（循环神经网络），LSTM改进

其中，隐藏层神经元节点的个数代表着这一层神经网络的输出维度，同时也是下一层的输入维度。

假如，现在有一个28*28的矩阵，我设置，隐藏层为一层，隐藏层节点为28个，输入的维度为28，所以隐藏层的第一个节点输入为矩阵的第一行，第二个节点输入为矩阵第二行......以此类推，第28个节点的输入为矩阵第28行，这样就得到了28个输出，下一层假如定义一个全连接层，那么全连接层的输入就是28维度的。

二. LSTM（长短时间记忆）改进

1. 为何改进

我们知道神经网络的反向传播算法，RNN也不例外，它运用的也是反向传播算法，可是问题在于，如果隐藏层节点过多的情况下，如果梯度<1，每一层都小于0，那么乘起来可能就很接近于0了，那么就是说前面的因素对于后面的影响是非常小的。这就是梯度消失。相应的，梯度爆炸就是如果梯度>1，那么乘起来很有可能就是一个无限大的数，这就叫梯度爆炸。为了预防zhey这样的情况发生，LSTM应运而生。

2. 原理

普通的RNN只有一个状态码h，而LSTM增加了一个状态码C，也就是有两个状态码，C这个状态码就是可以去遗忘掉一些没用的信息的：

机器学习【3】：RNN（循环神经网络），LSTM改进

LSTM的原理就是有了三个门的概念：遗忘门，输入门，输出门。也就是说这个模型它可以过滤出前后关联不大的信息将其忘记掉，而只要前后文关联比较紧密的信息。

输入门决定了有多少信息可以保存到下一个Ct；
遗忘门决定了上一个Ct-1有多少信息可以保存到Ct。

3. 模型

机器学习【3】：RNN（循环神经网络），LSTM改进

（1）细胞状态：

机器学习【3】：RNN（循环神经网络），LSTM改进

（2）遗忘门：下图中输入的有上一序列的隐藏状态ht−1和本序列数据xt，通过一个**函数，一般是sigmoid，得到遗忘门的输出ft。由于sigmoid的输出ft在[0,1]之间，因此这里的输出ft代表了遗忘上一层隐藏细胞状态的概率。也可以理解为有（多少%）的数据可以保留下来。用数学表达式即为：

机器学习【3】：RNN（循环神经网络），LSTM改进

（3）输入门：

机器学习【3】：RNN（循环神经网络），LSTM改进

机器学习【3】：RNN（循环神经网络），LSTM改进

（4）细胞更新：正常RNN应该直接是Ct-1+it*at

机器学习【3】：RNN（循环神经网络），LSTM改进

（5）输出门：

机器学习【3】：RNN（循环神经网络），LSTM改进

机器学习【3】：RNN（循环神经网络），LSTM改进

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：机器学习【3】：RNN（循环神经网络），LSTM改进 - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

线性回归、多层感知机、文本预处理、循环神经网络学习笔记（打卡1）

上一篇 2023年4月8日上午10:23

循环神经网络 – Recurrent Neural Network | RNN

下一篇 2023年4月8日上午10:24

循环神经网络要点解析

参考：Understanding LSTM Networks(Karpathy blog )The Unreasonable Effectiveness of Recurrent Neural Networks(课程)CS224d: Deep Learning for Natural Language Processing(代码解析)Anyone Can L…

循环神经网络 2023年4月5日
000
caffe之(五)loss层

在caffe中，网络的结构由prototxt文件中给出，由一些列的Layer（层）组成，常用的层如：数据加载层、卷积操作层、pooling层、非线性变换层、内积运算层、归一化层、损失计算层等；本篇主要介绍loss层下面首先给出全loss层的结构设置的一个小例子（定义在.prototxt文件中） layer { name: “loss” type: “…

Caffe 2023年4月8日
000
卷积神经网络

1-5 卷积步长

卷积步长（ Strided convolutions）卷积中的步幅是另一个构建卷积神经网络的基本操作。如果你想用 3×3 的过滤器卷积这个 7×7 的图像，和之前不同的是，我们把步幅设置成了2。你还和之前一样取左上方的 3×3 区域的元素的乘积，再加起来，最后结果为 91。只是之前我们移动蓝框的步长是 1，现在移动的步长是 2，我们让过滤器跳过 2 个…

2023年4月8日
000
卷积神经网络

卷积网络中的通道(Channel)和特征图

转载自：https://www.jianshu.com/p/bf8749e15566 今天介绍卷积网络中一个很重要的概念，通道（Channel），也有叫特征图（feature map）的。首先，之前的文章也提到过了，卷积网络中主要有两个操作，一个是卷积(Convolution)，一个是池化(Pooling)。其中池…

2023年4月7日
000
Caffe

左手Coffee，右手Caffe – 3 – Caffe Layers之conv_layer(卷积层)

Caffe Layers之conv_layer(卷积层) 概述卷积层是组成卷积神经网络的基础应用层，也是最常用的层部件。而卷积神经网路有事当前深度学习的根本。在一般算法的Backbone、neck和head基本都是由卷积层组成。 1. 卷积操作一般从数学角度讲，卷积分两个步骤，第一步做翻转，第二部乘积求和。 DL中的卷积操作是一种无翻转卷积，类似…

2023年4月8日
000
卷积神经网络

机器学习：利用卷积神经网络实现图像风格迁移 (三)

前面介绍了利用卷积神经网络实现图像风格迁移的算法原理和基于TensroFlow 的代码实现，这篇博客对前面的代码做了一些改变，设置了一个 image resize 函数，这样可以处理任意size的 input image，而且我们尝试利用 L-BFGS 优化算法替代之前的 Adam 优化算法，对卷积层以及pooling层函数做了修改。 import nump…

2023年4月8日
000
tensorflow

20180929 北京大学人工智能实践：Tensorflow笔记01

北京大学人工智能实践：Tensorflow笔记 https://www.bilibili.com/video/av22530538/?p=13 （完）

2023年4月8日
000
Caffe

【Caffe】math_functions文件分析

Caffe源码(caffe version:09868ac , date: 2015.08.15)中有一些重要文件，这里介绍下math_functions文件。 1. include文件： (1)、<glog/logging.h>：GLog库，它是google的一个开源的日志库，其使用可以参考：http://blog.csdn.net/…

2023年4月8日
000

合作推广

合作推广

返回顶部