循环神经网络RNN公式推导走读

2023年4月5日下午11:20 • 循环神经网络

０语言模型－N-Gram

语言模型就是给定句子前面部分，预测后面缺失部分

ｅｇ．我昨天上学迟到了，老师批评了____。

N-Gram模型：　，对一句话切词我昨天上学迟到了，老师批评了 ____。

２－N-Gram 会在语料库中找　了　后面最可能的词；

３－N-Gram 会在预料库中找　批评了　后面最可能的词；

４－N-Gram 的内存耗费就非常巨大了（语料库中保存所有的四个词的预料组合）。

1.1单向循环神经网络

一个单隐层结构示意图：

参数：输入到隐层的权重Ｕ、隐层到输出的权重Ｖ，自身递归的权重Ｗ

循环层输出：ｆ是激活函数；

输出层（全连接）ｇ是激活函数；

1.２双向循环神经网络

单向循环网络是根据前文猜测空白词语；双向是根据前后文一起预测空白词语。

eg 我的手机坏了，我打算____一部新手机。

双向卷积神经网络的隐藏层要保存两个值，一个A参与正向计算，另一个值A'参与反向计算。

最终输出，正向计算时，隐藏层的值与有关；反向计算时，隐藏层的值与有关；最终的输出取决于正向和反向计算的加和。

注：同向权重共享，异向权重不共享！

规范格式：

1.3深度循环网络

堆叠多个隐层，示意图如下：

第i个隐藏层计算：

2训练BPTT

同bp的训练步骤

　　

2.1 前向计算：

向量形式：

2.2 反向计算：分两个方向考虑，沿时间反向传播(与W有关)和传递到上一层网络（与U有关）

2.2.1第一个方向，沿时间传递一个时刻：同bp原理借用netj传导

又t时刻和t-1时刻netj的关系：

因此梯度链

上式第一项：第二项：

带入求得

所以最终梯度计算得：

2.2.2第二个方向：同bp

由l层和l-1层的netj关系：

因此梯度链

所以最终梯度计算得：

2.3计算权重矩阵W

由nett计算公式：

求t时刻w的梯度：

所以 t时刻W的梯度为：

最终各个时刻W梯度之和：

2.4计算权重U:

同理W，求t时刻u的梯度:

最终各个时刻U梯度之和:

3梯度爆炸和消失问题

由于RNN在训练过程中容易发生梯度爆炸和消失问题，所以不适合处理较长序列。

梯度爆炸问题：设置阈值，直接截取；

梯度消失问题：1合理初始化权重，躲避梯度消失区域；

2用relu代替tanh和sigmoid作为激活函数；

3使用GRU或者LSTM结构。

4工程应用：

1 one-hot编码：建立一个包含所有词汇的字典，每个词都是N维的二进制向量，排列在第几个就第几位为1，其余0；

缺点：得到高纬并且稀疏的向量

2softmax：可以得到输出概率

3优化函数：soft max层对应交叉熵代替均方误差MSE，研究证明更make sense

参考：网络博客

阅读剩余 83%

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：循环神经网络RNN公式推导走读 - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

循环神经网络-Dropout

上一篇 2023年4月5日

理解循环神经网络的来龙去脉

下一篇 2023年4月5日

tensorflow1.0 模型的保存与加载

import tensorflow as tf import numpy as np # ##Save to file # W = tf.Variable([[4,5,6],[7,8,9]],dtype=tf.float32,name=”weight”) # b = tf.Variable([[2,5,8]],dtype=tf.float32,name=”b…

tensorflow 2023年4月8日
000
Caffe

caffe学习一：ubuntu16.04下跑Faster R-CNN demo (基于caffe). (亲测有效，记录经历两天的吐血经历)

兜兜转转，兜兜转转; 一次有一次，这次终于把Faster R-CNN 跑通了。重要提示1：在开始跑Faster R-CNN之前一定要搞清楚用的是Python2 还是Python3. 不然你会无限次陷入一下错误： from ._caffe import Net, SGDSolver, NesterovSolver, AdaGradSolver, Impo…

2023年4月8日
000
卷积神经网络

1-5 卷积步长

卷积步长（ Strided convolutions）卷积中的步幅是另一个构建卷积神经网络的基本操作。如果你想用 3×3 的过滤器卷积这个 7×7 的图像，和之前不同的是，我们把步幅设置成了2。你还和之前一样取左上方的 3×3 区域的元素的乘积，再加起来，最后结果为 91。只是之前我们移动蓝框的步长是 1，现在移动的步长是 2，我们让过滤器跳过 2 个…

2023年4月8日
000
目标检测

CV-笔记-重读YOLO目标检测系列 v1

将对象检测定义为一个回归问题，回归到空间分离的边界框和相关的类概率。与最先进的检测系统相比，YOLO会产生更多的定位错误，但不太可能预测背景上的误报less likely to predict false positives on background（假阳少）都看做一个回归问题，所以不需要复杂的pipeline。 titan x gpu实现每秒150帧…

2023年4月8日
000
郑捷《机器学习算法原理与编程实践》学习笔记（第二章中文文本分类（二）—朴素贝叶斯算法）

（上接第二章）　　2.3 分类算法：朴素贝叶斯　　2.3.1 贝叶斯公式推导（略）　　分类的流程：　　　　第一阶段：训练数据生成训练样本集：TF-IDF 　　第二阶段：对每个类别计算p（yi）。　　第三个阶段：对每个特征属性计算所有划分的条件概率　　第四个阶段：对每个类别计算P(x|yi)P（yi）。　　第五个阶段：以P(x|yi)P（yi）的…

机器学习 2023年4月10日
000
解决tensorflow 调用bug Running model failed:Invalid argument: NodeDef mentions attr ‘dilations’ not in Op

将tensorflow C++ 版本更新为何训练版本一致即可

tensorflow 2023年4月6日
000
机器学习|我们在UCL找到了一个糖尿病数据集，用机器学习预测糖尿病（一）

作者：Susan Li 编译：袁雪瑶、吴双、姜范波　　根据美国疾病控制预防中心的数据，现在美国1/7的成年人患有糖尿病。但是到2050年，这个比例将会快速增长至高达1/3。我们在UCL机器学习数据库里一个糖尿病数据集，希望可以通过这一数据集，了解如何利用机器学习来帮助我们预测糖尿病，让我们开始吧！ https://github.com/su…

机器学习 2023年4月11日
000
keras 中间层 t-sne可视化 Keras中间层输出的两种方式，即特征图可视化

keras中获取层输出shape的方法汇总（主要看如何取出中间层的输出） https://blog.csdn.net/C_chuxin/article/details/85237690 Keras中的model.get_layer()的使用方法 https://blog.csdn.net/c_chuxin/article/details/85237334 2…

Keras 2023年4月5日
000

合作推广

合作推广

返回顶部