李宏毅机器学习笔记-12.3 循环神经网络（Recurrent Neural Network-RNN）- part 3

2023年4月8日上午12:57 • 循环神经网络

Recurrent Neural Network(RNN) - 循环神经网络（part 3) Gated RNN

0 前言

其实这节课的内容跟我其他这个系列的博客是不属于同一个课程的，但是因为是在 B 站看的视频，up 主可能不小心弄混了，于是我就也一起看了，多学点总没什么错。
虽然不是同一门课，但是确实是同一个老师，也是极其学习的内容，所以就当做一门课也没什么差别。这里给出这节课内容所属的课程网站 Applied Deep Learning / Machine Learning and Having It Deep and Structured

1 几种 RNN 结构

RNN 中有一个 Basic Function ，无论输入的序列多长，都会经过这个 Fuction。现在我们假设这个Function叫做 $f : h^{^{'}}, y = f (h, x)$ ，即输入 $h, x$ ，输出 $h^{^{'}}, y$ . 注意 $h^{^{'}}$ 和 $h$ 必须是 相同维数 的 Vector，因为本次的输出 $h^{^{'}}$ 会被当成下一次的输入 $h$ .
上述的 RNN 是单层的，我们也可以构造 Deep RNN，比如说我们再加一层，那我们就需要再加一个 basic function ，如下图：
RNN 也可以是双向的，如下图，最终的输出是由两个方向的 RNN 共同决定的，即函数 $y = f_{3} (a, c)$ .

2 LSTM - Long Short-term Memory

Naive RNN： 考虑最简单的 RNN 结构，basic function 是： $f : h^{^{'}}, y = f (h, x)$ ，那么到底是怎么把输入变成输出的呢？如下图：
LSTM： 如果将 LSTM 的 c 与 h 合并起来，就会发现与 Naive RNN 的 I/O 是一样的。那为什要将其分开为 c 和 h 呢？因为 c 变化很缓慢，这就意味着 c 可以存储比较久的信息看。如下图：
LSTM 的一些计算过程如下：

以上的过程只用了 $h^{t - 1}$ 和 $x^{t}$ 而没有用到 $c^{t - 1}$ ，但是我们也可以把 $c^{t - 1}$ 加进来，这就叫做 peephole 。但是 peephole 对结果的影响不大，而且我们也不希望参数太多，所以与 $c^{t - 1}$ 相乘的地方我们通常设置为 对角矩阵，这样子对 $c^{t - 1}$ 只是相当于进行了缩放，没有进行线性变换。
具体计算如下：

图中，表示的是 element wise，也就是矩阵的逐元素相乘。
从图中的三个公式可以看出：
- $z^{i}$ 就是 input gate，控制着 $z$ 对 $c^{t}$ 的影响。
- $z^{f}$ 就是 forget gate，控制着 $c^{t - 1}$ 对 $c^{t}$ 的影响。 $c^{t - 1}$ 代表着过去的记忆， $z^{f}$ 决定过去的记忆对现在有没有影响，也就是是否要 forget。
- $z^{o}$ 就是 output gate，控制着 $c^{t}$ 对 $h^{t}$ 的影响。
LSTM 之间的连接如下：

3 GRU - Gated Recurrent Unit

GRU 是另一种架构：

李宏毅机器学习笔记-12.3 循环神经网络（Recurrent Neural Network-RNN）- part 3

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：李宏毅机器学习笔记-12.3 循环神经网络（Recurrent Neural Network-RNN）- part 3 - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Deeplearning.ai吴恩达笔记之循环神经网络1

上一篇 2023年4月8日上午12:56

循环神经网络的特殊矛盾

下一篇 2023年4月8日上午12:57

更多卷积动画，更好的理解各种DL中的卷积实现

https://github.com/vdumoulin/conv_arithmetic

卷积神经网络 2023年4月8日
000
【机器学习】李宏毅——从逻辑回归推导出神经网络

【机器学习】李宏毅——从逻辑回归推导出神经网络假设现在有两种类别的样本，其类别分别为\(C_1\)和\(C_2\)，而拥有的样本数分别为\(N_1\)和\(N_2\)，那么假设每个样本都是从其类别对应的高斯分布中取出来的，那么则可以进行如下推导：那么就可以得到《统计学习方法》中第六章的逻辑回归对于两类概率的定义（解决了我的疑惑）那么逻辑回归就是如何找到…

机器学习 2023年4月11日
000
卷积神经网络—padding、 pool、 Activation layer

#coding:utf-8 import tensorflow as tf tf.reset_default_graph() image = tf.random_normal([1, 112, 96, 3]) in_channels = 3 out_channels = 32 kernel_size = 5 conv_weight = tf.Variable…

卷积神经网络 2023年4月8日
000
卷积神经网络

【转】卷积神经网络

http://blog.csdn.net/celerychen2009/article/details/8973218 深度神经网路已经在语音识别，图像识别等领域取得前所未有的成功。本人在多年之前也曾接触过神经网络。本系列文章主要记录自己对深度神经网络的一些学习心得。第二篇，讲讲经典的卷积神经网络。我不打算详细描述卷积神经网络的生物学运行机理，因为网络…

2023年4月8日
000
【机器学习】：Xgboost/LightGBM使用与调参技巧

机器学习模型当中，目前最为先进的也就是xgboost和lightgbm这两个树模型了。那么我们该如何进行调试参数呢？哪些参数是最重要的，需要调整的，哪些参数比较一般，这两个模型又该如何通过代码进行调用呢？下面是一张总结了xgboost，lightbgm，catboost这三个模型调试参数的一些经验，以及每个参数需要的具体数值以及含义，供大家参考：一.X…

机器学习 2023年4月13日
000
目标检测

吴恩达深度学习4.3笔记_Convolutional Neural Networks_目标检测

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/weixin_42432468 学习心得：1、每周的视频课程看一到两遍2、做笔记 3、做每周的作业练习，这个里面的含金量非常高。掌握后一定要自己敲一遍，这样以后用起来才能得心应手。对深度学习解决问题流程的理解，来自笔记本图片：

2023年4月8日
000
【caffe I/O】数据变换器（图像的预处理部分）代码注释

caffe.proto中TransformationParameter部分 // Message that stores parameters used to apply transformation // to the data layer’s data message TransformationParameter { // For data pre-p…

Caffe 2023年4月8日
000
tensorflow

python cnn tensorflow 车牌识别网络模型

1、模型结构图 2、随机测试模型 3、训练logs 2020-05-10T11:28:20.491640: Step 4, loss_total = 28.22, acc = 2.23%, sec/batch = 1.23 2020-05-10T11:28:27.849279: Step 9, loss_total = 26.0…

2023年4月8日
000

合作推广

合作推广

返回顶部