算法强化 —— 循环神经网络(RNN)

2023年4月8日上午2:20 • 循环神经网络

循环神经网络(RNN)

为了更好地解决序列信号问题，例如语音识别，机器翻译，情感分类，音乐发生器等，需要构建一种新的神经网络模型,RNN就是这样的序列模型

传统的神经网络模型

算法强化 —— 循环神经网络(RNN)
$x^{<1>},x^{<2>},...,x^{<T_s>}$ 是序列模型的输入，即序列信号， $T_x$ 表示输入信号的长度，例如一段文字的长度，一段语音包含的单词数目， $y^{<1>},y^{<2>},...,y^{<T_s>}$ 是序列模型的输出， $T_y$ 表示输出信号的长度。
如果使用标准的神经网络结构来处理，存在两个问题。
1.不同样本的输出序列长度或者输出的序列长度可能不同：例如无法确定两个句子中包含的单词数目是一样的
2.也是最主要的，这种标准神经网络结构无法共享序列不同。

基本的RNN模型

算法强化 —— 循环神经网络(RNN) 首先我们需要知道的是RNN输入信号的编码问题，我们知道序列信号可能是一段文字，也可能是一段语音，文字如何量化成数字信号的呢？
最常见的方式就是建立一个词汇表(例如1000个单词)，每个单词使用One-Hot形式进行编码，这样一个单词就由1000*1的向量组成。该向量对应词汇表顺序，相应单词对应位置为1，其他位置为0

RNN正向传播

RNN模型包含三类权重系数，分别是 $W_{ax},W_{aa},W_{ya}$ ,且不同元素之间同一位置共享同一权重系数，这样做的有点是模型参数与序列信号长度无关。
算法强化 —— 循环神经网络(RNN)
上图展示了一个包含隐藏层的RNN模型，正向传播(Forward Propagation)过程的表达式如下
$a^{<t>} = g(W_{aa}*a^{<t-1>}+W_{ax}*x^{<t>}+b_a)$
$hat{y}^{<t>}=gleft(W_{y a} cdot a^{<t>}+b_{y}right)$
其中 $g(.)$ 表示**函数，不同的问题需要使用不同的**函数， $b_a$ 表示输入层到隐藏层的常数项， $b_y$ 表示隐藏层到输出层的常数项。
为了简化表达式，可以对 $a^{<t>}$ 项进行整合
$begin{array}{c}W_{a a} cdot a^{<t-1>}+W_{a x} cdot x^{<t>}=left[W_{a a} W_{a x}right]left[begin{array}{l}a^{<t-1>} \x^{<t>}end{array}right] \rightarrow W_{a}left[a^{<t-1>}, x^{<t>}right]end{array}$
则正向传播可表示为
$begin{array}{c}a^{<t>}=gleft(W_{a}left[a^{<t-1>}, x^{<t>}right]+b_{a}right) \hat{y}^{<t>}=gleft(W_{y} cdot a^{<t>}+b_{y}right)end{array}$
每个时刻的参数是共享的

RNN反向传播

RNN模型的损失函数与其他机器学习模型类似。如果是分类问题，则可使用交叉熵损失；如果是回归问题，则可使用MSE、MAE或者Huber损失。以分类问题为例，RNN模型中单个元素的损失函数为
$L^{<t>}left(hat{y}^{<t>}, y^{<t>}right)=-y^{<t>} log hat{y}^{<t>}-left(1-y^{<t>}right) log left(1-hat{y}^{<t>}right)$
该样本序列信号所有元素的损失函数为
$L(hat{y},y) = sum_{t=1}^{T_y} L^{<t>}(hat{y}^{<t>},y^{<t>})$
然后，与其他机器学习模型类似，使用梯度优化算法，对参数 $W_a,W_y,b_a,b_y$ 分别计算偏导数，并更新，直到训练完成。

BRNN(Bidirectional RNN)

算法强化 —— 循环神经网络(RNN)
BRNN能够同时对序列进行双向处理，性能大大提高。但缺点是计算量较大，且在处理实时语音时，需要等到完整的一句话结束时才能进行分析。
除了单隐藏层的RNN之外，还有多隐藏层的Deep RNNs。Deep RNNs是由多层RNN组成，其结构如下所示
算法强化 —— 循环神经网络(RNN)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：算法强化 —— 循环神经网络(RNN) - Python技术站

人工智能循环神经网络

0 0 打赏

微信扫一扫

支付宝扫一扫

深度学习入门笔记系列 ( 七 ) ——循环神经网络（RNN）学习笔记

上一篇 2023年4月8日上午2:20

自然语言处理入门之路【task11】—— 循环神经网络基础

下一篇 2023年4月8日上午2:21

基于深度学习的病毒检测技术无需沙箱环境，直接将样本文件转换为二维图片，进而应用改造后的卷积神经网络 Inception V4 进行训练和检测

话题 3: 基于深度学习的二进制恶意样本检测分享主题：全球正在经历一场由科技驱动的数字化转型，传统技术已经不能适应病毒数量飞速增长的发展态势。而基于沙箱的检测方案无法满足 APT 攻击的检测需求，也受到多种反沙箱技术的干扰。在充分考察过各种技术方案的优劣后，瀚思科技开发出了基于深度学习的二进制病毒样本检测技术，可以做到沙箱同等水平的 99% 的检测准确率，…

卷积神经网络 2023年4月8日
000
描述性统计和推断统计的区别

接下来我会详细讲解描述性统计和推断统计的区别，并提供实例说明。什么是描述性统计？描述性统计是对收集到的数据进行整理、总结和描述的过程。它主要通过计算和展示数据的中心趋势、离散程度、偏度和峰度等统计值，从而对数据进行描述和解释。描述性统计不仅可以用来了解数据本身，还可以提供后续数据分析和决策的基础。举个例子，假设我们收集到了某个班级学生的成绩数据，其中包…

artificial-intelligence 2023年3月27日
000
CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构区别

神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。（扯一个不相关的：由于计算技术的落后，当时感知器传输函数是用线拉动变阻器改变电阻的方法机械实现的，脑补一下科学家们扯着密密麻麻的导线的样子…）但是…

循环神经网络 2023年4月7日
000
卷积神经网络

卷积神经网络-吴恩达深度学习课程第四课

时间：2021/02/16 一.卷积神经网络 1.1 计算机视觉卷积神经网络一般应用于计算机视觉领域，由于有的时候图片的像素点很多，导致神经网络输入特征值的维数很多。 1.2 边缘检测示例如下图所示，原图是一个6*6*1的矩阵，卷积核是一个3*3*1的矩阵，经过卷积后得到一个4*4*1的矩阵。下图展示了垂直边缘检测的原理： 1.3 …

2023年4月5日
000
Keras.layer()

目录 Keras.layers Dense（全连接层） Activation（激活函数） Dropout（正则化层） Flatten（展平） Input（用于实例化 Keras 张量） Reshape（调整输入大小） Permute（置换输入的维度） RepeatVector（将输入重复 n 次） Lambda（将任意表达式封装为 Layer对象） Acti…

Keras 2023年4月7日
000
卷积神经网络

[卷积]空洞卷积的改进

文章来源： https://zhuanlan.zhihu.com/p/50369448 从这几年的分割结果来看，基于空洞卷积的分割方法效果要好一些，为此，拿出两天时间来重新思考下空洞卷积问题。 – . -语义分割创新该怎么做呢。引言空洞卷积(Dilated/Atrous Convolution)，广泛应用于语义分割与目标检测等任务中，语义分割中经典的de…

2023年4月7日
000
机器学习3朴素贝叶斯

朴素贝叶斯，基本思想就是，给出一个分类问题，对于待求项，属于哪个分类的概率最大，那这个待求项就属于哪个分类。给出基本公式假设要分类物有n个特征，分别为F1、F2、F3、…、Fn，现在有m个类别分别是C1、C2、C3、…、Cm.贝叶斯就是计算出概率最大的那个分类。具体贝叶斯定理参考http://zh.wikipedia.org/wiki/%E8%B4%9…

机器学习 2023年4月13日
000
Keras

[深度学习] keras的EarlyStopping使用与技巧

Early Stopping是什么具体EarlyStopping的使用请参考官方文档和源代码。EarlyStopping是Callbacks的一种，callbacks用于指定在每个epoch开始和结束的时候进行哪种特定操作。Callbacks中有一些设置好的接口，可以直接使用，如’acc’, ‘val_acc’, ’loss’ 和 ’val_loss’等等…

2023年4月8日
000