循环神经网络经典模型

2023年4月8日上午1:53 • 循环神经网络

详细地介绍了经典的RNN、RNN几个重要变体，以及Seq2Seq模型、Attention机制。
#一、从单层网络谈起
在学习RNN之前，首先要了解一下最基本的单层网络，它的结构如图：

#二、经典的RNN结构（N vs N）
循环神经网络经典模型
如：

自然语言处理问题。x1可以看做是第一个单词，x2可以看做是第二个单词，依次类推。
语音处理。此时，x1、x2、x3……是每帧的声音信号。
时间序列问题。例如每天的股票价格等等
序列形的数据就不太好用原始的神经网络处理了。为了建模序列问题，RNN引入了隐状态h（hidden state）的概念，h可以对序列形的数据提取特征，接着再转换为输出。先从h1的计算开始看：
循环神经网络经典模型
图示中记号的含义是：圆圈或方块表示的是向量。
一个箭头就表示对该向量做一次变换。如上图中h0和x1分别有一个箭头连接，就表示对h0和x1各做了一次变换。
在很多论文中也会出现类似的记号，初学的时候很容易搞乱，但只要把握住以上两点，就可以比较轻松地理解图示背后的含义。
h2的计算和h1类似。要注意的是，在计算时，每一步使用的参数U、W、b都是一样的，也就是说每个步骤的参数都是共享的，这是RNN的重要特点，一定要牢记。

依次计算剩下来的（使用相同的参数U、W、b）：
循环神经网络经典模型
一个箭头就表示对对应的向量做一次类似于f(Wx+b)的变换，这里的这个箭头就表示对h1进行一次变换，得到输出y1。剩下的输出类似进行（使用和y1同样的参数V和c）：