深度学习13—RNN循环神经网络原理

2023年4月8日上午10:58 • 循环神经网络

为什么需要RNN（循环神经网络）

传统的神经网络的不足：
传统的神经网络已经非常强大了，但有一个特点是：他们都只能单独的取处理一个个的输入，前一个输入和后一个输入是完全没有关系的。但是，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。比如时间序列数据、文字序列等。
比如，当我们在理解一句话意思时，孤立的理解这句话的每个词是不够的，我们需要处理这些词连接起来的整个序列；当我们处理视频的时候，我们也不能只单独的去分析每一帧，而要分析这些帧连接起来的整个序列。
以nlp的一个最简单词性标注任务来说，将我吃苹果三个单词标注词性为我/nn 吃/v 苹果/nn。
那么这个任务的输入就是：
我吃苹果（已经分词好的句子）
这个任务的输出是：
我/nn 吃/v 苹果/nn(词性标注好的句子)
对于这个任务来说，我们当然可以直接用普通的神经网络来做，给网络的训练数据格式了就是我-> 我/nn 这样的多个单独的单词->词性标注好的单词。
但是很明显，一个句子中，前一个单词其实对于当前单词的词性预测是有很大影响的，比如预测苹果的时候，由于前面的吃是一个动词，那么很显然苹果作为名词的概率就会远大于动词的概率，因为动词后面接名词很常见，而动词后面接动词很少见。
所以为了解决一些这样类似的问题，能够更好的处理序列的信息，RNN就诞生了。

RNN的结构

深度学习13—RNN循环神经网络原理
x是输入，h是隐层单元，o为输出，L为损失函数，y为训练集的标签。这些元素右上角带的t代表t时刻的状态，其中需要注意的是，因策单元h在t时刻的表现不仅由此刻的输入决定，还受t时刻之前时刻的影响。V、W、U是权值，同一类型的权连接权值相同。

有了上面的理解，前向传播算法其实非常简单，对于t时刻：
h(t)=ϕ(Ux(t)+Wh(t−1)+b)
h (t) =ϕ(Ux(t) +Wh(t−1)+b)
其中ϕ()为**函数，一般来说会选择tanh函数，b为偏置。
详细可参考
https://blog.csdn.net/zhaojc1995/article/details/80572098

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习13—RNN循环神经网络原理 - Python技术站