循环神经网络的来源就是为了刻画一个序列当前的输出与之前信息之间的关系。从网络结构上看,循环神经网络会记忆之前的信息,并利用之前的信息影响后面结点的输出。通过观察循环神经网络结构可以发现,在理论上可以把同一神经网络无限复制的结果。正如卷积神经网络在不同空间位置共享参数,循环神经网络是在不同时间 位置共享参数,从而可以使用有限长的序列处理任意长度的序列。

  直接上代码解释RNN及其输出结果:

#-*- coding:utf-8 -*-
#author : zhangwei

import numpy as np

X = [1 , 2]
state = [0.0 , 0.0]

#分开定义不同输入部分的权重;
w_cell_state = np.asarray([[0.1 , 0.2] , [0.3 , 0.4]])
w_cell_input = np.asarray([0.5 , 0.6])
b_cell = np.asarray([0.1 , -0.1])

#定义用于输出的全连接参数;
w_output = np.asarray([[1.0] , [2.0]])
b_output = 0.1

#按照时间顺序执行循环神经网络的前向传播过程;
for i in range(len(X)):
    #计算循环体中全连接层神经网络;
    before_activation = np.dot(state , w_cell_state) + X[i] * w_cell_input + b_cell
    #采用tanh作为输入的**函数;
    state = np.tanh(before_activation)
    #根据当前状态计算最终输出;
    final_output = np.dot(state , w_output) + b_output
    #输出每一个时刻的输出;
    print "before activation : " , before_activation
    print "state : " , state
    print "output : " , final_output

最后输出的结果是:

循环神经网络(RNN)学习研究(一)

  总结:理论上,RNN可以支持任意长度的序列,然而在实训过程中,如果序列过长,一方面会导致优化时出现梯度消散或者梯度爆炸的问题;另一方面,展开后前馈神经网络会占用过大的内存,所以在实际运行过程中,一般会规定一个最大序列长度,当序列长度超过规定长度之后会对序列进行截断。