其实构建rnn的代码十分简单,但是实际上看了下csdn以及官方tutorial的解释都不是很详细,说的意思也不能够让人理解,让大家可能会造成一定误解,因此这里对rnn的参数做一个详细的解释:

self.encoder = nn.RNN(input_size=300,hidden_size=128,dropout=0.5)

在这句代码当中:

  • input_size:表示输入句子但当中单词的维度,比如你将一个单词编码为100维度的one-hot 向量,那么这里应该使用input_size=100
  • hidden_size:表示每一个rnn神经单位向量(每一个隐匿层)的向量长度,多个rnn神经网络隐匿层就形成了我们的rnn
  • dropout:dropout的概率大小
  • num_layers:有多少层rnn的网络,往上堆叠多少层rnn

 

以上是对rnn结构的构建,之后我们来进行对rnn前向转播:

output,hn = self.encoder(encoder_input,encoder_hidden)

 这句代码当中,其中:

encoder_input:一共需要输入三个维度,分别是【seq_len, batch,word_dim】

  • seq_len:句子的长度
  • batch:有多少个句子
  • word_dim:单词的维度

encoder_hidden:也是具备三个维度,分别是【num_layers,batch,hidden_size】

  • num_layes:一共有多少层rnn
  • batch:有多少个句子
  • hidden_size:表示每一个rnn神经单位向量(每一个隐匿层)的向量长度,多个rnn神经网络隐匿层就形成了我们的rnn

然后就是我们的输出解释了:

  • hn:RNN的最后一个隐含状态(最后一个隐匿层上方的输出,而不是右边,右边是output)
  • output:所有节点的hn集合(所有隐匿层都会有一个隐匿状态的输出,而这个output是所有隐匿层上方的一个集合)