1.循环神经网络和卷积神经网络

问题1:处理文本数据时,循环神经网络与前馈神经网络相比有什么特点?

答:《百面》-10.循环神经网络
nett=Uxt+Wht1,hf=f(nett),y=g(VhT)net_t=Ux_t+Wh_{t-1},h_f=f(net_t),y=g(Vh_T)
f,g为**函数,U为输入层到隐含层的权重矩阵,W为隐含层从上一时刻到下一时刻状态转移的权重矩阵。在分本分类任务中,f可以选取Tanh函数或者Relu函数,g可以采用Softmax函数。

2.循环神经网络的梯度消失问题

问题1:循环神经网络为什么会出现梯度消失或梯度爆炸?有哪些改进方案?

答:
梯度爆炸可以通过梯度裁剪来缓解,即当梯度的范式大于某个给定值时,对梯度进行等比例收缩。
梯度消失需要对模型本身进行改进。长短时记忆模型及其变种门控制循环单元

3.循环神经网络中的**函数

问题1:在循环神经网络中能否使用Relu作为**函数?

答:能,但是要对W初始化为单位矩阵。

4.长短期记忆网络

问题1:LSTM是如何实现长短期记忆功能的?

答:《百面》-10.循环神经网络

问题2:LSTM里各模块分别使用什么**函数,可以使用别的**函数吗?

答:遗忘门、输入门和输出门使用Sigmoid函数作为**函数,在生成候选记忆时,使用双曲正切函数Tanh作为**函数

5.Seq2Seq模型

问题1:什么是Seq2Seq模型?Seq2Seq模型有哪些优点?

答:《百面》-10.循环神经网络

问题2:Seq2Seq模型在解码时,有哪些常用的办法?

答:
1.贪心法,获得局部最优解。
2.技术搜索

6.注意力机制

问题1:Seq2Seq模型引入注意力机制是为了解决什么问题?为什么选用了双向的循环神经网络模型?

答:
《百面》-10.循环神经网络