1.循环神经网络和卷积神经网络
问题1:处理文本数据时,循环神经网络与前馈神经网络相比有什么特点?
答:
f,g为**函数,U为输入层到隐含层的权重矩阵,W为隐含层从上一时刻到下一时刻状态转移的权重矩阵。在分本分类任务中,f可以选取Tanh函数或者Relu函数,g可以采用Softmax函数。
2.循环神经网络的梯度消失问题
问题1:循环神经网络为什么会出现梯度消失或梯度爆炸?有哪些改进方案?
答:
梯度爆炸可以通过梯度裁剪来缓解,即当梯度的范式大于某个给定值时,对梯度进行等比例收缩。
梯度消失需要对模型本身进行改进。长短时记忆模型及其变种门控制循环单元
3.循环神经网络中的**函数
问题1:在循环神经网络中能否使用Relu作为**函数?
答:能,但是要对W初始化为单位矩阵。
4.长短期记忆网络
问题1:LSTM是如何实现长短期记忆功能的?
答:
问题2:LSTM里各模块分别使用什么**函数,可以使用别的**函数吗?
答:遗忘门、输入门和输出门使用Sigmoid函数作为**函数,在生成候选记忆时,使用双曲正切函数Tanh作为**函数
5.Seq2Seq模型
问题1:什么是Seq2Seq模型?Seq2Seq模型有哪些优点?
答:
问题2:Seq2Seq模型在解码时,有哪些常用的办法?
答:
1.贪心法,获得局部最优解。
2.技术搜索
6.注意力机制
问题1:Seq2Seq模型引入注意力机制是为了解决什么问题?为什么选用了双向的循环神经网络模型?
答:
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:《百面》-10.循环神经网络 - Python技术站