斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

2023年4月8日上午3:09 • 循环神经网络

语言模型

语言模型计算一串句子的概率

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

传统的语言模型：通常我们会以一个突破点为基础条件在尝试预测一个词之前我们会尝试仅仅根据它前面的n个词语预测下一个词这是使用传统的机器学习模型必要的但却是错误的

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

但是占用的内存较大效率不好

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

解决办法：RNN 从理论层面上来讲我们可以根据所有前序字组来进行预测如此一来内存需求只会取决于字词的数量规模而不受我们想依据的序列长度的影响

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

RNN语言模型

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

主要思想：我们使用相同的权重进行更新在所有时间步长中

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

如何进行训练仍然可以利用cross entropy

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

整个语料上的交叉熵误差为：J 如果以2为底数会得到“perplexity困惑度”，代表模型下结论时的困惑程度，越小越好：

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

训练RNN很难--会产生梯度消失问题定义一个简单的类递归神经网络借助此神经网络更加直观的理解梯度消失问题并简化下游的数学计算

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

指数项(βWβh)^t−k在βWβh显著地大于或小于1的时候，经过足够多的t−k次乘法之后就会趋近于0或无穷大。小于1更常见，会导致很长时间之前的词语无法影响对当前词语的预测。

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

有个IPython Notebook专门演示梯度消失，对于如下数据：

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

学习非线性的决策边界：

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

用经典的三层网络结构，得到蓝色的第一层梯度的长度和绿色的第二层梯度的长度，可视化：

sigmoid**函数下：

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

ReLU**函数下：

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

梯度爆炸一种暴力的方法是，当梯度的长度大于某个阈值的时候，将其缩放到某个阈值。虽然在数学上非常丑陋，但实践效果挺好。其直观解释是，在一个只有一个隐藏节点的网络中，损失函数和权值w偏置b构成error surface，其中有一堵墙：

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

每次迭代梯度本来是正常的，一次一小步，但遇到这堵墙之后突然梯度爆炸到非常大，可能指向一个莫名其妙的地方（实线长箭头）。但缩放之后，能够把这种误导控制在可接受的范围内（虚线短箭头）。

但这种trick无法推广到梯度消失，因为你不想设置一个最低值硬性规定之前的单词都相同重要地影响当前单词。

减缓梯度消失与其随机初始化参数矩阵，不如初始化为单位矩阵。这样初始效果就是上下文向量和词向量的平均。然后用ReLU**函数。这样可以在step多了之后，依然使得模型可训练

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

让困惑度变小

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

softmax有时候很大词表太大的话，softmax很费力。一个技巧是，先预测词语的分类（比如按词频分），然后在分类中预测词语。分类越多，困惑度越小，但速度越慢。所以存在一个平衡点：

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

最后一个小技巧：记录每个t的误差不要丢，反向传播的时候将其累加起来。

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

序列模型应用到其他任务上

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

其中，意见挖掘任务就是将每个词语归类为： DSE：直接主观描述（明确表达观点等）ESE：间接主观描述（间接地表达情感等）

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

实现这个任务的朴素网络结构就是一个裸的RNN：

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

但是这个网络无法利用当前词语的下文辅助分类决策，解决方法是使用一些更复杂的RNN变种。这里箭头表示从左到右或从右到左前向传播，对于每个时刻t的预测，都需要来自双向的特征向量，拼接后进行分类。箭头虽然不同，但参数还是同一套参数

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

Deep 双边 RNN 理解了上图之后，再加几个层，每个时刻不但接受上个时刻的特征向量，还接受来自下层的特征表示：

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

如何评测评测方法是标准的F1（因为标签样本不均衡），在不同规模的语料上试验不同层数的影响：

斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：斯坦福CS224n NLP课程【八】——RNN (循环神经网络)和语言模式 - Python技术站

人工智能循环神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

循环神经网络自动生成程序：谷歌大脑提出「优先级队列训练」

上一篇 2023年4月8日上午3:08

深度学习（花书）学习笔记——第十章序列建模：循环神经网络

下一篇 2023年4月8日上午3:10

机器学习之GMM-EM

参考资料：机器学习课程的ppt…… Mixture Models 我们将研究混合模型，包括高斯混合模型和伯努利混合模型。关键思想是引入潜变量，它允许从更简单的分布形成复杂的分布。· 我们将看到，混合模型可以用具有离散的潜在变量（在有向的图形模型中）来解释。在后面的课堂上，我们还会看到连续的潜在变量。 K-Means Clustering k-群集分析…

机器学习 2023年4月11日
000
Keras

TensorFlow2.0教程-使用keras训练模型

1.一般的模型构造、训练、测试流程 1 # 模型构造 2 inputs = keras.Input(shape=(784,), name=\’mnist_input\’) 3 h1 = layers.Dense(64, activation=\’relu\’)(inputs) 4 h1 = layers.Dense(64, activation=\’relu…

2023年4月8日
000
Keras

【Keras学习笔记】1：开发环境搭建,单变量线性回归

简述 Keras是在既有的NN框架之上的封装，可以以TF，CNTK，Theano等作为后端来运行。它的价值在于快速实验，能很方便将实验想法用Keras框架写成代码。开发环境搭建默认情况下Keras使用TF为后端。注意后面两个用pip安装，不然一直无法安装成功。这里为了学习方便直接安装了TF，如果有GPU可以去安装GPU版本的TF。 conda creat…

2023年4月8日
000
循环神经网络

循环神经网络学习研究（二）-代码

上一讲博客主要对RNN的理论做了介绍，如果想看详细的RNN推导过程以及一些变种，如:LSTM、GRU等，可以给博主留言。下面基于mnist数据集，采用RNN建模和仿真，发现RNN对于时序模型的强大建模能力，迭代20次就已经达到96准确率。下面直接上代码，有不懂的问题，可以留言。 #-*- coding:utf-8 -*- #author : zhangw…

2023年4月8日
000
卷积神经网络

卷积神经网络CNN 手写数字识别

1. 知识点准备在了解 CNN 网络神经之前有两个概念要理解，第一是二维图像上卷积的概念，第二是 pooling 的概念。 a. 卷积关于卷积的概念和细节可以参考这里,卷积运算有两个非常重要特性，以下面这个一维的卷积为例子：第一个特性是稀疏连接。可以看到， layer m 上的每一个节点都只与 layer m-1 对应区域的三个节点相连接。这个局部范围…

2023年4月8日
000
关于tensorflow版本报错问题的解决办法

#原 config = tf.ConfigProto(allow_soft_placement=True) config = tf.compat.v1.ConfigProto(allow_soft_placement=True) #原 sess = tf.Session(config=config) sess =tf.compat.v1.Session(co…

tensorflow 2023年4月6日
000
卷积神经网络

深度可分离卷积结构（depthwise separable convolution）计算复杂度分析

https://zhuanlan.zhihu.com/p/28186857 这个例子说明了什么叫做空间可分离卷积，这种方法并不应用在深度学习中，只是用来帮你理解这种结构。在神经网络中，我们通常会使用深度可分离卷积结构（depthwise separable convolution）。这种方法在保持通道分离的前提下，接上一个深度卷积结构，即可实现空间卷积。…

2023年4月8日
000
循环神经网络

循环神经网络中Dropout的应用（转）

https://blog.csdn.net/wangli0519/article/details/75208155 循环神经网络（RNNs）是基于序列的模型，对自然语言理解、语言生成、视频处理和其他许多任务至关重要。模型的输入是一个符号序列，在每个时间点一个简单的神经网络（RNN单元）应用于一个符号，以及此前时间点的网络输出。RNNs是强大的模型，在许多任务…

2023年4月8日
000

合作推广

合作推广

返回顶部