文本预处理:

下列哪一项不是构建Vocab类所必须的步骤:B

A.    词频统计,清洗低频词

B.    句子长度统计

C.    构建索引到token的映射

D.    构建token到索引的映射

 

无论use_special_token参数是否为真,都会使用的特殊token是____,作用是用来____ : D

A.    <pad>,在小批量中数据不等长时做填充

B.    <bos>,标记句子的开始

C.    <eos>,标记句子的结束

D.    <unk>,表示未登录词

 

 

语言模型:

下列关于n元语法模型的描述中错误的是:  C

文本预处理、语言模型、循环神经网络

 

下列关于随机采样的描述中错误的是: B

A.   训练数据中的每个字符最多可以出现在一个样本中

B.   每个小批量包含的样本数是batch_size,每个样本的长度为num_steps

C.   在一个样本中,前后字符是连续的

D.   前一个小批量数据和后一个小批量数据是连续的

 

给定训练数据[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],批量大小为batch_size=2,时间步数为2,使用本节课的实现方法进行相邻采样,第二个批量为:   B

A.  [5, 6][7, 8]

B.  [2, 3][7, 8]

C.  [4, 5][6, 7]

D.  [2, 3][6, 7]

 

循环神经网络:

关于循环神经网络描述错误的是:   B

A.   在同一个批量中,处理不同语句用到的模型参数Wh​和bh​是一样的

B.   循环神经网络处理一个长度为TT的输入序列,需要维护TT组模型参数

C.   各个时间步的隐藏状态H_{t}Ht​不能并行计算

D.   可以认为第tt个时间步的隐藏状态H_tHt​包含截止到第tt个时间步的序列的历史信息

 

 

关于梯度裁剪描述错误的是:  D

A.    梯度裁剪之后的梯度小于或者等于原梯度

B.    梯度裁剪是应对梯度爆炸的一种方法

C.    裁剪之后的梯度L2范数小于阈值thetaθ

D.    梯度裁剪也是应对梯度消失的一种方法

 

 

关于困惑度的描述错误的是:   B

A.    困惑度用来评价语言模型的好坏

B.    困惑度越低语言模型越好

C.    有效模型的困惑度应该大于类别个数

 

 

关于采样方法和隐藏状态初始化的描述错误的是:  C

A.    采用的采样方法不同会导致隐藏状态初始化方式发生变化

B.    采用相邻采样仅在每个训练周期开始的时候初始化隐藏状态是因为相邻的两个批量在原始数据上是连续的

C.    采用随机采样需要在每个小批量更新前初始化隐藏状态是因为每个样本包含完整的时间序列信息

 

线性回归:

文本预处理、语言模型、循环神经网络

文本预处理、语言模型、循环神经网络

文本预处理、语言模型、循环神经网络

 

softmax和分类模型:

文本预处理、语言模型、循环神经网络

  多层感知机:

文本预处理、语言模型、循环神经网络