文本预处理: 下列哪一项不是构建Vocab类所必须的步骤:B A. 词频统计,清洗低频词 B. 句子长度统计 C. 构建索引到token的映射 D. 构建token到索引的映射 无论use_special_token参数是否为真,都会使用的特殊token是____,作用是用来____ : D A. <pad>,在…
正文 what should I do if……my loss diverges? (increases by order of magnitude, goes to inf. or NaN)lower the learning rateraise momentum (with corresponding learning rate drop)rai…