深度学习进阶-读书笔记

  1. 图像处理

1.1 风格迁移

如何描述一张图的绘画风格:Texture representation(纹理表示);feature-map作为内容的表征形式

l 怎么权衡内容和风格:

1.2 图像检索

l 基于内容的图像检索:根据图片的颜色、纹理及其类别信息检索图片

l 基于哈希的图像检索架构

图像特征表示:Hand crafted features→CNN based features

哈希编码学习-方法分类:a.哈希编码概念(高维到低维表示) b.哈希编码的好处(降低内存,提高速度) c.哈希编码的两个阶段(学习阶段、编码阶段)

基于有监督的深度哈希编码学习:图像特征提取层+哈希编码学习层

面对多标签图像检索的有监督深度哈希编码学习:二元组输入,经CONV、FC生成特征向量,通过哈希编码学习层生成图像哈希编码,在多层次对比损失函数的指导下使汉明距离与语义相似度对应

1.3 标题生成

l 什么是图像标题生成:输入图片,输出对图片描述的文本

图像标题生成-最简版encoder-decoder:encoder由CNN提取特征,decoder由RNN生成描述

图像标题生成-MS Captivator:detect words→generate sentences→re-rank sentences

图像标题生成-基于注意力的模型:a.由CONV得到contexts b.由contexts用LSTM生成单词

  1. 自然语言处理

2.1 技术概览:

自然语言处理技术概览:NLP基础技术→NLP核心技术→NLP+

l 词向量的概念:将自然语言转化成机器理解符号的媒介

词向量的应用:计算相似度、作为神经网络的输入、句子/文档表示

词向量学习模型-神经网络语言模型:可判定字符串为自然语言的概率

词向量学习模型-CBOW和skip-grain:a.CBOW模型:用一个词的上下文作为输入预测词本身 b.Skip-grain模型:用一个词作为输入预测它的上下文词

词向量学习模型-层次化softmax方法:一种对输出层进行优化的策略,输出层用Huffman树计算概率值

词向量学习模型-负采样方法:最大化正样本的概率,同时最小化负样本的概率

2.2 情感分析

l 情感分析与人工智能

情感分析技术体系:情感知识库的构建→情感分类模型→情感分析的应用研究

l 情感词向量意义:具有相似语法和语义的词,在词向量空间中距离较近

l 情感词向量学习模型:引入句子情感信息作为监督指导的词向量模型

篇章级情感分类模型:对整篇文档的全局情感极性进行分析判断(词→句子→篇章)

句子级情感分类模型:对单句的情感极性进行分类判断(常用CNN、RNN、Recursve-NN、BERT)

l 属性级情感分类模型:对所描述事物的属性情感极性进行判断(细粒度情感分析)、两类方法(分段式表示、整体表示)

2.3 机器阅读

什么是机器阅读:a.让AI代替人类自动阅读信息并又问题得答案 b.是NLP领域“皇冠上的明珠”,涉及语义理解等复杂技术

l 机器阅读的难点挑战:语义推理难、语义关联难、语义表示难

机器阅读数据集-MCTest

机器阅读数据集-CNN/Daily Mail

机器阅读数据集-SQuAD

机器阅读数据集-Quasar-T

机器阅读模型(BiDAF):输入一篇文章X和一个问题Y,输出文章中每一个词作为答案开始的概率和答案结束的概率(Bi-Directional Attention Flow For Machine Comprehension)

l 机器阅读的主要步骤:文本表示、语义匹配、理解推理、结果推荐

2.4 自动问答

什么是问答系统:a.被认为是图灵测试的原始形态 b.是下一代搜索引擎的基本形态

l 基于知识图谱的问答系统

基于知识图谱的问答-深度学习方法:三大关键问题(对问题的表示、对答案的表示、问题和答案间的语义关联)

文本、知识的深度表示:a.词的向量化 b.句子(文本)的向量化c.知识(事实、命题)的向量化

基于知识图谱的问答模型:确定主体实体→生成候选答案实体→答案表示→问句表示→计算得分

l 基于推理的问答系统:通过对已知知识的推理来得到未知知识

l Attentive Reader:分别用双向LSTM去建模document和query

  1. 多模态融合

3.1 多模态分类

l 什么是多模态数据:通过文本、声音、图片、视频等资源或模型组成消息的一种通信方式。

l 什么是多模态情感分析:单模态上的信息往往不全面或带有歧义,多模态数据对单模态数据形成多视角补充

传统多模态融合方法:通过组合多个学习器实现多模态融合,单独的学习器称个体学习器,可分别设置为文本、图片、语音等单视角分类器。个体学习器可以是SVM、决策树、NN等学习算法。

集成学习什么情况下有效:个体学习器应该“好而不同”,要有一定的准确性和差异性

基于深度学习的多模态情感分类:a.基于后融合的多模态分类模型的两个关键点(如何更有效对单个模态进行情感分类、如何有效组合多个单模态的情感分类结果)b.训练图片分类器时采用迁移学习思想

如何进行前融合:a.前融合指通过学习不同模态数据间的语义关联,进行联合特征提取b.后融合和中融合中的特征提取都是一独立的过程

自编码器(AutoEncoder)是什么:a.是一种前馈神经网络,目标是尽可能的让输入输出一致 b.使用反向传播进行训练,是无监督模型,用于数据降维或特征提取

自编码器原理:包含编码器和解码器 a.多层的编解码器性能更好 b.编解码过程c.AutoEncoder的目标函数为输入输出差值最小

什么是稀疏自编码:a.稀疏自编码器(Sparse AutoEncoder)可约束中间表达尽可能的稀疏,学习到更有用的特征 b.在AutoEncoder基础上加上L1正则限制,可得Sparse AutoEncoder

3.2 多模态检索

什么是多模态检索:以图搜声+以图搜文为例

l Bimodal DBN

对应自编码器(Correspondence Autoencoder):由两个单模态的自编码器组成,每个编码器负责其相对应模态的表示学习

对应跨模型自编码器(Correspondence Cross-Modal Autoencoder):左右两部分都是跨模态自编码器,图像模态和文本模态的表示学习相互考虑

对应全模态自编码器(Correspondence Full-Modal Autoencoder):左右两侧分别以单模态输入,输出端重构图像及文本,综合了对应自编码器和对应模态自编码器

l 哪种多模态神经网络好

3.3 命名实体识别

l 图文混合命名实体识别

  1. 应用与实践

4.1 优化方法

什么是优化: a.x=arg min f(x) b.优化是指求使得f(x)取得最大或最小值的自变量x c.f(x)叫做目标函数(Objective Function)或损失函数(Loss Function or Cost Function)

优化在深度学习中的应用:a. b.链式法则 c.

存在的问题及解决方法:a.如何收敛更快(模拟退火,使用动量) b.学习率取多大合适(Ada-)c.如何优化数据集中所有数据(Batch-Normalization)

各类优化方法简介:SGD、Mini-Batch GD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam(实际表现效果较好,应用较广泛)

l 应用比较

4.2 调参方法

调参技巧:a.调参(tune)的目标是调试超参数的取值,以期望模型在测试集达到最优的泛化能力。训练集和测试集误差随训练次数的变化是分析模型好坏的关键线索b.最初数据集分为训练集(training set)和测试集(test set)。大家经常根据测试集结果调参,这存在问题:得到模型是最适应测试集的模型,而无法评价模型在测试集的泛化能力c.我们从训练集中分离一小部分作为开发集(development set),由此可在开发集上调参,评价模型在测试集的泛化能力 d.调参的两个目标:尽可能拟合训练集的数据分布(较好的局部最优解)、尽可能在测试集上达到最优效果(较强的泛化能力)

格搜索(Grid Search):a.即对每个超参数进行离散枚举,选择结果最好的一组取值 b.batch_size(4,8,16,32,48,64)、learning_rate(0.0001、0.0005、0.001、0.005)

最优解:a.学习率较大会在最优解附近产生震荡,导致误差上升 b.学习率过大过小,loss都较高。过小时稳定,过大时震荡上升 c.batch_size较小时波动剧烈,较大时稳定。batch_size较小时等价于正则化效果 d.增大batch_size是减小学习率的另一种替代措施

欠拟合与过拟合:a.欠拟合:模型在训练集上的误差很大,可能存在拟合能力不足问题(增加网络层数)b.训练集上较低误差,但泛化能力变弱。模型在训练集的误差会先下降后上升,此时测试集上误差拐点才是所需的最优值c.解决方法:正则化、dropout

防止过拟合:a.正则化:在目标函数中加入参数的二范数,以最小化参数的二范数方法来约束参数大小,期望参数取值尽可能靠近0 b.dropout:模型以一定概率随即丢弃隐含节点的值,置为0,概率可取0.5或0.9

调参进阶:a.好的参数初始化策略能事半功倍(高斯初始化、正交初始化、Xavier) b.参数初始化不同条件下,持续减小的学习率可能导致模型收敛到一个较差的局部最优解,需步出该解c.网络层数变深,梯度在最底层可能特别小,且小于正则化提供梯度,此时可对每层参数单独设置其正则化权重weight_decay

4.3 课程实践