深度学习进阶-读书笔记

深度学习进阶-读书笔记

图像处理

1.1 风格迁移

l 如何描述一张图的绘画风格：Texture representation（纹理表示）；feature-map作为内容的表征形式

l 怎么权衡内容和风格：

1.2 图像检索

l 基于内容的图像检索：根据图片的颜色、纹理及其类别信息检索图片

l 基于哈希的图像检索架构

l 图像特征表示：Hand crafted features→CNN based features

l 哈希编码学习-方法分类：a.哈希编码概念（高维到低维表示） b.哈希编码的好处（降低内存，提高速度） c.哈希编码的两个阶段（学习阶段、编码阶段）

l 基于有监督的深度哈希编码学习：图像特征提取层+哈希编码学习层

l 面对多标签图像检索的有监督深度哈希编码学习：二元组输入，经CONV、FC生成特征向量，通过哈希编码学习层生成图像哈希编码，在多层次对比损失函数的指导下使汉明距离与语义相似度对应

1.3 标题生成

l 什么是图像标题生成：输入图片，输出对图片描述的文本

l 图像标题生成-最简版encoder-decoder：encoder由CNN提取特征，decoder由RNN生成描述

l 图像标题生成-MS Captivator：detect words→generate sentences→re-rank sentences

l 图像标题生成-基于注意力的模型：a.由CONV得到contexts b.由contexts用LSTM生成单词

自然语言处理

2.1 技术概览：

l 自然语言处理技术概览：NLP基础技术→NLP核心技术→NLP+

l 词向量的概念：将自然语言转化成机器理解符号的媒介

l 词向量的应用：计算相似度、作为神经网络的输入、句子/文档表示

l 词向量学习模型-神经网络语言模型：可判定字符串为自然语言的概率

l 词向量学习模型-CBOW和skip-grain：a.CBOW模型：用一个词的上下文作为输入预测词本身 b.Skip-grain模型：用一个词作为输入预测它的上下文词

l 词向量学习模型-层次化softmax方法：一种对输出层进行优化的策略，输出层用Huffman树计算概率值

l 词向量学习模型-负采样方法：最大化正样本的概率，同时最小化负样本的概率

2.2 情感分析

l 情感分析与人工智能

l 情感分析技术体系：情感知识库的构建→情感分类模型→情感分析的应用研究

l 情感词向量意义：具有相似语法和语义的词，在词向量空间中距离较近

l 情感词向量学习模型：引入句子情感信息作为监督指导的词向量模型

l 篇章级情感分类模型：对整篇文档的全局情感极性进行分析判断（词→句子→篇章）

l 句子级情感分类模型：对单句的情感极性进行分类判断（常用CNN、RNN、Recursve-NN、BERT）

l 属性级情感分类模型：对所描述事物的属性情感极性进行判断（细粒度情感分析）、两类方法（分段式表示、整体表示）

2.3 机器阅读

l 什么是机器阅读：a.让AI代替人类自动阅读信息并又问题得答案 b.是NLP领域“皇冠上的明珠”，涉及语义理解等复杂技术

l 机器阅读的难点挑战：语义推理难、语义关联难、语义表示难

l 机器阅读数据集-MCTest

l 机器阅读数据集-CNN/Daily Mail

l 机器阅读数据集-SQuAD

l 机器阅读数据集-Quasar-T

l 机器阅读模型（BiDAF）：输入一篇文章X和一个问题Y，输出文章中每一个词作为答案开始的概率和答案结束的概率（Bi-Directional Attention Flow For Machine Comprehension）

l 机器阅读的主要步骤：文本表示、语义匹配、理解推理、结果推荐

2.4 自动问答

l 什么是问答系统：a.被认为是图灵测试的原始形态 b.是下一代搜索引擎的基本形态

l 基于知识图谱的问答系统

l 基于知识图谱的问答-深度学习方法：三大关键问题（对问题的表示、对答案的表示、问题和答案间的语义关联）

l 文本、知识的深度表示：a.词的向量化 b.句子（文本）的向量化c.知识（事实、命题）的向量化

l 基于知识图谱的问答模型：确定主体实体→生成候选答案实体→答案表示→问句表示→计算得分

l 基于推理的问答系统：通过对已知知识的推理来得到未知知识

l Attentive Reader：分别用双向LSTM去建模document和query

多模态融合

3.1 多模态分类

l 什么是多模态数据：通过文本、声音、图片、视频等资源或模型组成消息的一种通信方式。

l 什么是多模态情感分析：单模态上的信息往往不全面或带有歧义，多模态数据对单模态数据形成多视角补充

l 传统多模态融合方法：通过组合多个学习器实现多模态融合，单独的学习器称个体学习器，可分别设置为文本、图片、语音等单视角分类器。个体学习器可以是SVM、决策树、NN等学习算法。

l 集成学习什么情况下有效：个体学习器应该“好而不同”，要有一定的准确性和差异性

l 基于深度学习的多模态情感分类：a.基于后融合的多模态分类模型的两个关键点（如何更有效对单个模态进行情感分类、如何有效组合多个单模态的情感分类结果）b.训练图片分类器时采用迁移学习思想

l 如何进行前融合：a.前融合指通过学习不同模态数据间的语义关联，进行联合特征提取b.后融合和中融合中的特征提取都是一独立的过程

l 自编码器（AutoEncoder）是什么：a.是一种前馈神经网络，目标是尽可能的让输入输出一致 b.使用反向传播进行训练，是无监督模型，用于数据降维或特征提取

l 自编码器原理：包含编码器和解码器 a.多层的编解码器性能更好 b.编解码过程c.AutoEncoder的目标函数为输入输出差值最小

l 什么是稀疏自编码：a.稀疏自编码器（Sparse AutoEncoder）可约束中间表达尽可能的稀疏，学习到更有用的特征 b.在AutoEncoder基础上加上L1正则限制，可得Sparse AutoEncoder

3.2 多模态检索

l 什么是多模态检索：以图搜声+以图搜文为例

l Bimodal DBN

l 对应自编码器（Correspondence Autoencoder）：由两个单模态的自编码器组成，每个编码器负责其相对应模态的表示学习

l 对应跨模型自编码器（Correspondence Cross-Modal Autoencoder）：左右两部分都是跨模态自编码器，图像模态和文本模态的表示学习相互考虑

l 对应全模态自编码器（Correspondence Full-Modal Autoencoder）：左右两侧分别以单模态输入，输出端重构图像及文本，综合了对应自编码器和对应模态自编码器

l 哪种多模态神经网络好

3.3 命名实体识别

l 图文混合命名实体识别

应用与实践

4.1 优化方法

l 什么是优化： a.x=arg min f(x) b.优化是指求使得f（x）取得最大或最小值的自变量x c.f(x)叫做目标函数（Objective Function）或损失函数（Loss Function or Cost Function）

l 优化在深度学习中的应用：a. b.链式法则 c.

l 存在的问题及解决方法:a.如何收敛更快（模拟退火，使用动量） b.学习率取多大合适（Ada-）c.如何优化数据集中所有数据（Batch-Normalization）

l 各类优化方法简介:SGD、Mini-Batch GD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam（实际表现效果较好，应用较广泛）

l 应用比较

4.2 调参方法

l 调参技巧：a.调参（tune）的目标是调试超参数的取值，以期望模型在测试集达到最优的泛化能力。训练集和测试集误差随训练次数的变化是分析模型好坏的关键线索b.最初数据集分为训练集（training set）和测试集（test set）。大家经常根据测试集结果调参，这存在问题：得到模型是最适应测试集的模型，而无法评价模型在测试集的泛化能力c.我们从训练集中分离一小部分作为开发集（development set），由此可在开发集上调参，评价模型在测试集的泛化能力 d.调参的两个目标：尽可能拟合训练集的数据分布（较好的局部最优解）、尽可能在测试集上达到最优效果（较强的泛化能力）

l 格搜索（Grid Search）：a.即对每个超参数进行离散枚举，选择结果最好的一组取值 b.batch_size（4,8,16,32,48,64）、learning_rate(0.0001、0.0005、0.001、0.005)

l 最优解：a.学习率较大会在最优解附近产生震荡，导致误差上升 b.学习率过大过小，loss都较高。过小时稳定，过大时震荡上升 c.batch_size较小时波动剧烈，较大时稳定。batch_size较小时等价于正则化效果 d.增大batch_size是减小学习率的另一种替代措施

l 欠拟合与过拟合:a.欠拟合：模型在训练集上的误差很大，可能存在拟合能力不足问题（增加网络层数）b.训练集上较低误差，但泛化能力变弱。模型在训练集的误差会先下降后上升，此时测试集上误差拐点才是所需的最优值c.解决方法：正则化、dropout

l 防止过拟合:a.正则化：在目标函数中加入参数的二范数，以最小化参数的二范数方法来约束参数大小，期望参数取值尽可能靠近0 b.dropout：模型以一定概率随即丢弃隐含节点的值，置为0，概率可取0.5或0.9

l 调参进阶:a.好的参数初始化策略能事半功倍（高斯初始化、正交初始化、Xavier) b.参数初始化不同条件下，持续减小的学习率可能导致模型收敛到一个较差的局部最优解，需步出该解c.网络层数变深，梯度在最底层可能特别小，且小于正则化提供梯度，此时可对每层参数单独设置其正则化权重weight_decay

4.3 课程实践

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习进阶-读书笔记 - Python技术站

深度学习进阶-读书笔记

相关文章