【技术综述】一文道尽深度学习中的数据增强方法（下）

2023年4月10日下午2:47 • 深度学习

深度学习中的数据增强方法的下篇。我们将从以下几个方向入手。1，介绍一下什么是无监督的数据增强方法。2，简单介绍一下GAN生成数据的应用。3，介绍一下AutoAugment为代表的网络自动学习数据增强策略的方法。4，总结。

00 什么是无监督数据增强方法

我们先看看什么是有监督的数据增强方法。它指的是生成的图片，是在已有的图片上直接做简单的几何变换，像素变化，或者简单的图片融合，如下。

【技术综述】一文道尽深度学习中的数据增强方法（下）

【技术综述】一文道尽深度学习中的数据增强方法（下）

上面的增强方法，都是由使用者完全定义的。然而，不是所有的任务都适合所有的数据增强方法。

比如数字识别，就不适合做太大角度的旋转。不然，9和6就分不开了。

【技术综述】一文道尽深度学习中的数据增强方法（下）

人脸姿态，就不适合做翻转，不然左右分不清。

【技术综述】一文道尽深度学习中的数据增强方法（下）

那什么是无监督的方法呢？

包括两类：

(1)通过模型学习数据的分布，随机生成与训练数据集分布一致的图片，代表方法，GAN【1】。

(2)通过模型，学习出适合当前任务的数据增强方法，代表方法，AutoAugment【2】。

下面分别讲述。

01 GAN

1.1 什么是Gan

generative adversarial networks，译名生成对抗网络，它包含两个网络，一个是生成网络，一个是对抗网络，基本原理如下：

(1)G是一个生成图片的网络，它接收随机的噪声z，通过噪声生成图片，记做G(z) 。

(2)D是一个判别网络，判别一张图片是不是“真实的”，即是真实的图片，还是由G生成的图片。

【技术综述】一文道尽深度学习中的数据增强方法（下）

如上图，原理非常简单，至于更多的数学，训练等细节，留待以后专题，毕竟这里主要介绍数据增强方法的使用。

1.2 Gan应用

DCGAN【3】作为第一个比较实用的Gan，生成手写数字的效果还是不错的。

【技术综述】一文道尽深度学习中的数据增强方法（下）

它的生成器的网络结构也比较简单，如下。

【技术综述】一文道尽深度学习中的数据增强方法（下）

关于更多细节，以后再专门讲。我们看看生成的一些嘴唇的数据，这是真实项目中使用的。

【技术综述】一文道尽深度学习中的数据增强方法（下）

现在生成效果最惊艳的来自于nvidia【4】，利用从小分辨率到大分辨率逐步提升的办法，看看结果吧。

【技术综述】一文道尽深度学习中的数据增强方法（下）

Gan学习的是数据分布，下面我们讲讲另一种思路。

02 AutoAugment

虽然这是一篇论文，但是也可以看作一个研究方向。

它的基本思路：使用增强学习从数据本身寻找最佳图像变换策略，对于不同的任务学习不同的增强方法。

1.1 原理

我们直截了当，流程如下。

1：准备16个数据增强操作。

2 : 从16个中选择5个操作，随机产生使用该操作的概率和幅度，将其称为一个sub-policy，一共产生5个sub-polices。

3：每一个batch中的图片，随机采用5个sub-polices操作中的一种。

4：通过childmodel在验证集上的泛化能力来反馈，使用增强学习方法。

5：经过80~100个epoch后开始有效果，能学习到sub-policies。

6：串接这5个sub-policies，然后再进行最后的训练。

文章中用到的16个操作如下：

【技术综述】一文道尽深度学习中的数据增强方法（下）

大致原理就是这样，数据增强都是已有的操作，学习到的就是组合的策略，更多训练细节可以看原文。

1.2 实际效果

我们看两个例子。

第一个是SVHN门牌图像识别，下面是学习到的图像增强操作。

【技术综述】一文道尽深度学习中的数据增强方法（下）

从上面可以知道，AutoAugment学到了侧重于剪切和平移等几何变换，同时学会了颜色反转。

再看一个imagenet的分类任务。

【技术综述】一文道尽深度学习中的数据增强方法（下）

从上面可以看出，AutoAugment不使用剪切，也不完全反转颜色，因为这些变换会导致图像失真。相反，AutoAugment 侧重于微调颜色和色相分布。

效果还不错对吧。还有没有其他的一些方法呢？有的，我们再举一个例子吧。

Smart Augmentation【5】，它学习到的就是组合多张图片的策略，框架如下：

【技术综述】一文道尽深度学习中的数据增强方法（下）

下面是一个具体的例子，第一张图是后面两张图的组合。

【技术综述】一文道尽深度学习中的数据增强方法（下）

针对具体任务进行自适应数据增强，这是一个很好的研究方向，期待后续的研究。

03 总结

下面对数据增强这两次的分享做一个总结，数据增强是为了增强模型的泛化能力，那它与dropout，weight decay有什么区别？

weight decay，dropout，stochastic depth等方法，是专门设计来限制模型的有效容量的，用于减少过拟合，它们是显式的规整化方法。研究表明这一类方法可以提高泛化能力，但并非必要，且能力有限，而且参数高度依赖于网络结构等因素。

数据增强则没有降低网络的容量，也不增加计算复杂度和调参工程量，是隐式的规整化方法。实际应用中更有意义，所以我们常说，数据大于天。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：【技术综述】一文道尽深度学习中的数据增强方法（下） - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

《深度解析SDN》学习小结

上一篇 2023年4月10日

【技术综述】一文道尽深度学习中的数据增强方法（上）

下一篇 2023年4月10日

一天搞定深度学习

http://www.slideshare.net/tw_dsconf/ss-62245351?qid=c0f0f97a-6ca8-4df0-97e2-984452215ee7&v=&b=&from_search=1 台湾的一个大学的关于深度学习的入门资料

深度学习 2023年4月10日
000
深度学习文献阅读笔记（3）

　　21、深度神经网络在视觉显著性中的应用（Visual Attention with Deep Neural Networks）（英文，会议论文。2015年，IEEE检索）　　这篇文章主要讲CNN在显著性检測领域的应用。　　　　22、深度学习研究进展（中文，期刊，2015年。知网）　　深度学习方面的一篇综述性文章，对深度学习的由来，人脑视觉机理，C…

深度学习 2023年4月11日
000
从贝叶斯角度，看深度学习的属性和改进方法

https://arxiv.org/abs/1706.00473 深度学习是一种为非线性高维数据进行降维和预测的机器学习方法。而从贝叶斯概率视角描述深度学习会产生很多优势，即具体从统计的解释和属性，从对优化和超参数调整更有效的算法，以及预测性能的解释这几个方面进一步阐述。同时，传统的高维统计技术：主成分分析法（PCA）、偏最小二乘法（PLS）、降秩回归（RR…

深度学习 2023年4月12日
000
Easy-Classification-分类框架设计

1. 框架介绍 Easy-Classification是一个应用于分类任务的深度学习框架，它集成了众多成熟的分类神经网络模型，可帮助使用者简单快速的构建分类训练任务。框架源代码：https://github.com/wuya11/easy-classification 1.1 框架功能 1.1.1 数据加载文件夹形式其它自定义形式，在项目应用中，参考案…

深度学习 2023年4月10日
000
深度学习

深度学习之PyTorch实战（5）——对CrossEntropyLoss损失函数的理解与学习

　　其实这个笔记起源于一个报错，报错内容也很简单，希望传入一个三维的tensor，但是得到了一个四维。 RuntimeError: only batches of spatial targets supported (3D tensors) but got targets of dimension: 4 　　查看代码报错点，是出现在pytorch计算交叉熵…

2023年4月10日
000
2-10 是否要使用端到端的深度学习？

假设你正在搭建一个机器学习系统，你要决定是否使用端对端方法，我们来看看端到端深度学习的一些优缺点，这样你就可以根据一些准则，判断你的应用程序是否有希望使用端到端方法。优点：端到端学习真的只是让数据说话。所以如果你有足够多的(x, y)数据，那么不管从x到y最适合的函数映射是什么，如果你训练一个足够大的神经网络，希望这个神经网络能自己搞清楚，而使用纯机器学…

深度学习 2023年4月13日
000
什么是深度学习？它能解决什么问题？

深度学习是什么？深度学习既指深度神经网络，也指机器学习的其他分支，如深度强化学习。一般来说，它通常指的是深度神经网络。神经网络是一组算法，大致模仿人脑，旨在识别模式。他们通过一种机器感知，标记或聚类原始的输入来解释感官数据。它们识别的模式是数字的，包含在矢量中。所有现实世界的数据，无论是图像、声音、文本还是时间序列，都必须转换成矢量。神经网络可以帮助我…

2022年11月10日 • 深度学习
100
《python深度学习》笔记—6.1-2、word embedding-利用 Embedding 层学习词嵌入

一、总结一句话总结：【考虑到仅查看每条评论的前 20 个单词】：得到的验证精度约为 76%，考虑到仅查看每条评论的前 20 个单词，这个结果还是相当不错的。【没有考虑单词之间的关系和句子结构】：但请注意，仅仅将嵌入序列展开并在上面训练一个 Dense 层，会导致模型对输入序列中的每个单词单独处理，而没有考虑单词之间的关系和句子结构（举个例子，这个模…

深度学习 2023年4月13日
000

合作推广

合作推广

返回顶部