独家 | GAN大盘点，聊聊这些年的生成对抗网络 : LSGAN, WGAN, CGAN, infoGAN, EBGAN, BEGAN, VAE

2023年4月7日下午8:13 • GAN生成对抗网络

转自：http://nooverfit.com/wp/%E7%8B%AC%E5%AE%B6%EF%BD%9Cgan%E5%A4%A7%E7%9B%98%E7%82%B9%EF%BC%8C%E8%81%8A%E8%81%8A%E8%BF%99%E4%BA%9B%E5%B9%B4%E7%9A%84%E7%94%9F%E6%88%90%E5%AF%B9%E6%8A%97%E7%BD%91%E7%BB%9C-lsgan-wgan-cgan-info/

训练”稳定”，样本的”多样性”和”清晰度”似乎是GAN的 3大指标 — David 9

VAE与GAN

聊到随机样本生成, 不得不提VAE与GAN, VAE用KL-divergence和encoder-decoder的方式逼近真实分布. 但这些年GAN因其”端到端”灵活性和隐式的目标函数得到广泛青睐. 而且, GAN更倾向于生成清晰的图像:

VAE与GAN生成对比

GAN在10次Epoch后就可以生成较清晰的样本, 而VAE的生成样本依旧比较模糊. 所以GAN大盘点前, 我们先比较一下VAE与GAN的结构差别:

VAE与GAN结构比较

VAE训练完全依靠一个假设的loss函数和KL-divergence逼近真实分布:

GAN则没有假设单个loss函数, 而是让判别器D和生成器G之间进行一种零和博弈, 一方面, 生成器G要以生成假样本为目的(loss评估), 欺骗判别器D误认为是真实样本:

另一方面, 判别器D要以区分真实样本x和假样本G(z)为最终目的(loss评估):

一般, 判别器D在GAN训练中是比生成器G更强的网络, 毕竟, 网络G要从D的判别过程中学到”以假乱真”的方法. 所以, 很大程度上, G是跟着D学习的.

当然, 生成对抗网络也有一些问题, 比如经常很难训练(DCGAN试图解决), 有时候(特别是高像素图像), GAN生成图像不清晰, 还有时候, 生成图片多样性太差(只是对真实样本的简单改动).

这些问题, 催生出近年来各种有意思的GAN改进算法:

LSGAN(最小二乘GAN)

传统GAN中, D网络和G网络都是用简单的交叉熵loss做更新, 最小二乘GAN则用最小二乘(Least Squares) Loss 做更新:

选择最小二乘Loss做更新有两个好处, 1. 更严格地惩罚远离数据集的离群Fake sample, 使得生成图片更接近真实数据(同时图像也更清晰) 2. 最小二乘保证离群sample惩罚更大, 解决了原本GAN训练不充分(不稳定)的问题:

来自: https://arxiv.org/pdf/1611.04076.pdf

但缺点也是明显的, LSGAN对离离群点的过度惩罚, 可能导致样本生成的”多样性”降低, 生成样本很可能只是对真实样本的简单”模仿”和细微改动.

WGAN

DCGAN用经验告诉我们什么是比较稳定的GAN网络结构, 而WGAN告诉我们: 不用精巧的网络设计和训练过程, 也能训练一个稳定的GAN.

WGAN 通过剪裁D网络参数的方式, 对D网络进行稳定更新(Facebook采用了一种名叫”Earth-Mover“的距离来度量分布相似度).

来自: https://arxiv.org/pdf/1701.07875.pdf

但是, 有时一味地通过裁剪weight参数的方式保证训练稳定性, 可能导致生成低质量低清晰度的图片.

WGAN-GP

为了解决WGAN有时生成低质量图片的问题, WGAN-GP舍弃裁剪D网络weights参数的方式, 而是采用裁剪D网络梯度的方式(依据输入数据裁剪), 以下是WGAN-GP的判别器D的Value函数和生成器G的Value函数:

WGAN-GP在某些情况下是WGAN的改进, 但是如果你已经用了一些可靠的GAN方法, 其实差距并不大:

DRAGAN

DRAGAN本质上也是一种梯度裁剪（虽然文章自称是新颖的正则化方式），其判别器和生成器的价值函数类似WGAN-GP：

作者的初衷是希望避开局部最优解，获得更稳定的GAN训练。该算法另一个特点是实现简单，作者提供的源码如下：

https://github.com/kodalinaveen3/DRAGAN

EBGAN（基于能量函数的GAN）

EBGAN我们在之前一期讨论过，EBGAN在边缘的生成效果上更流畅, 而且加了特殊的正则项, 在生成的类别上, EBGAN更倾向于生成不同的脸型和人种，下图是论文EBGAN和DCGAN的比较：

独家 | GAN大盘点，聊聊这些年的生成对抗网络 : LSGAN, WGAN, CGAN, infoGAN, EBGAN, BEGAN, VAE

DCGAN个EBGAN生成人脸对比

EGGAN的判别器比较特殊用了encoder-decoder的结构：

独家 | GAN大盘点，聊聊这些年的生成对抗网络 : LSGAN, WGAN, CGAN, infoGAN, EBGAN, BEGAN, VAE

BGAN（Boundary-Seeking GAN）

BGAN优势在于生成离散样本（当然像图像这样的连续样本也可以支持）。

BGAN的生成器以不断生成决策边界上的样本为目标：

SGAN(Stacked GAN)

SGAN是一种结构创新的GAN，通过堆叠多个GAN网络，实现生成模型的信息“分层化”：

实验表明SGAN可以生成比一般GAN更清晰的图片，另外加入一些条件生成的功能也相当方便，github代码：https://github.com/xunhuang1995/SGAN

条件生成的GAN

许多情况下，我们需要生成指定类的随机样本，这时就需要条件生成的GAN：

CGAN

CGAN是对条件生成GAN的最先尝试，方法也比较简单，直接在网络输入加入条件信息c，用来控制网络的条件输出模式：

公式也相对简单：

这样，使得生成指定label的样本成为可能：

来自：https://arxiv.org/pdf/1411.1784.pdf

ACGAN（辅助类别的GAN）

ACGAN在Imagenet上的生成效果令人惊叹，它特意学习了一个类别下的图片结构：

来自：https://arxiv.org/pdf/1610.09585.pdf

与CGAN不同的是它在判别器D的真实数据x也加入了类别c的信息，这样就进一步告诉G网络该类的样本结构如何，从而生成更好的类别模拟：

infoGAN

对于生成同类别的样本，infoGAN另辟蹊径，通过最大化互信息（c，c’）来生成同类别的样本，其中c是隐信息:

因为隐信息c可以作为超参数控制生成图像，我们可以得到一些有趣的结果：

来自： https://arxiv.org/pdf/1606.03657.pdf

如上图，通过控制隐信息c从-2到2，我们可以控制生成图片的旋转方向或者字体宽度（从左到右的每列）。

参考文献：

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：独家 | GAN大盘点，聊聊这些年的生成对抗网络 : LSGAN, WGAN, CGAN, infoGAN, EBGAN, BEGAN, VAE - Python技术站

GAN生成对抗网络人工智能

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

简单理解生成对抗网络GAN

上一篇 2023年4月7日

强化学习在生成对抗网络文本生成中扮演的角色（Role of RL in Text Generation by GAN）（下）…

下一篇 2023年4月7日

概率论基础_七月算法4月机器学习班第2次课程笔记

2016/5/4 星期三 14:19 定义式判别式必要条件关系韦恩图相互独立 # 概率角度的定义概率的定义 P(XY) = P(X)·P(Y) from 百度百科即：有一个为不可能事件也是相互独立 P(Y|X) = P(Y) E(XY) = E(X)·E(Y) Var(X+Y) = Var(X) + Var(Y) cov(X,Y) …

机器学习 2023年4月10日
000
Tensorflow环境安装记录–无法识别GPU的问题

1、镜像： -i http://pypi.douban.com/simple –trusted-host pypi.douban.com 2、版本信息（红色标注为我电脑的配置信息）说明：在安装tensorflow-gpu环境时，一定要注意版本信息的对应，否则会出现各种奇葩的问题。例如，我在安装tensorflow_gpu，由于默认安装的是最新的版本2.…

tensorflow 2023年4月6日
000
循环神经网络

RNN（ Recurrent Neural Networks循环神经网络）

前言： CNN模型主要用到人类的视觉中枢，但其有一劣势，无论是人类的视觉神经还是听觉神经，所接受到的都是一个连续的序列，使用CNN相当于割裂了前后的联系。CNN，训练样本输入输出确定，（输入连续的序列，长短不一：一段连续的手写文字），比较难切分一个独立样本:【我是中国人，我的母语是_______。】 RNN 是一种用来处理和预测序列数据的特殊的神经网络，这种…

2023年4月8日
000
pytorch中的Variable

“”” Variable为tensor数据构建计算图，便于网络的运算 “”” import torch from torch.autograd import Variable tensor = torch.FloatTensor([[1,2],[3,4]]) # 创建一个tensor类型的数据 variable = Variable(tensor, requ…

PyTorch 2023年4月6日
000
学习笔记GAN001:生成式对抗网络，只需10步，从零开始到调试

生成式对抗网络(gennerative adversarial network,GAN)，目前最火的非监督深度学习。一个生成网络无中生有，一个判别网络推动进化。学技术，不先着急看书看文章。先把Demo跑起来，顺利进入断点调试。这样就可以边学习边修改边验证，亲自下手参与调试，会比只是当个看客，更有兴趣更有成就感也更容易理解内容。 1､下载并安装Anaconda…

GAN生成对抗网络 2023年4月6日
000
循环神经网络

循环递归神经网络

1、在自然语言处理过程中，神经网络中输入的语言中的每个单词都是以向量的形式送入的，那个该怎样将语言转化为向量形式呢？一般采用1-of-N编码方式处理，处理过程如下：具体原理参考笔记： http://blog.csdn.net/chloezhao/article/details/53484471 2、Long Short-term Memory(LSTM)…

2023年4月8日
000
[机器学习]-朴素贝叶斯-最简单的入门实战例子

简介如果你有一个很大的数据集，有很多的变量，而且已知这是一个分类问题，你想快速的得到你的分类结果，那朴素贝叶斯是一个不错的选择，他比一般的分类算法都要快，他的理论基础是概率中的贝叶斯定理。本文会介绍朴素贝叶斯的理论基础，以及一个基于python的实战例子，so,坐稳了，准备开车目录 1.朴素贝叶斯是如何工作的？ 2.朴素贝叶斯…

机器学习 2023年4月13日
000
Caffe

Caffe学习二 xavier初始化

上一篇随笔中，将默认的参数初始化”xaview”改成了”gaussian”，虽然能运行得到不错的结果。但是在加上针对性的std=sqrt(1/n_out)前，是无法收敛的。相比之下，采用sigmoid就能收敛。 ReLU不够好的地方：在学习率过高时，很多单元流经的梯度为0且不再更新就此死掉。——可以通过合理设置lr以及lr的更新方式。输出范围为[0,…

2023年4月8日
000

合作推广

合作推广

返回顶部