生成对抗网络(二)Conditional GAN讲解

生成对抗网络Conditional GAN讲解

1. Introduction
2. Multi-modal Learning For Image Labelling
3. Conditional Adversarial Nets

3.1. Generative Adversarial Nets
3.2. ConditionalAdversarialNets
Reference

生成对抗网络(二)Conditional GAN讲解

原文：Conditional Generative Adversarial Nets
收录：2014

1. Introduction

GAN的一个重要优势就是不需要计算马尔科夫链(Markov chains)，只需要通过反向传播算法就可以获得梯度，在学习过程中也不需要进行推断(inference),一系列的因素和相互作用就可以被轻易地加入到模型当中。

除此之外，CGAN还可以产生最先进的对数似然估计和现实样本。在非条件的生成模型中，我们没法控制生成样本的类型。然而，通过给模型增加额外的信息，我们可以引导模型生成方向。

本文展示如何构建CGAN。我们还展示CGAN在两个数据集上的结果，一个是以类别标签作为条件的MNIST数据集；还有一个是建立在MIR Flickr 25,000 dataset上的多模态学习(multi-modal learning)。

2. Multi-modal Learning For Image Labelling

Q1: 监督神经网络(尤其是卷积网络)取得了巨大成功，但是将这种模型应用到具有非常多的预测输出类别数的问题上仍然面临挑战。

解决办法：利用来自其他的模式中的额外信息，比如说通过自然语言库来学习词汇的向量表达。在这样的空间(映射之后的向量空间)做预测时，一个好处就是，即使我们的预测错误，但是仍然和真实的答案很接近(比如说预测是"table"而不是"chair")。还有一个好处是，我们可以很自然地对在训练期间没有看到的标签进行预测归纳，因为相似的向量语义上也是相似的。[3]等研究表明即使是一个从图像特征空间到单词表达空间(word vector)的线性映射都可以提高分类的性能。

Q2: 如今大部分工作都主要集中在研究输入到输出一对一的映射。对于一对多映射怎么办？
（比如说在图片标注问题上，对于一个图片可能对应多个标签，不同的人可能会使用不同的标签来描述这一幅image）