Monash call (莫纳什来电):通过生成对抗网络创造现实-GAN的过去,现在和未来


[email protected]

最近,我们已经目睹了各种工具的日益普及,这些工具可以自动创建不存在的人物,物体或场景的图像,或者通过添加它们从未拥有的品质来修改现有物体的表示。
这样的解决方案的一个典型例子是FaceApp。该应用程序可以拍摄人物照片,并创建具有其他功能的人脸图像。例如,它可以添加胡须,使人看起来更老或更年轻,或添加通常不存在的面部特征。
多亏了生成对抗网络(GAN),所有这些都是可能的。今天,我们来探讨这个主题,并使您熟悉GAN和相关技术。

GAN —生成对抗网络

首先,让我们研究GAN背后的机制。想象一下两个独立的神经网络:第一个称为鉴别器的神经网络经过训练可以识别图像,而第二个生成器则学习如何生成图像。
两种模型都基于博弈论进行博弈。生成器的目标是欺骗鉴别器,而鉴别器则试图使用真实和人工(生成的)图像样本作为武器来阻止鉴别器。
随着两位玩家的学习,他们在游戏中变得更加熟练。生成器产生更准确的图像,鉴别器在区分真实样本和伪样本方面变得更好。当生成器生成的伪造图像太逼真以至于辨别器无法辨别它们时,该生成模型就被视为通过了全面训练。这意味着该模型已经能够生成高度逼真的按需图像。
GAN由Ian Goodfellow及其团队于2014年发明。他们在论文中描述了这一概念。
Monash call:通过生成对抗网络创造现实-GAN的过去,现在和未来

更高的稳定性,速度和分辨率—增强GAN

GAN尽管看起来不错,但也面临挑战。生成的图像清晰,但分辨率较低,并且不够多样化。尽管正在进行研究和开发,但是学习过程仍然缺乏稳定性。

GAN出现三年后,Tero Karras和他的团队提出了一种新的网络训练方法,并在他们的工作中进行了描述:“Progressive Growing of GANs for Improved Quality, Stability, and Variation.”

研究人员开始使用低分辨率图像训练网络模型,并通过应用连续的图层逐渐提高分辨率。增量方法允许学习机制首先发现图像分解的大规模结构,然后关注每个图像的更细粒度的细节,而不是一次学习所有内容。这种方法在生成高度逼真的人脸图像方面产生了惊人的结果。
Monash call:通过生成对抗网络创造现实-GAN的过去,现在和未来
此外,该机制大大减少了训练时间,取决于目标分辨率,训练时间从2倍减少到6倍。由于生成的图像具有很高的真实感,因此该方法还加速了该技术的发展并导致了其新的应用。
下图取自有关AI和ML的研究论文,说明了Karras的突破在过去几年中如何影响GAN的发展。
Monash call:通过生成对抗网络创造现实-GAN的过去,现在和未来

年龄老化

现在,让我们讨论一下应用程序中的最新热潮-年龄增长/回归。2017年,对该主题进行了多项研究。在其中一个中,田纳西大学的一组研究人员提到了条件对抗自动编码器Conditional Adversarial Autoencoder(CAAE)的使用。

与迄今可用的模型相反,CAAE机制不需要大量收集不同年龄的人脸图像作为输入。取而代之的是,它假定每个面孔都可以用多维形式表示,通过导航选定的维度,我们可以使其变老或更年轻,而不会导致任何特征损失。

Monash call:通过生成对抗网络创造现实-GAN的过去,现在和未来

CAAE网络由两个鉴别器组成,可提供不同年龄的任何面孔的难以置信的真实表现。
Monash call:通过生成对抗网络创造现实-GAN的过去,现在和未来

条件对抗自动编码器如何工作?

“ E”编码器将面部图像映射到“ z”向量(personality)。通过将年龄标签“ l”添加到“ z”向量,它还会创建一个新的潜在向量[z,l],为生成器“ G”提供输入。

编码器和生成器都会根据输入面和输出面之间的差异“ L2”进行更新。’ Dz’鉴别符在’ z’上施加了均匀分布,而鉴别符’Dimg’要求输出面在给定的年龄标签下具有真实感,并且可信。

您可以在此处找到对该机制的详细说明以及描述它的研究论文。

CAAE可在任何给定的时间点(年龄)提供高度逼真的面部表情,从而使其在面部识别系统,娱乐和市场营销中得到广泛应用。

文字到图片翻译

我要提到的GAN的另一个激动人心的应用是能够从描述其应代表的文本的图像中生成图像。
2016年,Han Zhang在他的作品之一 “StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks,”中,提出了使用GAN进行文本到照片翻译的概念。现在,我们将他的发现称为堆叠生成对抗网络(StackGAN)。
StackGAN网络可以根据文本描述生成256 x 256 px分辨率的逼真的图像。这个精心设计的过程涉及两个阶段:
Monash call:通过生成对抗网络创造现实-GAN的过去,现在和未来
阶段I GAN(图的上部)根据所提供的文字描述,勾画出对象的原始形状并为其施加颜色,从而生成低分辨率图像。

Stage-II GAN将此图像和原始描述作为输入,并生成具有逼真的细节的高分辨率图像。此外,它可以消除在第一阶段产生的各种故障和像差,并通过添加微小但必不可少的细节来完善图像。
以下是此方法可以执行的操作的一个示例:
Monash call:通过生成对抗网络创造现实-GAN的过去,现在和未来

产生影片

想象有一天,整个电影将由AI制作并实时交付给我们。您将精确地获得期望的电影,并根据自己的独特口味进行定制,电影角色无需特殊效果即可执行任何特技表演。

为了使这一梦想成真,科学家正在进行研究。2016年,Carl Vondrick发表了一篇题为“ “Generating Videos with Scene Dynamics,” ”的研究论文,其中描述了他开发的一种机制,该机制可以动态生成电影帧。
Monash call:通过生成对抗网络创造现实-GAN的过去,现在和未来
为了实现这一目标,Vondrick将GAN与时空卷积架构结合使用,该架构可将每个场景的前景从背景中解开。
Monash call:通过生成对抗网络创造现实-GAN的过去,现在和未来
Vondrick设计的技术仍然需要做一些工作,但是我们已经可以预见到它将在未来带来的机会。

未来可能的GAN应用

GAN在不久的将来几乎可以拥有无​​限的应用程序。它将提高娱乐,机器设计,建筑或销售和广告中众多任务和流程的效率。以下是一些可能的应用。

娱乐

您进入Netflix帐户,并获取专门为您生成的内容。没有场景和演员是真实的-它们从未存在过-但是它们是如此逼真的以至于无法从真实的事物中分辨出来。对现实的逼真表现使角色具备了人类无法拥有的技能和能力,并且无需任何CGI就可以完成不可思议的事情。

因此,尽管整部电影都非常逼真,但制作时间和成本却大大降低了。再往前走一步,当基于AI的解决方案掌握所有人类特征和手势时,它将能够按需动态创建惊人的图片。

建筑与室内设计

我想讨论的GAN使用的第二个例子是GAN在工程和建筑中的应用。我们可以在这里想象至少一些实际的用例。例如,假设您要设计或重新装 修您的公寓。

首先,您打开一个移动应用程序,该应用程序通过智能手机镜头扫描您的公寓。然后,选择设计样式。底层机制生成实时预览,显示设计在您的空间中的外观。同时,它为您提供了设计中使用的家具和家用电器的清单,以及价格表和可以在其中购买所有物品的商店。

在建筑中,我们可以应用类似的解决方案来生成计划和可视化效果,并且比人类目前所制作的方案要更快,更详细。

电子商务

电子商务是可以从GAN中大大受益的另一个行业。想象一下在线时尚业务。作为客户,您可以将图片上传到商店的应用程序,并通过虚拟尝试在不离开家的情况下检查各种服装的外观。这样的解决方案可以使决策更加容易和快捷。一些品牌已经在其电子商店中实施了它。

3D设计和模型

GAN还为3D设计和建模提供了绝佳的机会。当前可以手动执行的所有设计过程都可以通过生成模型实现自动化。

当我们将它们与3D打印结合时,我们将能够构建用于设计和制造各种物体和设备的完全自动化的系统。如何运作?很简单 您将启动一个应用程序,告诉系统您需要什么输出,然后等待它创建所需的工件。

Charles @ Sunway, Monash, 14th, Jan, 2020