Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)
Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)
效果
1、炸天的效果(此部分引自量子位)
效果有多好?先看数字。经过ImageNet上进行128×128分辨率的训练后,BigGAN的Inception Score(IS)得分是166.3,一下子比前人52.52的最佳得分提升了100多分,离真实图像的233分更近了。而Frechet Inception Distance(FID)得分,也从之前的18.65优化到了9.6。
2、再看实例。你能分辨出以下哪张图片是AI生成的假图片,哪张是真实的图片么
再来一个。以下八张,哪个是假的
现在公布答案,以上12张,全都是生成的假图片。现在你能理解为什么大家都震惊并且齐声称赞了吧。
论文
论文地址下载:https://openreview.net/pdf?id=B1xsqj09Fm
摘要
尽管最近在生成性图像建模方面取得了进展,但是从诸如ImageNet之类的复杂数据集中成功生成高分辨率、多样的样本仍然是一个难以实现的目标。为此,我们训练了迄今为止规模最大的生成性对抗网络,并研究了这种规模特有的不稳定性。我们发现,对生成器应用正交正则化使其能够服从简单的“截断技巧”,允许通过截断潜在空间来精细控制样本保真度和多样性之间的权衡。我们的修改导致模型在类条件图像合成中设置了新的状态。当在ImageNet上以128×128分辨率进行训练时,我们的模型(BigGAN)的初始得分(IS)为166.3,Fre_chet初始距离(FID)为9.6,比之前的最优IS为52.52,FID为18.65。
1、INTRODUCTION介绍
近年来,随着生成性对抗网络(GAN,Good.等人)的出现,生成性图像建模的状态有了显著的进步。(2014)在努力生成高逼真度、多样化的图像的同时,直接从数据中学习模型。GAN训练是动态的,并且对其设置的几乎每个方面(从优化参数到模型体系结构)都很敏感,但是大量的研究已经产生了能够在各种环境中进行稳定训练的经验和理论见解。尽管取得了这一进展,但条件ImageNet建模(Zhang等人,2018)的当前技术状态获得了52.5的初始评分(Salimans等人,2016),而真实数据的初始评分为233。
在本工作中,我们着手消除由GAN生成的图像与来自ImageNet数据集的真实世界图像在保真度和多样性方面的差距。我们做出以下三个贡献来实现这一目标:
- 我们证明了GAN可从伸缩性中显著受益,并且与现有技术相比,训练具有两至四倍数量参数和八倍批量大小的模型。我们介绍了两个简单的、通用的架构更改,它们改进了可伸缩性,并修改了正则化方案以改进调节,从而显著提高了性能。
- 作为我们修改的副作用,我们的模型变得适应于“截断技巧”,这是一种简单的采样技术,允许明确、细粒度地控制样本多样性和保真度之间的权衡。
- 我们发现特定的不稳定性大规模GANS,并表征他们经验。从这个分析中,我们可以看到,将新的和现有的技术结合起来可以减少这些不稳定性,但是完全的训练稳定性只能以显著的性能代价来实现。
我们的修改实质上改进了类条件GANS。当在ImageNet上以128×128分辨率进行训练时,我们的模型(BigGAN)将最先进的初始分数(IS)和Fre_chet初始距离(FID)分别从52.52和18.65提高到166.3和9.6。我们在ImageNet上成功地训练了分辨率为256×256和512×512的BigGAN,在256×256上实现了IS和FID分别为233.0和9.3,在512×512上实现了IS和FID分别为241.4和10.9。最后,我们在一个更大的内部数据集上训练我们的模型,并且演示我们的设计选择从ImageNet很好地传递。
2、BACKGROUND背景
生成性对抗网络(GAN)涉及生成器(G)和鉴别器(D)网络,其目的分别是将随机噪声映射到样本并区分真实和生成的样本。形式上,GaN目标,在其原来的形式(GooFisher等人,2014)涉及找到纳什均衡到以下两个玩家的最小-最大问题:
z∈Rdz 是从分布p(z)中提取的一个潜变量,如n(0,i)或u[-1, 1]。当应用于图像时,G和D通常是卷积神经网络(Radford等人,2016)。没有辅助的稳定技术,这种训练程序是众所周知的脆弱,需要微调的超参数以及架构选择来工作。
因此,最近的许多研究集中于对香草GAN程序进行修改,以赋予稳定性,并利用越来越多的经验和理论见解(Nowozin等人,2016;Snderby等人,2017;Fedus等人,2018)。其中一项工作重点是改变目标函数(Arjovsky等人,2017;Mao等人,2016;Lim & Ye,2017;Bellemare等人,2017;Salimans等人,2018)以鼓励收敛。另一行着重于通过梯度惩罚(Gulrajani等人,2017;Kodali等人,2017;Mescheder等人,2018)或归一化(Miyato等人,2018)来约束D,以抵消无界损失函数的使用,并确保D向G.
与我们的工作特别相关的是谱归一化(Miyato等人,2018),它通过利用其第一奇异值的运行估计来归一化其参数,从而在D上强制Lipschitz连续性,从而诱导自适应地调整顶部奇异方向的向后动力学。相关的ODENA等。(2018)分析G的雅可比矩阵的条件数,发现性能依赖于G的条件。张等。(2018)发现在G中采用谱归一化提高了稳定性,允许每个迭代的D阶数减少。我们扩展了这些分析,以获得更深入的了解,病理的GaN培训。
其他的工作集中在体系结构的选择上,例如SA-GAN(Zhang等人,2018),它添加了来自(Wang等人,2018)的自注意块,以提高G和D建模全局结构的能力。ProGAN(Karras等人,2018)通过跨一系列增加的分辨率训练单个模型,在单类设置中训练高分辨率GAN。
在条件甘斯(MiZa&OsDuneRo,2014)中,类信息可以以各种方式输入到模型中。在(Odena等人,2017)中,通过将一个1-hot类向量连接到噪声向量来提供给G,并且修改目标以鼓励条件样本最大化由辅助分类器预测的对应类概率。德弗里斯等人。(2017)和杜穆林等。(2017)通过向G提供BatchNorm(Ioffe&Szegedy,2015)层中的类条件增益和偏置来修改类条件传递给G的方式。在Miyato & Koyama(2018)中,D通过利用其特征与一组学习类嵌入之间的余弦相似性作为区分真实样本和生成样本的附加证据来调节,从而有效地鼓励生成特征匹配学习类原型的样本。
表1:Fr´echet Inception Distance(FID,低点是更好的)和起始分数(IS,高点是更好的)为我们提出修改消融。批量是批量大小,参数是总number of参数,CH。is the通道倍增器representing the number of Units in each层、共享是使用共享embeddings昨天。是使用分层的潜在空间,邻。是正则化正交,either indicates that the setting and ITR是稳定的iterations to 106,黄金,它崩溃了at the given迭代。other than行1 - 4,结果是计算机在8不同随机初始化。
客观评价隐生成的模型是困难的(泰斯等人,2015年)。a variety of作品已经提出heuristics测定样品的质量模型不听话的likelihoods(salimans等人,2016年;heusel等人,2017年;bin´kowski等人,2018年;吴等人,2017年)。of these,the inception评分(是的,salimans等。(2016年)和fre´chet距离(FID)开始,heusel等。(have become popular 2017年),尽管他们明显的错误(Barratt和夏尔,2018年)。我们雇佣他们有近似measures of样品质量,and to enable比较对以前的工作。
3、SCALING UP GANS
后期更新……
4、 ANALYSIS分析
后期更新……
5、EXPERIMENTS实验
后期更新……
6、CONCLUSION结论
后期更新……