图像生成领域的一个巨大进展,BigGAN的效果真的有那么好吗？-电子发烧友网

编者按：今年国庆期间，论智介绍了当时正处于ICLR 2019盲审阶段的一篇论文：BigGAN。这是赫瑞-瓦特大学和DeepMind研究人员的合作成果，根据实验结果，他们把模型IS提高了一百多分——从52.52提升到了166.3——堪称图像生成领域的一个巨大进展。但大家都知道，通常论文里呈现的图像都是精品中的精品，媒体在宣传时也会尽量美化甚至“神化”结果。那么BigGAN的效果真的有那么好吗？

当我第一次看到这些图像时，说实话我很惊讶。不是因为图像本身潜藏着什么内容，而是它们都是一个叫BigGAN的神经网络生成的，都是假的，我还从来没见过这样宛若照片的生成图像。

上面这8幅图截自BigGAN的论文：Large Scale GAN Training for High Fidelity Natural Image Synthesis（arXiv:1809.11096），感兴趣的读者可以去读一读。几个月前，这篇论文在机器学习社区引起了巨大轰动，它不仅能生成512x512的高分辨率图像，还在Inception标准基准测试中取得了历史性的高分。人们在惊异于论文团队能支撑起的庞大处理能力（512 TPUv3）的同时，也不由心生怀疑：BigGAN是不是作弊了？它是不是直接照搬的训练集图像？

为此，不少研究人员去原始ImageNet检验了自己的想法，然而他们最终得出的结论是：这些图像确实都是BigGAN自己生成的。

虽然前人的做法已经证实BigGAN是“诚实”的，但如果我们再“杠”一下，一个合理的怀疑是论文结果之所以令人印象深刻，一个原因是这都是精选后的图像。就在几天前，BigGAN放出了自己的TF Hub Demo，相信不少人已经去体验过了，也发现这个问题。模型在一些常见物品上的表现非常好，比如狗和简单风景，因为它们往往画面单一、结构简单，但在生成更复杂、更多样的的人群上却很糟糕。

那么BigGAN不完美的一面是什么样的呢？下面是研究人员发布的一些生成图像：

毫无疑问，这三幅图展示的都是时钟，但区别于现实中的实物，这些钟更像人梦里的场景：诡异的字母、多余的指针。负责任的说，这些是BigGAN生成图像中的常见问题，它不能学习数据集里的各种字母和字符，再加上GAN本身不提供计数功能，所以我们经常能在里面发现有很多条腿的蜘蛛和眼睛长太多的青蛙，有时还可以看到有两个火车头的火车。

至于人类……相比其他能生成多样性图像的GAN，BigGAN在生成人类图像上其实已经很不错了。但我们是人，很擅长在这个物种的脸上、躯体上发现“丢失”部分，所以下面这些结果还是很令人头疼。

因此，如果快速浏览BigGAN生成的一系列图像，我们能从中发现不少图具有诡异的美感。比如模型在生成下面几幅景观图时都遵循了从数据集中学到的构图和光影，但当这些来自不同样本的素材杂糅到一起后，它们给人的感觉就成了既熟悉又奇怪。

当它试图“复制”各种人造设备（洗衣机？熔炉？）时，图像呈现的画面又极具艺术气息，仿佛电影中的一些夸张而富有韵味的过场镜头。

更有甚者，BigGAN还能模仿宏观上的软焦点，即一种通过有意识降低镜头的清晰度，得到柔和的表现效果的摄影技巧。如下图所示，我们看不清图中的对象是什么，但它们都表现出了极强的绘画感。

即便是最普通的东西，BigGAN仿佛成了一面滤镜，把它们渲染得极具美感，令人难以忘怀。

这是艺术吗？对于计算机视觉任务而言，这些充满“想象力”的扭曲恰好是BigGAN的不足，毕竟它的目标是生成极其逼真，同时尽可能多样化的图像。它并不是在创作，而只是在模型它看到的数据——ImageNet，一个巨大的用于训练各种图像处理算法的通用数据集。

但是，我们也必需认识到，研究人员在BigGAN的输出里精挑细选的过程其实也是一种艺术行为，包括这篇文章本身。你可以用这种方法讲述一个故事，或是制作一部令人难忘的美丽电影，这一切都取决于你收集的数据集以及选择的输出。未来，像BigGAN这样的算法将改变人类艺术——不是取代人类艺术家，而是成为一个强大的新协作工具。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100752
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24697

原文标题：拆台BigGan：“失败”图像生成集锦

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

低质量图像的生成与增强的区别图像生成领域中存在的难点

1. 论文信息 2. 引言这篇论文的研究背景是图像生成领域中存在的一个难点 - 如何从低质量的

发表于 08-03 15:36 •1633次阅读

在AD中，我的一个原理图里面有三个反向器，我想用一个74LS04封装来表示，但是生成pcb时总是有三个74ls04，如果真的制作威廉希尔官方网站板，岂不是很浪费材料，我想问会用AD的大神们，如何把一个原理图中的三个反相器用一个74ls04封装在pcb里面表示。谢谢了。

在AD中，我的一个原理图里面有三个反向器，我想用一个74LS04封装来表示，但是生成pcb时总是

发表于 05-22 21:40

智能音响，智能WIFI，智能窗帘等智能的东西越来越多，然而我发现现在智能锁也出来了，智能锁真的有那么好吗？

锁也出来了，真的是世界那么大，无奇不有啊？智能锁算是一个新的说明词把，智能锁真的

发表于 05-21 10:41

低电流损耗真的好吗？

用电流损耗更低的RS-485收发器替代旧器件，结果却发生故障，是什么原因呢？低电流损耗真的好吗？

发表于 08-07 08:29

异步信号的处理真的有那么神秘吗

说到异步时钟域的信号处理，想必是一个FPGA设计中很关键的技术，也是令很多工程师对FPGA望而却步的原因。但是异步信号的处理真的有那么神秘

发表于 11-04 08:03

美图手机，iphoneSE真的有想象中的那么好吗？

一些手机由于市场的炒作，导致被高估了。部分入手的用户，有表示这些手机拿到手并没有想象中的那么好。

发表于 03-09 09:54 •4655次阅读

华为P10的徕卡双摄水平如何？看完样张你来告诉我

华为P10 　　如果你有徕卡信仰，那么你听到徕卡第二代双摄一定会心动不已。　　但是效果真的有

发表于 03-09 15:23 •4003次阅读

手机摄像头进步空间巨大,论手机摄像头原理及应用

据外媒报道，LG下一款手机V40将配备5个摄像头，前置2个后置3个。不只是LG，早在今年4月，华为就发布了P20系列，从主流双摄提升到了三摄。手机的摄像头是越来越多了，拍摄

发表于 07-22 08:05 •2648次阅读

图像生成领域的一个巨大进展：SAGAN

近年来，生成图像建模领域出现了不少成果，其中最前沿的是GAN，它能直接从数据中学习，生成高保真、多样化的图像。虽然GAN的训练是动态的，而且

发表于 10-08 09:11 •1.3w次阅读

一个名为Metaverse的工具来帮助人们快速生成逼真的训练数据

有的算法需要使用者具有一定的编程能力，而有的算法生成的结果却又不是那么逼真。我们真正需要的是一个能够方便高效地

发表于 10-08 15:20 •5842次阅读

还记得前些日子轰动一时的BigGAN模型吗？

为方便开发者练习和使用，DeepMind 今天又公开了 BigGAN 的 TensorFlow Hub，顺带还提供了在 Colab 上的 demo，开发者可以在 Colab 上运行图像生成和插值任务。

发表于 11-14 09:31 •7587次阅读

当前生成图像最逼真的BigGAN被谷歌超越!造假效果更为逼真

当前生成图像最逼真的BigGAN被超越了!

发表于 03-11 15:28 •4103次阅读

基于生成式对抗网络的图像补全方法

图像补全是数字图像处理领域的重要研究方向，具有广阔的应用前景。提出了一种基于生成式对抗网络（GAN）的图

发表于 05-19 14:38 •14次下载

智能锁真的有那么好吗，智能锁的优势是什么

为什么要换智能锁、智能锁真的有那么好吗？相信有一部分的人会有这样子的疑问，但是我想说的是，就算你

发表于 06-29 17:43 •2530次阅读

差分对紧耦合真的比松耦合好吗？

差分对紧耦合真的比松耦合好吗？

发表于 11-30 15:24 •961次阅读

搜索历史

图像生成领域的一个巨大进展,BigGAN的效果真的有那么好吗？

评论

低质量图像的生成与增强的区别图像生成领域中存在的难点

智能音响，智能WIFI，智能窗帘等智能的东西越来越多，然而我发现现在智能锁也出来了，智能锁真的有那么好吗？

低电流损耗真的好吗？

异步信号的处理真的有那么神秘吗

美图手机，iphoneSE真的有想象中的那么好吗？

华为P10的徕卡双摄水平如何？看完样张你来告诉我

手机摄像头进步空间巨大,论手机摄像头原理及应用

图像生成领域的一个巨大进展：SAGAN

一个名为Metaverse的工具来帮助人们快速生成逼真的训练数据

还记得前些日子轰动一时的BigGAN模型吗？

当前生成图像最逼真的BigGAN被谷歌超越!造假效果更为逼真

基于生成式对抗网络的图像补全方法

智能锁真的有那么好吗，智能锁的优势是什么

差分对紧耦合真的比松耦合好吗？