微软AI单凭文字就可作画，谁最先受到冲击？ / 四六文摘

马云曾说：“三十年后，《时代》杂志封面年度最佳CEO说不定是个机器人。”

机器人CEO可能还需等待，但机器人绘画师已经在路上。

当Google的AI正在涂鸦时，微软的绘画AI 已经学会如何画鸟了。近日,微软对外宣称正计划推出一项新的人工智能技术——绘图机器人（drawing bot）。使用者仅需说出想要绘制物体的名称，机器人便可以进行相关素材的匹配，也就是说，未来可以通过口述的方式进行绘画，说啥画啥。

人工智能系统单纯透过文字描述就能够创作图像，该技术在文字描述中寻找关键字词，然后再用来创作高画质的图像，据悉这个关注重点的技巧让图像的画质较之前提升3倍。

随着人工智能时代的到来，艺术与科技的碰撞，越来越频繁地现身热门话题榜。AI“看文作画”的技术展现了具有艺术表现力的潜能，对艺术创作的影响已经可以预见。但微软的绘画AI，在撬动智能体想象力方面，意义绝对不只是“艺术助手”所能概括的。

所以，AI口述绘画这件事，不可小瞧！

什么是AI口述绘画

AI口述绘画，看起来好像是机器接受人类指令给出图画，但远远不止这么简单。智能相对论（微信id：aixdlun）了解到，正如负责研发的Microsoft深度学习技术首席研究员何晓东说的，图像是人工智能由零开始，逐像素逐像素创作。他以一幅人工智能创作的黄色雀鸟图像做解说，表示人工智能分析文字后，再透过一项名为生成对抗性网络（GAN，Generative Adversarial Network）的技术将文字转化成图像，人工智能创作的黄色雀鸟并不一定在现实世界存在，只是电脑的一种想像。

GAN通过从高维的分布中采样，生成模型输出与训练样本类似的新样本。这就意味着，若生成模型的训练数据是鸟的图像集，那么训练后得到的模型也能输出类似于鸟的合成图片。

研究员称人工智能系统能够创作出任何类型的形象，例如飘浮的双层巴士、放牧中的牲畜等，而且在文字中欠缺的一些细节，系统会在影像中自行补完。

GAN结构用到了两个神经网络：一个是生成器，它试图基于输入的数据生成更像真实数据的结果；另一个是判别器，它的目的在于正确分辨哪些是真实的数据。简单地来理解就是，生成器总是在试图“骗过”判别器。

生成器必须反复用随机输入的噪音数据合成有意义的内容，直到判别器无法区分合成内容的真伪。这套框架正在被扩展应用到许多数据模式和任务中。如仿真时间序列的特征；超分辨率图像；从二维图像复原三维结构；小规模标注数据集的泛化;预测视频的下一帧；生成自然语言的对话内容；艺术风格迁移；语音和音乐的合成。

值得一提的是，微软研究人员在此基础上创建了他们称之为注意力生成式对抗网络或AttnGAN的技术，这个AttnGAN生成的图像的质量比之前最好的GAN生成的图像质量提高了近三倍。而这种仿人类注意力的生成式对抗网络对AI界的影响十分重大，这标志着在类人类智能的发展实现了质的突破。

AI据文绘画，或许漫画领域最受冲击

“看文作画”的AI在现实生活中又会发挥什么样的用处呢？

让我们来想象一下，未来，可能会发生这样的对话——

“Drawing bot，请你为我画一个花园。”

接着，一座美丽的花园跃然于纸上，花园中有各色的花朵，飞舞的蝴蝶，甚至有两个小孩在其中嬉戏。

从文本到图像的生成技术可以找到很多实际应用，它既可以作为漫画家和室内设计师的素描助理，或者作为语音美化照片的工具。如果有更多的计算能力，这项技术能够根据电影剧本生成动画电影，进行一些重复且繁琐的手工绘画，比如动画背景中的一棵树、一颗草，进而改善动画电影制片人的工作。

人工智能可以模仿披头士写歌，当然也可以模仿各种名家作画。试想一下，一个没有任何绘画基础的编剧，却能在网上发布自己漫画剧作，其作品还颇有当代某著名漫画家的画风。在动漫方面，如果微软的这款绘图智能大力发展，完全可以大大降低创作门槛。当然，这种另类的“漫画创作”也可能面临素材版权的问题。

目前来说，微软这个绘图AI还是有比较大的提升空间，而在不断改进后，在将来，它可能会对漫画领域产生极大的冲击，甚至于对室内空间设计行业也会产生影响。当然，其主要作用还是节省画家和设计家的人力和时间，而令人期待的是，未来的电视上极有可能会出现由AI自导自演的动画片。

想象力——让AI区别于死物

微软AI单凭文字就可作画，谁最先受到冲击？

相关推荐