人工智能“干掉”程序员后，又对艺术家下手了

2024-06-05 06:33:51

人工智能领域缺钱，但这两个月来，他们不缺「好消息」。

Google 母公司 Alphabet 旗下的 DeepMind，先推出了蛋白质结构预测 AI——AlphaFold 2，为困扰了生化学界 50 年的难题提供了解决思路；接着又发论文介绍「进阶版 AlphaGo」——MuZero，这个 AI 能在完全不知道棋局规则和人类知识的情况下，自己摸索，决策，并赢棋。

2021 年的第一周还没过去，AI 就再次向人类发起了「挑衅」。

AI 研究机构 OpenAI，继去年部分开放了 AI 模型 GPT-3 并引爆整个科技圈之后，又于近期连发了 DALL·E 和 CLIP 这两个连接文本与图像的神经网络。它们刚一面世，就点燃了整个 AI 社区。因为人们发现有了这些神经网络，就能通过自然语言操纵视觉概念，比如，你输入「一把牛油果造型的扶手椅」，它们就能通过图像合成，「凭空捏造」出一系列的目标图像。

什么是人工智能的未来？《麻省理工科技评论》认为就是「那把牛油果造型的扶手椅」，因为 AI 又往「构建多模态 AI 系统」这个长期目标又迈近了一大步。

「干掉」程序员后，AI 又对艺术家下手了

DALL·E 率先在社交网络上刷起了屏，因为人们放出了很多看起来像凭空捏造的合成图，比如「立方体状的豪猪」、「由乌龟变成的长颈鹿」和「竖琴状的蜗牛」，这些就像是超现实主义画家萨尔瓦多·达利在梦里会看到的奇异造物。有意思的是，DALL·E 也正是「Dalí」和皮克斯动画形象「WALL-E」的合成词。

竖琴状的蜗牛

DALL·E 是 OpenAI 基于 GPT-3 开发的一种「用字生图」的 AI。GPT-3 本质上是一个自然语言处理（NLP）模型，机器就是依靠 NLP 理解了我们平时说的「人话」。在 1750 亿参数量基础上的 GPT-3，展现出了惊人的翻译、问答和文本填空能力，写出来的新闻甚至通过了图灵测试，人们分辨不出是人还是机器写的。

GPT-3 可扩展性非常强大，甚至可以用在无代码开发领域。无代码就是就是不用敲代码也可以直接生成程序，而 GPT-3 就是强大的无代码开发平台，只要对它输入你想要什么样的网页或者 app，它就能帮你直接生成。因此，业内认为基层码农将会被 AI「干掉」。

而 DALL·E 是 GPT-3 的一个小版本，使用了 120 亿个参数。它使用的是「文本-图像对」的数据集，而非像 GPT-3 那样广泛的数据集。「从原理上来看，它应该就是 GPT-3 在文本合成图像方向上的扩展版本。」Keras 创始人 François Chollet 表示。

DALL·E 可以利用自然语言从文字说明中「捏造」图像，就像 GPT-3 创建网站和写故事一样。DALL·E 生成复杂图像的表现，让人惊喜，比如下面这则包含多个要素的目标文本：「一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬」。

要正确地解释这句话，DALL·E 不仅要正确地将每件衣服与动物组合在一起，还要将（帽子、红色）、（手套、黄色）、（衬衫、蓝色）和（裤子，绿色）形成各种联想，而且还不能混淆它们。

这张图显示了 DALL·E 掌握了理解相对定位、堆叠对象和控制多个属性方面的能力｜OpenAI

因为足够强大的 NLP 底层，DALL·E 还能执行多种图像到图像的翻译任务，比如「参照上面的猫在下面生成草图」、「画出和上面一样的茶壶，并在茶壶上写上『GPT』」等等。除此之外，DALL·E 也能理解地理事实，生成让人信服的「中国食物的图片」，它甚至也能理解「时间」，画出从 20 年代起发明的电话，甚至联想未来的手机。

中国食物

各个年代的手机

另外，它还能根据文字指令「看日出的水豚鼠」，生成诸如波普风格、超现实主义风格、浮世绘风格等不同艺术风格的画作，还能渲染出各个角度下美洲狮的细节。

看日出的水豚鼠

Coursera 创始人、斯坦福大学教授吴恩达还特别对 OpenAI 表示祝贺，并挑选了自己最喜欢的「蓝色衬衫 + 黑色长裤」的 AI 生成图。DALL·E 能不能成为艺术家不敢说，但成为 AI 大神的着装参谋，绰绰有余。

吴恩达的 Twitter

一个生成图像，一个匹配文字和图像

但 DALL·E 目前也存在局限，比如当人们引入更多的对象时，DALL-E 容易混淆对象及其颜色之间的关联。另外，用意思相同的词重新表述指令，生成的图像也不一致。还有一些迹象表明，DALL·E 只是在模仿它在网上看到的图片，而不是生成新颖的图像。

而 OpenAI 同期发布的 CLIP（Contrastive Language–Image Pre-training），则是为了加强文本和图像的关联程度而诞生的。CLIP 是一个从互联网上收集的 4 亿对图像和文本来进行训练的多模态模型。

CLIP 使用了大量可用的监督资源，即网络上找到的文本-图像对。这些数据用于创建 CLIP 的代理训练任务，即给定一张图像，然后预测数据集中 32768 个随机采样文本片段中哪个与该图像匹配。

简单来说，CLIP 能根据视觉类别名称，自己分类图像，创新点在于它学会了识别图像，而不是像大多数现有模型那样，通过数据集中的标签（比如「猫」或「香蕉」）识别图像，而是从互联网上获取的图像及其标题中识别图像。

CLIP 瞄向的，就是当前深度学习的两个「痛点」：一是数据集构建成本高昂；二是数据集应用范围狭窄。具体来说，深度学习需要大量的数据，而视觉模型传统上采用人工标注的数据集进行训练，这些数据集的构建成本很高，而 CLIP 可以从互联网上已经公开可用的文本图像对中自行学习；CLIP 可以适应执行各种各样的视觉分类任务，而不需要额外的训练样本。

另外，实验结果表明，经过 16 天的 GPU 训练，在训练 4 亿张图像之后，Transformer 语言模型在 ImageNet 数据集上仅实现了 16% 的准确率。CLIP 则高效得多，实现相同准确率的速度快了大约 9 倍。

简单来说，DALL·E 可以基于文本直接生成图像，CLIP 则能够完成图像与文本类别的匹配。

出门问问 CEO 李志飞曾告诉极客公园（ID: GeekPark），「GPT-3 随着数据和参数规模增大而展现出的学习能力曲线，目前也还没有要停止的意思。虽然 AI 的学习能力还没有达到大家公认的「摩尔定律」，但是过去几年确实看到模型每几个月就翻倍。可以预测到的是，GPT-4 参数又会增大至少 10 倍，而且处理的数据将会更加多模态（文字、图像、视觉、声音）。」

OpenAI 首席科学家 Ilya Sutskever 也在推特上发文表示：「人工智能的长期目标是构建多模态神经网络，即 AI 能够学习不同模态之间的概念（文本和视觉领域为主），从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近『多模态 AI 系统』这一目标。」

DALL·E 和 CLIP 的出现，让人们看到自然语言与视觉的壁垒正在被逐渐打通。

几十年前，柯达说出了那句经典的广告语，「你负责按快门，剩下的交给我们」。在未来，AI 兴许也会打起类似的广告，「你什么都不用干，剩下的交给我们」。

本文图片：OpenAI

责任编辑：于本一

NLP：NLP领域没有最强，只有更强的模型——GPT-3的简介、安装、使用方法之详细攻略

NLP:NLP领域没有最强,只有更强的模型--GPT-3的简介.安装.使用方法之详细攻略导读:NLP领域的模型,没有最大,只有更大.博主这几天也仔仔细细看了这篇长达75页的论文,光署名作者都有二三十 ...
GPT-2：OpenAI的NLP商业化野望

自然语言处理(NLP)技术正在生活的方方面面改变着我们的生活. 客厅的智能音箱在跟你每天的对话中飞速进步,甚至开始跟你"插科打诨"来适应你的爱好习惯. 电商客服总是能在第一时间回复 ...
每天生成 45 亿字符的 GPT-3，真能取代人工？

都说随着人工智能的发展,很多职位正在逐步实现自动化,在此趋势下,未来某些岗位甚至会消失,有人说不久的将来编辑.运营能够被轻而易举的取代,也有人说包括了程序员这一岗位也有"危险".针 ...
一张“纸条”就能骗过AI，OpenAI最先进的视觉模型就这？

到底是苹果还是 iPod?AI傻傻分不清楚. " 作者 | 贝爽今年年初,OpenAI推出了最新一款AI视觉模型CLIP. 相信不少人对它还有些印象,经过庞大的数据集训练,CLIP在图文识 ...
OpenAI新宠CLIP有可视化了，CMU小哥开源新玩法，轻松搞定多类型图文联合检索

作者丨王浩帆编辑丨极市平台极市导读本文作者基于CLIP进行多类型图文联合检索,并实现了CLIP注意力机制的可视化,便于对CLIP检索结果进行分析,附有项目地址. >>加入极市CV技术 ...
机器人作家：生产语言的人工智能的发展和风险

Bard @ 2021.03.09 , 20:14 出色的AI可以像人类一样书写,但它对其中意思却一无所知. 2020年6月,硅谷新型而强大的人工智能(AI)已经开始让技术专家眼花缭乱.加利福尼亚州旧 ...
DALL·E—从文本到图像，超现实主义的图像生成器

超现实主义强调梦幻与现实的统一才是绝对的真实,而如今OpenAI创造的DALL·E图像生成器,能够直接通过文本描述生成类似超现实主义的图像,让机器也能拥有顶级画家.设计师的创造力.DALL·E的名字是 ...
iPhone上也能运行OpenAI了！

视觉/图像重磅干货,第一时间送达新机器视觉最前沿的机器视觉与计算机视觉技术 206篇原创内容公众号仅作学术分享,不代表本公众号立场,侵权联系删除转载于:新智元 Transformer的模型动 ...
像人类一样认识世界，AI需要哪些底层思维？

作者 | 琰琰近几年,多模态已经成为自然语言处理(NLP)领域的热点研究方向之一.得益于深度学习的兴起,大数据+大模型的双轮模式推动人工智能实现了跨越式发展.但大量实验证明,仅依靠"炼大模 ...
吴恩达新年公开推荐这个设计师，上千人点赞

2021年一开始,OpenAI在GPT-3方向上的又一重要突破,让吴恩达等大佬激动了. 之前给GPT-3一段话,就能写出一段小说. 现在它成功跨界--可以按照文字描述.生成对应图片! 简直就是&quo ...
WenLan-10亿参数！别只玩GPT，来看看人大&中科院联手打造第一个大规模多模态中文预训练模型BriVL

▊ 写在前面近年来,多模态预训练模型在视觉和语言之间架起了桥梁.然而,大多数研究都是通过假设文本和图像对之间存在很强的语义关联来对图像-文本对之间的跨模态交互进行显式建模.由于这种强假设在现实场景中 ...
首次发现！AI脑回路演化向人类更进一步，OpenAI最新研究引热议，有学者评价：太吓人了

两个月前轰动网络的AI设计大师CLIP,刚刚被OpenAI"扒开"了脑子. 没想到,这个性能强大的AI竟和人类思维方式如此相像. 打个比方,无论你听到"炸鸡"二 ...
目前最佳的几个人工智能开发框架以及(GPT-3) 模型简介

人工智能作为计算机科学的其中一个分支,如今的发展可谓是超越了所有的计算机科学分支,自2016年谷歌的阿尔法围棋(AlphaGo)第一个击败人类职业冠军围棋选手(李世石九段)以来,人工智能的理论和技术日 ...
无法访问GPT-3？强大的克隆版GPT-J带着60亿参数来了

编辑|核子可乐.钰莹去年 9 月,微软宣布与 OpenAI 达成独家授权协议,称该公司将使用 GPT-3 来"创建新的解决方案,利用先进自然语言生成的惊人能力".这一安排不会阻止 ...
打破次元壁，融合自然语言与视觉 | MixLab 人工智能

#DALL·E 和 CLIP#.#OpenAI# DALL·E 和 CLIP DALL·E 可以基于文本直接生成图像: CLIP 则能够完成图像与文本类别的匹配. OpenAI 联合创始人.首席科学家 ...
Vokenization：一种比GPT-3更有常识的视觉语言模型

学习人工智能,最好的办法就是先考上大学,学好计算机和数学,其次就是生个孩子. 这可不是一个段子.有了孩子之后,你会能更好理解人工智能到底是如何发生的. 看着一个牙牙学语的小婴儿开始对这个世界发生好奇, ...
引燃AI社区，不用跨界也能从文本生成图像，OpenAI新模型打破自然语言与视觉次元壁

艺术创作的事,以后人类只要动手打几个字,其他的交给 AI 就行了. 自然语言与视觉的次元壁正在被打破.这不,OpenAI 最近连发大招,提出两个连接文本与图像的神经网络:DALL·E 和 CLIP.D ...
［首藏作品］（5696）把文本变成画作，AI对艺术“下手”了

把文本变成画作,AI对艺术"下手"了图为人工智能系统 DALL·E根据文本"穿着芭蕾舞裙遛狗的小萝卜"绘制的图像图片来源:OpenAI官网自然语言处理与视觉处理 ...
语音画图，一秒100张，马斯克的新AI吊打人类设计师？！

- 仿生设计师会梦见跳闸吗? 大家好,我是美丫姐正当这周国内设计界忙着讨论"广美鸭兔" 究竟违不违法的时候远在太平洋彼岸的顶级人工智能实验室 OpenAI,悄摸咪地发布了个 ...

人工智能“干掉”程序员后，又对艺术家下手了

相关推荐