打破次元壁，融合自然语言与视觉 | MixLab 人工智能

2024-07-29 05:18:19

#DALL·E 和 CLIP#、#OpenAI#

DALL·E 和 CLIP

DALL·E 可以基于文本直接生成图像；

CLIP 则能够完成图像与文本类别的匹配。

OpenAI 联合创始人、首席科学家 Ilya Sutskever 表示：人工智能的长期目标是构建「多模态」神经网络，即 AI 系统能够学习多个不同模态的概念（主要是文本和视觉领域），从而更好地理解世界。

而 DALL·E 和 CLIP 使我们更接近「多模态 AI 系统」这一目标。

自带魔法棒的 DALL·E

→ 以下是Mixlab 多模态专栏作者：大铮博士的部分专栏内容。今天，我们主要聊聊 DALL·E，如果大家感兴趣，欢迎文末留言，我们再更新关于 CLIP 的介绍。

全文阅读：《自带魔法棒的 DALL·E》

CHUNFANG：大家最近在聊的热门词儿 DALL·E 是什么？具备什么功能？

大铮：DALL·E 能按照文字的描述，画出十分自然的图像。

目前的模型对于选词比较敏感，官方释出的例子是类似完形填空的形式，给句子中的名词位置挖了空，并提供了候选的词汇。

我们选择了一个拟物的句子来展示DALL·E的能力。我们来看几个例子：

第一个句子是：“一个长得像猪的闹钟”。

于是，DALL·E 生成了这样的图片：

第二个句子是：“一个长得像猪的手提包”：

接下来我们把 “猪” 换成 “桃子” ：

最后我们看看 “桃子风格的，皮质扶手椅”：

在这里我们看到了一件有意思的事情：对于闹钟，手提包这些生活中本身就有各种形式的物体，DALL·E会生成形状各异的物体，且都很好得捕捉到了物体本身的特性。

比如闹钟的表盘和手提包的背带。而我们却没有看到长得像桃子的皮质扶手椅，DALL·E在这里采用的外观特性是桃子特有的粉色。

除了拟物，DALL·E 可以做的还有更多，画油画，设计服装，布置房间，画emoji，等等。mixlab对此有更多介绍，或者你可以直接在openAI的官网试一试。

https://openai.com/blog/dall-e/

“我想去未来看看”

专栏作者：大铮

复旦大学 | 计算机应用技术在读博士

研究：机器学习、深度学习、媒体大数据分析

欢迎大家加群告诉我们，你喜欢和关注的主题

：只要关注人数足够多，Mixlab 随时为大家特邀发起『各类专题内容或者线上、线下专场讨论』！

（编辑：春FANG）

一个人的探索有些孤单，

一群人的探索会更有意思。

更多有趣的智能工具分享

在这里（扫码）！

引燃AI社区，不用跨界也能从文本生成图像，OpenAI新模型打破自然语言与视觉次元壁

艺术创作的事,以后人类只要动手打几个字,其他的交给 AI 就行了. 自然语言与视觉的次元壁正在被打破.这不,OpenAI 最近连发大招,提出两个连接文本与图像的神经网络:DALL·E 和 CLIP.D ...
「数据知识」并非万能！NLP未来是多模态，人大长聘副教授宋睿华提「理解」新观点

理解,就是看到小情侣吵架,能够想象到幸福的画面智源导读:计算机科学家,往往会用已知的方法来解决未知的问题. 举例来说,对于如何增强机器对自然语言的理解能力,目前国内比较主流的观点是--"数 ...
OpenAI新宠CLIP有可视化了，CMU小哥开源新玩法，轻松搞定多类型图文联合检索

作者丨王浩帆编辑丨极市平台极市导读本文作者基于CLIP进行多类型图文联合检索,并实现了CLIP注意力机制的可视化,便于对CLIP检索结果进行分析,附有项目地址. >>加入极市CV技术 ...
GPT

编辑:贾伟梦佳继GPT-3的颠覆之后,即将出道的 GPT-4 会走向何方?这一问题牵动着很多人的心. 在不久前,OpenAI的联合创始人.首席科学家IIya Sutskever 曾在吴恩达编辑的 ...
首次发现！AI脑回路演化向人类更进一步，OpenAI最新研究引热议，有学者评价：太吓人了

两个月前轰动网络的AI设计大师CLIP,刚刚被OpenAI"扒开"了脑子. 没想到,这个性能强大的AI竟和人类思维方式如此相像. 打个比方,无论你听到"炸鸡"二 ...
像人类一样认识世界，AI需要哪些底层思维？

作者 | 琰琰近几年,多模态已经成为自然语言处理(NLP)领域的热点研究方向之一.得益于深度学习的兴起,大数据+大模型的双轮模式推动人工智能实现了跨越式发展.但大量实验证明,仅依靠"炼大模 ...
人工智能“干掉”程序员后，又对艺术家下手了

人工智能领域缺钱,但这两个月来,他们不缺「好消息」. Google 母公司 Alphabet 旗下的 DeepMind,先推出了蛋白质结构预测 AI--AlphaFold 2,为困扰了生化学界 50 ...
iPhone上也能运行OpenAI了！

视觉/图像重磅干货,第一时间送达新机器视觉最前沿的机器视觉与计算机视觉技术 206篇原创内容公众号仅作学术分享,不代表本公众号立场,侵权联系删除转载于:新智元 Transformer的模型动 ...
DALL·E—从文本到图像，超现实主义的图像生成器

超现实主义强调梦幻与现实的统一才是绝对的真实,而如今OpenAI创造的DALL·E图像生成器,能够直接通过文本描述生成类似超现实主义的图像,让机器也能拥有顶级画家.设计师的创造力.DALL·E的名字是 ...
语音画图，一秒100张，马斯克的新AI吊打人类设计师？！

- 仿生设计师会梦见跳闸吗? 大家好,我是美丫姐正当这周国内设计界忙着讨论"广美鸭兔" 究竟违不违法的时候远在太平洋彼岸的顶级人工智能实验室 OpenAI,悄摸咪地发布了个 ...
OpenAI CLIP模型袖珍版，24MB实现文本图像匹配，iPhone上可运行

机器之心报道机器之心编辑部 OpenAI 的 CLIP 模型在匹配图像与文本类别方面非常强大,但原始 CLIP 模型是在 4 亿多个图像 - 文本对上训练的,耗费了相当大的算力.来自 PicColl ...
［首藏作品］（5696）把文本变成画作，AI对艺术“下手”了

把文本变成画作,AI对艺术"下手"了图为人工智能系统 DALL·E根据文本"穿着芭蕾舞裙遛狗的小萝卜"绘制的图像图片来源:OpenAI官网自然语言处理与视觉处理 ...
创业两年获1.47亿美元融资，通用人工智能Covariant为机器人「注入灵魂」

"刚完成 8000万美元的C轮融资." 作者:苗正编辑:tuya 出品:财经涂鸦(ID:caijingtuya) 2021年7月28日,机器人专用通用人工智能初创公司Covari ...
吴恩达新年公开推荐这个设计师，上千人点赞

2021年一开始,OpenAI在GPT-3方向上的又一重要突破,让吴恩达等大佬激动了. 之前给GPT-3一段话,就能写出一段小说. 现在它成功跨界--可以按照文字描述.生成对应图片! 简直就是&quo ...

打破次元壁，融合自然语言与视觉 | MixLab 人工智能

自带魔法棒的 DALL·E

相关推荐