在遥远的大洋彼岸,一群硅谷大佬科技大佬,曾经在多次对话之后,合作成立了一个非营利性的研究组织。作为近年来在AI人工智能领域上,备受关注的领跑者之一,这个名为OpenAI的组织,开发出了各种各样的人工智能模型。像是机哥之前给大家介绍过的,GPT-3自然语言处理模型,就能够完成自动写稿、自动生成网页代码等功能。
而这一次,开发人员在这个模型的基础上,带来了全新的功能——
根据描述,这个名为DALL·E的模型,能够通过文字创建相应的图片。包括现实当中不存在的东西,也可以用图片的形式制造出来。当机哥选择“一条留着胡须的小鲨鱼在骑摩托车的插画”时,这个模型就能按照要求,创建出一系列符合要求的图片。除此之外,这个模型DALL·E还能创建出非常逼真的实物图片。虽然看起来不像是阳间的东西,但是从照片的质量上来看,不细看很难发现其中的端倪。
按照这个逻辑来说的话,机哥知道很多人,已经开始思考如何最大限度地,发挥这个DALL·E模型的作用了。
没错,如果这个DALL·E模型继续这样发展下去的话,所有能够通过语言表达出来的场景,基本上都能够制作成图片。
例如两个毫不相干的人,就可以通过这个模型,生成各种一起相处的图片。
各种各样的场景,各种各样的 姿势 动作,DALL·E都能满足。因为DALL·E以1280个字符串,将每一张图片进行自动回归建模。其中,图片的描述文本为256个字符串,图像内容为1024个字符串。而每张图片里的64个自注意力层(self-attention layers),都有各自的注意力遮罩,将两种字符串联系起来。
在需要生成图片时,DALL·E就会将输入的文本进行解码,转换为相应的字符串。
这时候通过字符串,在模型里选择相应的图像内容进行合成,就能得到最终想要的效果。
简单来说,只要通过大量的学习,就没有DALL·E无法生成的图片。但是嚯,研究团队已经说明,这个模型的工作可能会产生重大而广泛的社会影响。
将来,研究团队计划通过提升DALL·E的能力,来应对类似的道德挑战。
不过除了大家想的那些功能之外,研究人员还展示了一些DALL·E的实用功能。例如提取不同物体的纹理和属性,在三维实体当中显示出来。
像是“电路板做成的立方体”,正常情况下谁会整这玩意……而DALL·E就能轻松生成。
例如选择“美洲狮坐在山上的高角度视图”时,就能得到各种比肩专业摄影作品的图片。甚至可以单靠画面的部分细节,就让DALL·E把整幅画面全部补齐。
不仅如此,DALL·E还支持用户凭空生成一家店铺。
另外,DALL·E甚至还可以客串设计师的工作。只要输入特定的服饰关键词,它就能呈现出各种各样的设计。
机哥选择了“穿着高领毛衣的女模特”,然后就得到了下面这么多的款式。
例如研究人员利用DALL·E,来组合各种不同动物,创造动画片里的神奇动物形象时,效果就非常魔幻。虽然看起来DALL·E按照要求完成了图片,但效果看起来非常荒谬扯淡。这个DALL·E还能根据不同的地域,生成具有其特色的图片。生成出来的图片,每一张都很像是大家平常会吃到的,但就是完全不认识的食物。除此之外,DALL·E还有一个功能,在座的各位机友肯定都很感兴趣。研究人员试图利用它,总结过往科技发展的规律,并且预测并生成未来科技产品的样子。根据过去几十年里的设计趋势,DALL·E帮机哥生成了100多年间,从老式电话机到智能手机的图片。就连未来手机的样子,DALL·E都已经按照趋势预测好。
到了电视的发展历程,DALL·E所呈现的图片明显就有点不用心。零部件越来越少,在DALL·E的预测里,基本上就只剩下一个摄像头和一块显示屏幕。就这么看下来,目前的DALL·E的确可以生成各种逼真的图片。
但是在内行人眼里,这些图片距离以假乱真,还是有那么一点距离。
如果未来能够得到重点的开发,并且广泛应用到各个领域上的话,那么肯定能达到更好的效果。在座的很多机友,想用它合成一下未来的对象到底是什么样子。