专访中国人民大学卢志武教授:AI的新突破,或从“文澜”开始

让AI通过“图灵测试”,或许不再遥远。

作者 | 来自镁客星球的毛毛

I propose to consider the question, 'Can machines think?’

——A.M.Turing

1950年秋天,被后人誉为“人工智能之父”的阿兰·图灵,在其著作《Computing Machinery and Intelligence》的开篇,抛出了这个在当时似乎是“异想天开”的问题。也同样是在这篇文章中,图灵提出一个甚至比“人工智能(Artificial Intelligence,简称AI)”更早出现的概念——图灵测试。由此拉开了,人类对AI这一领域艰辛探索的序幕。

时光荏苒,斗转星移。70余年过去,已历经三次发展浪潮的AI,正悄然以各种面貌进入我们普通人的日常生活之中。人脸识别、辅助驾驶、智能医学影像等应用正逐渐成为人类社会中“习以为常”的一部分,这得益于AI技术的不断成熟。而在这背后,是学界、业界乃至各个国家对AI研发的不断投入。目前,全球各国对于AI的研发,已渐成“竞赛”之势。但要真正通过“图灵测试”,还尚无国家能够做到。

6月1日,在2021北京智源大会上,超大规模智能模型“悟道2.0”正式发布。其凭借1.75万亿的参数量,创下了全球最大预训练语言模型记录,成功向世界展示了中国的AI技术实力。据悉,“悟道2.0”分别由文源、文澜、文汇、文朔四大预训练模型组成。

在这其中,以语义理解、视觉-语言检索等能力见长的“文澜”引起了镁客网极大的兴趣。据悉,文澜对语义信息的理解能力之强已经达到世界“领跑”水平,堪称是世界AI领域中突破性的进展。其能力可扩展性强,可以落地应用在多种场景。通过对文澜的研究,人类与似乎遥不可及的“图灵测试”又近了一步。文澜研发团队是由中国人民大学高瓴人工智能学院执行院长文继荣教授所领导,并与北京智源人工智能研究院紧密合作。

图 | 卢志武教授

通过努力,我们很荣幸地采访到了文澜研发团队的模型组负责人——中国人民大学高瓴人工智能学院的卢志武教授,和他一起聊了聊AI的未来和文澜背后的故事。

AI发展渐入瓶颈,文澜领衔的多模态预训练模型,或成“破局”关键

众所周知,人工智能的终极目标,就是让机器拥有和人一样的理解与思考能力。但70多年过去了,距离这个目标,仍有着不小的距离。

而对学界来说,尽管当下许多AI技术已经可以对人类生活产生积极的影响,但从大趋势来看,AI研发似乎正走到了一个“瓶颈期”。学界和业界,都需要在技术上发现一个新的”爆点”,来刺激整个AI产业继续向前跨越式地发展。

也就是在这种情况下,“文澜”诞生了。

卢志武教授告诉记者,“任何AI的模型到最后其实都是一个神经网络。在过去,业内常常使用纯文本或者纯图像对AI进行单模态训练。但现在看来,其效果不是特别有效。”

随着学术上的发展,文澜团队开始把目光转向同时使用图文数据对图文数据进行预训练,期望以此能挖掘AI新的潜能。而在此之前,这个方向上还没有较为成功的案例。

为了获得较好的效果,文澜1.0和2.0版本所使用的训练数据从3000万升级到了6.5亿未标注图文数据。巨大的数据量在进行模型训练时非常困难,但这也给文澜拥有强大的视觉-语言检索能力和一定的常识理解能力打下了基础。

在训练方式上,文澜研发团队采用了高效的分布式多模态预训练框架,提出基于DeepSpeed的多模态预训练算法,从而最大化地利用GPU和CPU,并最优地支持跨模态对比学习。

目前,国外顶级AI研发机构Google和OpenAI也正在尝试文澜团队的研究方向,其项目名分别为Google ALIGN和OpenAI CLIP,但在与这两者进行图文互检能力的严格公平比较时,文澜明显要更胜一筹,可以说,目前的文澜,在图文互检和语义理解方面都达到了世界最顶级的水平。

那么,文澜可以应用在何处?卢志武教授告诉镁客网,现在的文澜,就像“大脑”一样,适应力强,可以应用在多个场景下。以其擅长之一的“检索和推荐”能力举例,电商、游戏、视频中的多个细分行业的常见业务场景中,文澜都能“得心应手”。

卢志武教授表示“如果说过去我们了解到的AI,其理解力还只是个小孩的话,现在的文澜,已经越来越有可能接近一个成人”。

探索AI“潜意识”,“图灵测试”得以见到更多曙光

文澜的能力之强已经毋庸置疑。但对于文澜开发团队来说,在海量的图文数据训练后,文澜是否真正学到了语义信息,以及文澜的理解能力究竟有多强,成为了极具吸引力的问题。

为此,文澜研发团队决定用“神经元可视化”的方式对文澜进行测试。你可以简单理解为这是一场“命题绘画”的测验。我们告知文澜一句有实际意义的话,让文澜用图片的形式反馈出她对这句话的理解。

但请注意,这里的图片反馈,绝非是从文澜已有的图片数据中匹配最优解,也不是像某些AI绘画模型那样对特定训练数据的模仿。

此时的文澜,更像是一个“普通人”,借助自己已有的知识,来尝试理解外界传递进来的新信息,并以图画的形式来“具象”出自己的理解,反应的是文澜“脑海”里的客观存在。

卢志武老师表示“(通过这种方式)我们将文澜的'潜意识’,也即她脑海中最原始的对一句话的想象与理解给可视化出来。”

那文澜具体是怎么画的呢?简单来说,我们都知道在计算机上,图片是由一个个像素点组成,通过改变每个像素点的颜色,就可以在计算机上进行绘画。而拿到文本信息的文澜,就是通过这种方法进行“原创绘画”,把她所理解的我们所给出语句的意思,用图画表示出来。此时的文澜可以比喻为一个天平,天平的两端分别是图像和文本,而文澜要做的就是让两者的意义“保持对等”。值得注意的是,在神经元可视化时,文澜所有模型参数都是固定不变的,只是去修改输入的初始噪声图像。

文澜研发团队表示:“通过这种方式,我们得以一窥文澜的'内心世界’。是放开所有评测和应用对文澜的限制,让她能够展现最原始的、最真实的、她'潜意识’里对于输入文本的独特理解。

目前根据文澜的“画作”来看,其对语义的理解能力已经位居世界前列。除了日常用语,文澜同样能理解古诗词,甚至可以传递出一定的“意境”。

以下是文澜在实际测试中的部分样例(文澜研发团队提供):

图 | 给文澜的语句:对着生日蛋糕许愿

(解读:蛋糕的形象非常清晰,还有一根蜡烛,蛋糕上也有星星点点的点缀,整体是生日派对的欢快氛围。)

图 | 给文澜的语句:白日依山尽,黄河入海流

(解读:远处山峰遮挡了落下的太阳但没有遮住余晖,近处则如黄河向我们奔来。)

图 | 给文澜的语句:月落乌啼霜满天,江枫渔火对愁眠

(解读:江面上红色的火光,近处的乌篷船。)

图 | 给文澜的语句:江南可采莲,莲叶何田田

(解读:左上含苞待放的莲花,右侧中间的莲蓬,片片莲叶和整体的绿色。)

图 | 给文澜的语句:海上生明月,天涯共此时

(解读:下方带着波浪的海,海面上正在升起的月亮。虽然诗句中原意是满月,但是字面上并没有表达满月的意思。背景的大片抽象或许是文澜对“天涯共此时”的理解。)

前瞻与坚持让文澜“横空出世”,多元和交叉将成为AI浪潮新起点

对科研来说,正确的判断与坚持,有时要比勤奋和努力更为重要。当聊起文澜的研发过程时,卢教授对此深有感触。

自去年9月份开始,文澜团队就开始进行多模态预训练的工作。想起当时的过程,卢教授形容到:“完全是在黑暗中摸索,并且多模态预训练模型非常难做,但还是果断地沿着这条路(图文弱相关+双塔模型)走了下来。

但探索和坚持是有风险的,在此期间,卢教授与其所带的博士生们全身心地投入到了这个项目上,并因此很长时间都没有发表论文。如果方向错了,或者没有把模型训练好,都将会是一个“颗粒无收”的结果。这对整个团队的压力,可想而知。

而几乎是同时,国外AI界的领跑者:Google和OpenAI,也正在做类似的事情。并在今年1月份,OpenAI发布了两个与文澜在方向上类似的模型:DALL-E和CLIP。震撼业内的同时,也侧面证明了卢教授团队的选择是正确并富有前瞻性的。

不过,从国内高校学术研究的偏向来看,清北等高校似乎在AI方面更有优势。为何此次在AI领域做出突破性进展的却是人大?

卢志武教授认为,人大的优势在于学术氛围的宽松和富有底蕴的人文思想。

我们高瓴人工智能学院的文继荣院长,非常支持去做这些有价值的探索。所以我们整体的学术氛围还是非常宽松和开放的。”

除此之外,作为以人文社科见长的高等学府,人大对AI自有其独特的理解方式。某种意义上,针对当前流行的工具理性来说,人大更趋向于价值理性。这也是文澜团队能够冒着“颗粒无收”的风险,坚持完成研究的原因之一。

而在镁客网看来,除了人大所特有的优势以外,文澜的成功与卢志武教授所拥有的对AI发展的前瞻性,和整个文澜研发团队的优秀能力同样密不可分

漫漫AI探索路上,“破”与“立”是永恒的话题。尽管文澜已经做出了突破性的成绩,卢志武教授仍谦虚地表示,从总体上看,AI未来的发展,依然需要像脑科学、神经科学等相关交叉学科的共同进步。不过,道阻且长,行则将至。我们相信,在文澜这个成功案例的带动下,未来中国将涌现出更多的“文澜”,从而能够更快一步地摘下“图灵测试”这座AI的皇冠

(0)

相关推荐