专访中国人民大学卢志武教授：AI的新突破，或从“文澜”开始

2024-06-13 17:21:59

让AI通过“图灵测试”，或许不再遥远。

作者 | 来自镁客星球的毛毛

I propose to consider the question, 'Can machines think?’

——A.M.Turing

1950年秋天，被后人誉为“人工智能之父”的阿兰·图灵，在其著作《Computing Machinery and Intelligence》的开篇，抛出了这个在当时似乎是“异想天开”的问题。也同样是在这篇文章中，图灵提出一个甚至比“人工智能（Artificial Intelligence,简称AI）”更早出现的概念——图灵测试。由此拉开了，人类对AI这一领域艰辛探索的序幕。

时光荏苒，斗转星移。70余年过去，已历经三次发展浪潮的AI，正悄然以各种面貌进入我们普通人的日常生活之中。人脸识别、辅助驾驶、智能医学影像等应用正逐渐成为人类社会中“习以为常”的一部分，这得益于AI技术的不断成熟。而在这背后，是学界、业界乃至各个国家对AI研发的不断投入。目前，全球各国对于AI的研发，已渐成“竞赛”之势。但要真正通过“图灵测试”，还尚无国家能够做到。

6月1日，在2021北京智源大会上，超大规模智能模型“悟道2.0”正式发布。其凭借1.75万亿的参数量，创下了全球最大预训练语言模型记录，成功向世界展示了中国的AI技术实力。据悉，“悟道2.0”分别由文源、文澜、文汇、文朔四大预训练模型组成。

在这其中，以语义理解、视觉-语言检索等能力见长的“文澜”引起了镁客网极大的兴趣。据悉，文澜对语义信息的理解能力之强已经达到世界“领跑”水平，堪称是世界AI领域中突破性的进展。其能力可扩展性强，可以落地应用在多种场景。通过对文澜的研究，人类与似乎遥不可及的“图灵测试”又近了一步。文澜研发团队是由中国人民大学高瓴人工智能学院执行院长文继荣教授所领导，并与北京智源人工智能研究院紧密合作。

图 | 卢志武教授

通过努力，我们很荣幸地采访到了文澜研发团队的模型组负责人——中国人民大学高瓴人工智能学院的卢志武教授，和他一起聊了聊AI的未来和文澜背后的故事。

AI发展渐入瓶颈，文澜领衔的多模态预训练模型，或成“破局”关键

众所周知，人工智能的终极目标，就是让机器拥有和人一样的理解与思考能力。但70多年过去了，距离这个目标，仍有着不小的距离。

而对学界来说，尽管当下许多AI技术已经可以对人类生活产生积极的影响，但从大趋势来看，AI研发似乎正走到了一个“瓶颈期”。学界和业界，都需要在技术上发现一个新的”爆点”，来刺激整个AI产业继续向前跨越式地发展。

也就是在这种情况下，“文澜”诞生了。

卢志武教授告诉记者，“任何AI的模型到最后其实都是一个神经网络。在过去，业内常常使用纯文本或者纯图像对AI进行单模态训练。但现在看来，其效果不是特别有效。”

随着学术上的发展，文澜团队开始把目光转向同时使用图文数据对图文数据进行预训练，期望以此能挖掘AI新的潜能。而在此之前，这个方向上还没有较为成功的案例。

为了获得较好的效果，文澜1.0和2.0版本所使用的训练数据从3000万升级到了6.5亿未标注图文数据。巨大的数据量在进行模型训练时非常困难，但这也给文澜拥有强大的视觉-语言检索能力和一定的常识理解能力打下了基础。

在训练方式上，文澜研发团队采用了高效的分布式多模态预训练框架，提出基于DeepSpeed的多模态预训练算法，从而最大化地利用GPU和CPU，并最优地支持跨模态对比学习。

目前，国外顶级AI研发机构Google和OpenAI也正在尝试文澜团队的研究方向，其项目名分别为Google ALIGN和OpenAI CLIP，但在与这两者进行图文互检能力的严格公平比较时，文澜明显要更胜一筹，可以说，目前的文澜，在图文互检和语义理解方面都达到了世界最顶级的水平。

那么，文澜可以应用在何处？卢志武教授告诉镁客网，现在的文澜，就像“大脑”一样，适应力强，可以应用在多个场景下。以其擅长之一的“检索和推荐”能力举例，电商、游戏、视频中的多个细分行业的常见业务场景中，文澜都能“得心应手”。

卢志武教授表示“如果说过去我们了解到的AI，其理解力还只是个小孩的话，现在的文澜，已经越来越有可能接近一个成人”。

探索AI“潜意识”，“图灵测试”得以见到更多曙光

文澜的能力之强已经毋庸置疑。但对于文澜开发团队来说，在海量的图文数据训练后，文澜是否真正学到了语义信息，以及文澜的理解能力究竟有多强，成为了极具吸引力的问题。

为此，文澜研发团队决定用“神经元可视化”的方式对文澜进行测试。你可以简单理解为这是一场“命题绘画”的测验。我们告知文澜一句有实际意义的话，让文澜用图片的形式反馈出她对这句话的理解。

但请注意，这里的图片反馈，绝非是从文澜已有的图片数据中匹配最优解，也不是像某些AI绘画模型那样对特定训练数据的模仿。

此时的文澜，更像是一个“普通人”，借助自己已有的知识，来尝试理解外界传递进来的新信息，并以图画的形式来“具象”出自己的理解，反应的是文澜“脑海”里的客观存在。

卢志武老师表示“（通过这种方式）我们将文澜的'潜意识’，也即她脑海中最原始的对一句话的想象与理解给可视化出来。”

那文澜具体是怎么画的呢？简单来说，我们都知道在计算机上，图片是由一个个像素点组成，通过改变每个像素点的颜色，就可以在计算机上进行绘画。而拿到文本信息的文澜，就是通过这种方法进行“原创绘画”，把她所理解的我们所给出语句的意思，用图画表示出来。此时的文澜可以比喻为一个天平，天平的两端分别是图像和文本，而文澜要做的就是让两者的意义“保持对等”。值得注意的是，在神经元可视化时，文澜所有模型参数都是固定不变的，只是去修改输入的初始噪声图像。

文澜研发团队表示：“通过这种方式，我们得以一窥文澜的'内心世界’。也就是放开所有评测和应用对文澜的限制，让她能够展现最原始的、最真实的、她'潜意识’里对于输入文本的独特理解。”

目前根据文澜的“画作”来看，其对语义的理解能力已经位居世界前列。除了日常用语，文澜同样能理解古诗词，甚至可以传递出一定的“意境”。

以下是文澜在实际测试中的部分样例（文澜研发团队提供）：

图 | 给文澜的语句：对着生日蛋糕许愿

（解读：蛋糕的形象非常清晰，还有一根蜡烛，蛋糕上也有星星点点的点缀，整体是生日派对的欢快氛围。）

图 | 给文澜的语句：白日依山尽，黄河入海流

（解读：远处山峰遮挡了落下的太阳但没有遮住余晖，近处则如黄河向我们奔来。）

图 | 给文澜的语句：月落乌啼霜满天，江枫渔火对愁眠

（解读：江面上红色的火光，近处的乌篷船。）

图 | 给文澜的语句：江南可采莲，莲叶何田田

（解读：左上含苞待放的莲花，右侧中间的莲蓬，片片莲叶和整体的绿色。）

图 | 给文澜的语句：海上生明月，天涯共此时

（解读：下方带着波浪的海，海面上正在升起的月亮。虽然诗句中原意是满月，但是字面上并没有表达满月的意思。背景的大片抽象或许是文澜对“天涯共此时”的理解。）

前瞻与坚持让文澜“横空出世”，多元和交叉将成为AI浪潮新起点

对科研来说，正确的判断与坚持，有时要比勤奋和努力更为重要。当聊起文澜的研发过程时，卢教授对此深有感触。

自去年9月份开始，文澜团队就开始进行多模态预训练的工作。想起当时的过程，卢教授形容到：“完全是在黑暗中摸索，并且多模态预训练模型非常难做，但还是果断地沿着这条路（图文弱相关+双塔模型）走了下来。”

但探索和坚持是有风险的，在此期间，卢教授与其所带的博士生们全身心地投入到了这个项目上，并因此很长时间都没有发表论文。如果方向错了，或者没有把模型训练好，都将会是一个“颗粒无收”的结果。这对整个团队的压力，可想而知。

而几乎是同时，国外AI界的领跑者：Google和OpenAI，也正在做类似的事情。并在今年1月份，OpenAI发布了两个与文澜在方向上类似的模型：DALL-E和CLIP。震撼业内的同时，也侧面证明了卢教授团队的选择是正确并富有前瞻性的。

不过，从国内高校学术研究的偏向来看，清北等高校似乎在AI方面更有优势。为何此次在AI领域做出突破性进展的却是人大？

卢志武教授认为，人大的优势在于学术氛围的宽松和富有底蕴的人文思想。

“我们高瓴人工智能学院的文继荣院长，非常支持去做这些有价值的探索。所以我们整体的学术氛围还是非常宽松和开放的。”

除此之外，作为以人文社科见长的高等学府，人大对AI自有其独特的理解方式。某种意义上，针对当前流行的工具理性来说，人大更趋向于价值理性。这也是文澜团队能够冒着“颗粒无收”的风险，坚持完成研究的原因之一。

而在镁客网看来，除了人大所特有的优势以外，文澜的成功与卢志武教授所拥有的对AI发展的前瞻性，和整个文澜研发团队的优秀能力同样密不可分。

漫漫AI探索路上，“破”与“立”是永恒的话题。尽管文澜已经做出了突破性的成绩，卢志武教授仍谦虚地表示，从总体上看，AI未来的发展，依然需要像脑科学、神经科学等相关交叉学科的共同进步。不过，道阻且长，行则将至。我们相信，在文澜这个成功案例的带动下，未来中国将涌现出更多的“文澜”，从而能够更快一步地摘下“图灵测试”这座AI的皇冠。

百度智能云新架构掀开面纱：知识中台成为差异化竞争优势

百度智能云的知识中台,就是要帮助企业挖掘知识这座沉睡的金矿. 企业是否需要数据已不再是问题,新的问题是:企业需要什么样的数据?知识是答案之一. 比如在营销服务这个场景中,千人千面的智能营销与客服成为一 ...
三个半小时的百度AI大会，重点全在这里

在去年李彦宏将无人车驶上北京五环,并且收获交警罚单一张之后,一夜之间几乎所有网民都知道了百度的无人车和AI开发者大会.话说今天第二届百度AI开发者大会正式召开,现场宛若十一期间的八达岭长城,那叫一个人 ...
鹅厂AI科学家，偷偷把无人摩托写进了年终总结

这一整年,腾讯AI Lab都搞出了些什么黑科技? 通用人工智能.AI 行业.前沿研究,是腾讯AI Lab给出的三个关键词. 除了线上的3D虚拟偶像"艾灵".王者级AI对手" ...
［首藏作品］（5696）把文本变成画作，AI对艺术“下手”了

把文本变成画作,AI对艺术"下手"了图为人工智能系统 DALL·E根据文本"穿着芭蕾舞裙遛狗的小萝卜"绘制的图像图片来源:OpenAI官网自然语言处理与视觉处理 ...
他们花一百万让你的票圈广告更好看，还被ACM点了赞

这年头,算法工程师/准算法工程师们的"课余生活"可真是越来越丰富了. 那边顶会Challenge,这厢企业黑客松,往往奖励丰厚,面试直达,还能五湖四海呼朋引伴,岂不快哉? 不过说实 ...
百度智能搜索到底有多智能？

u1s1是什么意思?干饭人又是个啥? 当在北戴河阿那亚的剧场里被突然问到类似稀奇古怪的问题,一时发懵的我只想当场掏出手机,给对方来个"百度一下". 说起来,搜索这项"旧技 ...
逆势完成C 轮融资，人工智能企业竹间智能开启云化元年

2021年4月14日,竹间智能科技(上海)有限公司宣布完成1亿元人民币C+轮战略融资.本轮由申能诚毅.广发信德.朗玛峰资本合投,老股东中华开发金控再次追投. 据公开资料显示,竹间智能2015年成立,此 ...
多模态学习，带来AI全新应用场景？

新的AI技术发展趋势有哪些?多模态学习技术一定是其中之一. 最近,刚刚宣布"自立门户"的微软AI明星产品小冰改名为"红棉小冰".殊不知2014年诞生的这一个AI ...
中国人民大学陈共教授：我只是个“普通”教员

编者按听闻陈共教授逝世,心中久久不能平静.陈共教授耄耋之年荣获财政部和中国财政学会颁授的"中国财政理论研究终身成就奖",记者曾专门对他进行了采访,那时陈共教授已90岁高龄,但精神 ...
【科技早报7点整】 AI 技术新突破……

早上好,科技圈 [一度蜜科技早报]第583期 1.八部委:教育App不得收费.植入广告和游戏教育部等八部委联合印发<关于引导规范教育移动互联网应用有序健康发展的意见>.其中要求,对教育A ...
【学术交流】清华大学美术学院教授贾京生应中国人民大学之邀举办学术讲座

讲座信息微信发布 2021年4月24日,清华大学美术学院染织服装艺术设计系博士生导师贾京生教授应中国人民大学人类学研究所的邀请,举办主题为"'非遗'中的精神·智慧·艺术·审美--以西南少数民 ...
中国人民大学与加拿大女王大学金融硕士的授课教授中有扈企平博士，你还不知道？

儒绅气质的扈企平教授在华尔街有几十年的工作经验,曾就职于多家顶级金融机构,是国内从事资产证券化行业最资深的专家之一.他把<固定收益>课程内容浓缩成精华,把自己多年的工作经验总结出来,直观地 ...
中国人民大学历史系毛佩琦教授精彩讲座：重新审视明朝（上）

中国人民大学历史系毛佩琦教授精彩讲座：重新审视明朝（上）
缅怀！中国人民大学冷成金教授逝世

中国人民大学文学院教授.博士生导师冷成金同志,因病医治无效,于2021年3月9日在北京逝世,年59岁. 冷成金,1962年3月9日生,山东省临沂市兰陵县人.1991年中国人民大学中文系硕士毕业后留校工 ...
【关学文研】中国人民大学教授张立文：关学的共同体智慧

张立文中国人民大学哲学院一级教授.哲学院博士生导师,著名哲学家.哲学史家,中国人民大学孔子研究院院长.学术委员会主席,中国传统文化研究中心主任:曾任中国人民大学和合文化研究所所长.兼任国际儒学联合 ...
【独家！专版！】薛永武教授“薛说人才”专访视频

开启人才教育的新视野点击题目下方蓝字关注薛说人才亲爱的朋友们: 中国海洋大学教授.博士生导师.人才学专家薛永武研究人才学30余年,为了将研究成果转化为社会效益,特开设关于家庭教育和人才培养的微信公 ...
中国人民大学画院教授周同祥教你石榴和八哥的画法

中国人民大学画院教授周同祥教你石榴和八哥的画法

专访中国人民大学卢志武教授：AI的新突破，或从“文澜”开始

AI发展渐入瓶颈，文澜领衔的多模态预训练模型，或成“破局”关键

探索AI“潜意识”，“图灵测试”得以见到更多曙光

前瞻与坚持让文澜“横空出世”，多元和交叉将成为AI浪潮新起点

相关推荐