西湖大学特聘研究员张岳：自然语言处理的一些瓶颈思考与探索

2024-06-23 17:19:13

11月14日至15日，由中国人工智能学会、嘉兴市人民政府主办，嘉兴市南湖区人民政府、嘉兴科技城管理委员会、浙江未来技术研究院（嘉兴）共同承办的2020第十届中国智能产业高峰论坛（CIIS 2020）在嘉兴南湖举办。在11月15日的自然语言理解专题论坛上，西湖大学特聘研究员张岳为我们带来了题为《自然语言处理的一些瓶颈思考与探索》的精彩演讲。

张岳：西湖大学特聘研究员

以下是张岳研究员的演讲实录：

我分两部分给大家介绍我们最近的研究，第一部分简单回顾一下自然语言处理的进步；第二部分分享一下我思考的一些瓶颈问题。

首先看看自然语言处理方向的进步。不管是在学界还是工业界，我们都可以看到对话系统既能够帮助人进行情感交流，又可以帮助人进行一些简单任务的完成；机器翻译可以帮助我们把整本书翻译成不同的语言；机器自动文摘效果也是不错的。

这些进步主要是受益于大规模预训练的语言模型，这些模型的基本工作方式是制作一个深层的神经网络，通过预测互联网上的文本进行预训练。基本的原理就是把句子中的词随机掩盖掉，作为完形填空题，教机器填被掩盖掉的部分。或者让机器背下来，自左向右复述互联网上的文本语句。我们能够训练这样一个语言模型的神经网络，做下游任务可以成为一个不错的初始值和一个不错特征的提供工具。也就是，从大量的生文本里获得了一些语言知识，这些知识被证明还有词法、句法、语义甚至一定的常识知识，所以可以帮助我们把任务做好。

这是GLUE和SuperGLUE，自然语言处理领域一些常用的一些数据集集合。这些集合里包括了阅读理解、句法任务、情感分析、自然语言的文本推理等。像 BERT 这样的预训练模型，在这些任务上都做到了接近甚至超越人类的程度。事实上在最近，当你公布一个数据集以后，不久大家就会把模型准确率调到90多甚至调到很高。这证明了什么？证明我们自然语言处理真的能够接近或者超过人类吗？或者换一个角度，是不是仅仅证明我们现在这些预训练模型做题可以做的非常好？做题和解决问题是两个概念。

相信在产业界的老师更知道自然语言处理可能在实际应用上还存在一些瓶颈，下面介绍我们一些思考。首先看看一些小小的现象。比如客服对话。这句话里，顾客想买四个苹果，他发现说错了，他实际上想买四根香蕉。机器人说“我已经把四个苹果和四个香蕉加入到你的购物车里了。”误解了人的修正话语。还有机器翻译等文本生成会经常犯一些小地方的问题，细节问题。这里举一个文本总结的例子。大家看大部分的文章是关于英国人洗车习惯的，总体上总结的不错。32%的人说他不再洗车了，这件事情也对；但是后面12% 的人说他自己干的这件事在细节上是错的，他并不是 12%的人在请自己的家人给他洗车，而是12%的人做了其他事情。所以这些小地方出错对于自然语言处理的落地应用，影响还是非常大的。

所以我们进行了一些思索，现在如果用大规模的预训练去做，它可能会学到很多东西，并且学会解题，这种解题方式让我联想到可能是题海战术式的学习，做过类似题也许我就知道这个题该选择B还是C。它可能积累了一些经验，但是这些经验并不一定真正理解了这道题背后的物理知识、数学知识、化学知识，只是通过题海战术积累了大量的解题经验。我可能积累了很多模式，很多统计学上的意义，但是实际并不一定证明你理解了句法语义或者常识。这有一个巨大问题，没有举一反三和融会贯通的能力。

我是不是真正学懂了？是不是能够探索一下题海战术和死记硬背的瓶颈到底在哪里？我们从三个方向在思考这个问题。一个是在直接简单的事情，我们想看看机器是不是真的有常识，是不是真正懂在人类交流过程中很多自然语言的基本常识；第二个方向在一个对话任务上，看看自然语言理解的工具是不是懂人类社会的常识；最后想看看你逻辑推理的能力，能不能进行有效推理。

先看常识。我把火鸡放到冰箱里，可能不会有问题；但是如果我说一句话“我把大象放到了冰箱里”，可能你会觉得这句话很奇怪。我们想看看机器是否有这样的判断能力，同时尽量考虑这个模型是不是投机取巧在做这道题。为此设计了三个从简单到难的任务来验证这个能力，一是判断题，希望这个模型能够从两句话中比较出哪一句话更符合常理。二是选择题。在这个问题的基础上，我们想让模型给一个解释，为什么觉得“把火鸡放在冰箱里”更合理？有效地解释是大象太大了放不进冰箱，其他的解释选项是大象有四条腿或者大象是灰色的等；如果机器能够从几个解释里选择一个，我们可能就有更多的证据证明这个机器是有判断常识的能力。三是问答题，直接让生成式的模型产生原因。我们用人标注标准的原因，同时人来评价他生成的原因到底对不对。

再举一个例子，“他考试得了A所以很伤心”或者“他考试得了F所以很伤心”。这里有一个人类知道的常识， A就是考的好，F就是考的不好。

以下是BERT等模型的结果。没有经过微调（在题库上训练）的预训练模型在判断题上能达到 70%，在原因选择上的选择只能达到 40%以上，并不能算的非常好。这些类题人都能做到99%以上，错误也是因为审题审的不好。现在看看如果我们拿8000道题训练一个模型，1000去开发，1000去做训练，另外1000做测试，会怎么样？我们发现这个机器涨了，判断题从70%多涨到了90%多，从选择题40%多涨到了90%多。这个原因存在两种可能的解释，一是BERT里有常识，我通过一个训练知道如何挖掘这个常识；另外一个解释就是BERT做了应试教育，从8000道题一套题海找到了投机取巧的方式。再看写作的题，如果让机器生成真正的原因，即使有了训练做的也还是比较差的，生成的结果也不尽人意。

仔细分析判断题和选择题做对的原因，在这个问题上还是有很多可以让机器投机取巧的地方。比如，正确答案和错误答案的长度有差别；正确答案和错误答案含有的否定词有差别；正确答案和错误答案和这个题的匹配程度也有不同；最后开发集和训练集里的匹配程度也有不同。我们通过这个测试可以得到初步的结论。常识这部分总做就介绍到这。

再看下一个工作。这个工作主要是在对话过程中验证机器有多少社会常识和基本推理能力。大家知道闲聊对话里很多对话系统已经可以和人进行不错的交流，但是我们注意到一个现象，很多过程中重要的信息在话外，不在话里。比如这个对话里，有个人说了“你享受你的晚餐了吗？”他说“晚餐非常不错，我喜欢你的饭馆，我和我的亲戚们可以聊天，Johnny也有地方玩。”这个对话虽然没有直接提到Jonny是谁，人类听者也能猜到是谁。如果是机器能够掌握这些信息吗？如何挖掘话外的常识信息？

我们和微软亚洲研究院合作做了一套数据集，这个数据集是从高考的听力题里转换出来的，把听力题进行了语音识别、图像识别，用众包的方式标了一下。给定一段对话，这套数据测试言语之外信息，看看机器能不能合理接上后面的话。这个题在标的过程中特别注意了数据集可能存在的取巧的把柄。共有8860个对话，每个都是多选题。这里面常识的类型可以分为几类，比如一类是人类情绪态度的推理，这句话谈到了“我想知道你第一次演出的时候你的心情怎么样？”答者没有直接说他的心情怎么样，他只是说“我第一次演出的时候我的腿在打颤，我都站不住了。”我们的选项里包含了“我能想象你第一次演出有多紧张”“我也会很高兴”和“你为什么会失望”等。你需要理解腿打颤和紧张的关系才能做应答。

再看第二类问题。这里包含时差，我们需要在时间日期上进行正确的推理。

第三类问题就是对下一步一般人的选择需要有一个正确推断。比如这道题里以前他出现了财务问题，可能上不了学了；第二个人说“现在缓解了，我能够得到奖学金了。”那么正常人的选择应该是继续他的学业。

第四类问题需要对周围的环境做很好推断，才能做不错的答复。比如这个人说“对不起别抽烟了。”“我不知道这个桌子不能抽烟，你给我找一个能抽烟的桌子吧。”“对不起没有桌子能够抽烟。”然后让你分析你是在医院还是餐馆还是公交车里。如果能猜出来在餐馆里，可能会说“那你把菜单拿过来，我点菜吧，不抽了”。

第五类问题需要很多事实融合。比如这个博物馆过去花了2000美元买了一个雕像，现在值200万美元。这个参观者说“我很高兴我花了30美元买这个门票。”正确的答案是这一个，说“价值300万美元的雕塑也很高兴”，意思就是我们很欢迎你的到来。

我们测了不同的闲聊模型，以及预训练的BERT等模型，发现它们比人类还是有一定差距。此外，模型在数学计算和环境推理这些字面上答案和上下文差别很大的类型表现的最差。题海战术算出来的模型算不好算术。

后边一些实验反映了题库的质量。有很多任务都是把一道题的某一部分去掉，模型还是做好。但是这套题不行，如果把对话里的某些上下文去掉，它会做的非常差。另外长的对话并不一定意味着挑战更高，关键信息在话外。

最后一个工作，我们发现逻辑推理是死记硬背的题海战术绝对难以解决的问题。这套题我们是从公务员考试里挖出来的。这种推理问题是人类仔细思考都能做出来的，真正理解可以做出来的。我们也是收集了8600多个这种问题，这套数据是一个标准的阅读理解形式的数据，就是给了一个文档以后，需要判断这个答案ABCD哪个对。我们也是把这个问题分为很多种类，比如概念和范畴的推理，认识林女士的人都是什么样的人？根据这些概念的定义能推出来哪些符合这些概念；比如还有类似的问题，就是什么是一支蜡笔，以下哪些东西是蜡笔之类的这种概念理解问题。第二个就是充分条件的推理，A一定能够推出B，这种充分条件的理解帮助你做这种题。第三类问题就是必要条件，是说如果B存在A一定要存在，A是B的必要条件，这样的逻辑推理问题。另外还有选言推理，就是如果A和B都存在，那么 C也会存在。还有一类就是联言推理问题，A 和 B必须同时存在，那么C才会存在。

我们也是评价了各个最强的阅读理解模型在这样的问题上表现如何。大家可以看到如果随机做题的是25%，人如果认真做的话可以达到百分之八九十的境地；但是像BERT这样非常好的模型，有针对性地进行训练之后，只能做到30%多。这表现了当前的晚落模型不具备抽象总结的能力，至少在抽象出逻辑关系这点上表现很差。

下边展示不同推理模型上的效果。在概念学习上死记硬背可能还是有所收获（做对一半），但是后面这些其他推理类型上还是惨不忍睹（比随机还要差）。这套题也不会因为题目更长而让模型做的更差，有时短题反而更难。这里是一些消融实验，也是证明了这套题不会有一些偏向，如果去掉了一些关键成分，模型的表现会变得非常差。

今天主要给大家分享了我们在自然语言处理瓶颈上的一些探索，我觉得预训练的语言模型确实能够给自然语言处理带来很多提升，提升可能还是从收集的这些统计意义上的信息来提升，也就是说很多地方可以做到八九不离十，但是细微的地方可能还会出错。我们分析了常识、社交方面的常识推理、纯的逻辑推理三个方面，发现这个模型在纯的逻辑推理上还做的非常差，在数学上做的非常差。这些也许需要和知识做些结合，和符号主义算法进行互补。

（本报告根据速记整理）

CAAI原创丨作者张岳研究员

【技术综述】深度学习在自然语言处理中的应用发展史

本篇介绍深度学习在自然语言处理(NLP)中的应用,从词向量开始,到最新最强大的BERT等预训练模型,梗概性的介绍了深度学习近20年在NLP中的一些重大的进展. 作者&编辑 | 小Dream哥 ...
如何掌握好自然语言处理中的预训练语言模型？你需要读这本书

预训练语言模型属于人工智能领域中自然语言处理领域的一个细分,是自然语言处理领域的重要突破,得到了越来越广泛的关注,相关研究者和从业人员在实际应用的过程中,亟需一本理论翔实.代码细节充分的参考书.本次给 ...
我们用transformer干啥？

前言 2021年4月,距离论文"Attention is all you need"问市过去快4年了.这篇论文的引用量正在冲击2万大关. 笔者所在的多个学习交流群也经常有不少同学在 ...
机器学习应用设计阶段的 10 个陷阱和 11 个最佳实践

本文主要介绍了在机器学习项目的最初设计阶段中,你可能会遇到的陷阱,并详细阐述如何避免这些陷阱的最佳实践. 本文最初发表于 Towards Data Science 博客,经原作者 Bruce H. C ...
2020上半年收集到的优质AI文章 – 自然语言处理

2020上半年收集到的优质AI文章 – 自然语言处理自然语言处理的蓬勃发展及其未来人工智能之自然语言处理初探我所知道的中国NLP「破圈」十年零基础入门NLP - 新闻文本分类现代NLP中的零 ...
NLP：自然语言处理技术的简介、发展历史、案例应用之详细攻略

NLP:自然语言处理技术的简介.发展历史.案例应用之详细攻略相关文章 NLP:自然语言处理技术的简介.发展历史.案例应用之详细攻略 Paper之ACL&EMNLP:2009年~2019年AC ...
刘群：预训练语言模型研究进展和趋势展望

自2018年下半年开始,到现在为止,预训练语言模型的发展基本呈现爆发趋势,研究人员数目越来越多,研究方向也越来越广. 近日,在第十九届中国计算语言学大会(CCL2020)上,华为诺亚方舟实验室语音语义 ...
AAAI 2021线上分享 | BERT模型蒸馏技术，阿里云有新方法

通过在下游 NLP 任务上的微调,BERT.XLNet 和 RoBERTa 等预训练语言模型已经展示出了卓越的性能.但是,这些模型中的大量参数导致储存和计算成本过高,从而对模型在资源受限应用场景中的部 ...
【赠书】新书速递！基于Bert模型的自然语言处理实战

‍‍ BERT模型是当今处理自然语言任务效果最好的模型.掌握了该模型,就相当于掌握了当今主流的NLP技术,今天要给大家介绍的书是基于Bert模型的自然语言处理实战. 本书内容本书从零基础开始,介绍了 ...
2019年上半年收集到的人工智能自然语言处理方向干货文章

2019年上半年收集到的人工智能自然语言处理方向干货文章自然语言(NLP)发展史及相关体系读了这篇文字,做年薪百万的NLP工程师聚焦机器"读.写.说.译",探寻NLP未来之路 ...
2020年深度学习技术发展综述

来源:无人系统技术作者:王亚珅摘要:对深度学习领域的研究进行综合评述,并对其进一步发展方向进行分析.首先分析围绕注意力机制的深度学习技术最新研究成果,以及在自然语言处理领域取得突破性进展的巨型预训 ...
一文理解 Transformer 的工作原理

概述自然语言处理中的 Transformer 模型真正改变了我们处理文本数据的方式. Transformer 是最近自然语言处理发展的幕后推手,包括 Google 的 BERT. 了解 Tran ...
哈尔滨工业大学车万翔：自然语言处理新范式

来自:哈工大SCIR 5月13日-15日举办的CCF青年精英大会(YEF2021),特别组织思想秀,邀请各界贤达与业界青年共同探讨方略大事.作为CCF青年精英大会(YEF)最重要核心的环节之一,&qu ...
书单丨机器阅读理解与问答&聊天机器人实践指南

编者按:机器阅读理解.机器问答.聊天机器人都是近年大热的方向,其研究与应用领域都进展飞速.本期书单我们有请微软高级研究员.斯坦福大学计算机系博士朱晨光为大家推荐一组相关书籍,并对机器阅读理解任务作了解 ...
拼写、常识、语法、推理错误都能纠正，云从提出基于BART的语义纠错方法

机器之心发布机器之心编辑部云从科技语音组提出了一种基于 BART 预训练模型的语义纠错技术方案,它不仅可以对 ASR 数据中常见的拼写错误进行纠正,还可以对一些常识错误.语法错误,甚至一些需要推理 ...

西湖大学特聘研究员张岳：自然语言处理的一些瓶颈思考与探索

相关推荐