很遗憾,自然语言理解是AI尚未攻克的领域

事实证明,人类语言仍是一项独特且深邃的难题,亦是AI技术所面对的最为艰巨的挑战之一。
来源丨Venture Beat
作者丨Pieter Buteneers
编译丨科技行者

短短几年之内,深度学习算法得到了长足发展,不仅在棋类游戏中击败了全球最顶尖的选手,也能够以等同于、甚至超越人类的准确率识别人脸。但事实证明,人类语言仍是一项独特且深邃的难题,亦是AI技术所面对的最为艰巨的挑战之一。

但是,突破能否如期而至?

一旦计算机可以有效理解人类语言内容,则必将彻底颠覆全球各品牌、企业与组织之间的交互方式。如今,大多数企业拿不出充裕的资源为每位客户提供一对一解答服务。但在语言AI真正成熟之后,企业将能够在任意时间通过任意渠道听取、理解并回应每一个问题。这是一项激动人心的发展愿景,但距离达成目标仍有漫长的道路要走。

直到2015年,人们才构建出一种足以在准确率方面与他类相匹敌的人脸识别算法。Facebook的DeepFace准确率为97.4%,仅略低于人类的97.5%。作为参考,FBI以往的人脸识别算法准确率仅为85%,意味着其做出的判断有超过七分之一概率是错的。

FBI算法是由一组工程师手工开发而成。其中每项特征(例如鼻子大小以及眼睛的相对位置)皆由手动编程而来。Facebook算法则真正实现了特征学习,其利用一种被称为卷积神经网络的特殊深度学习架构,模拟出人类视觉皮层通过复杂的多层结构处理图像内容。事实上,我们并不清楚这些皮层之间是如何联系的,因此一切“奥秘”都由算法自主探索得来。

Facebook之所以能够达成这一成就,依靠的正是实现类人级人工智能的两个基本思路:首先建立一套能够学习特征的架构,再将数百万张经过标记的高质量图像作为训练素材供其学习。

语言难关就在眼前

视觉的诞生虽然困难,但已经有数百万种物种在进化过程中攻克了这道难关。相比之下,语言似乎更为复杂。据我们所知,人类是目前唯一能够使用复杂语言交流想法的物种。

不到十年之前,出现了单凭某些词汇的出现频率即可大致推理出语义的AI算法。但这种方法显然忽视了同义词元素的存在,也无法应对某些表达在不同上下文中具有不同表意的问题。

2013年,Tomas Mikolov和他的谷歌团队创造出一种能够学习单词含义的架构。他们的word2vec算法能够将同义词相互映射,借此对大小、性别、速度等语义进行建模,甚至能够将国家与首都等特征关联起来。

但其中仍然缺少至关重要的一环——理解上下文。语言理解领域的真正突破诞生于2018年,谷歌公司在这时推出了BERT模型。Jacob Devlin和他的团队仍然沿用传统机器翻译中的架构,但向其中引入了学习句子内上下文信息的能力。

通过教育该模型填补维基百科文章中的遗漏单词,该团队得以将语言结构嵌入BERT模型。只需要使用数量有限的高质量标记数据,他们就成功完成了对BERT的调优,借此完成从为问题找到正确答案、到真正理解句子表意的多种任务。也凭借这一壮举,他们成为破解语言理解谜题的先驱:正确架构,加上大量可供学习的高质量数据。

2019年,Facebook的研究人员在此基础上又更进了一步。他们同时使用100种语言训练出类似的BERT模型。此模型能够以一种语言(例如英语)进行特征学习,再将成果应用于其他任意一种语言(例如阿拉伯语、汉语及北印度语)。这种具有语言中立性的模型能够在实际训练所选定的语种上实现与BERT完全一致的性能,并在迁移至另一种语言时将影响控制在较低程度。

这些技术本身确实给人留下了深刻印象。但在2020年初,谷歌研究人员最终得以在广泛的语言理解任务上超越了人类的表现。谷歌引入规模更大的网络架构与更多训练数据,终于将BERT架构推向了极限。如今,这套被命名为T5的架构在标记句子与寻找答案方面的表现已经超越人类。去年10月发布的多语种mT5模型已经能够在双语种间互译方面实现与人类相近的表现,更恐怖的是它能够支持多达100种语言。谷歌本周又公布了新的万亿级参数模型,整体架构规模更上一层楼,性能也进一步提升。

可能性

设想一下,未来的聊天机器人也许能够理解您用任何一种语言书写的内容,真正理解上下文并记住之前聊过的内容。这意味着我们得到的不再只是几条简单粗暴的预定义回应,而是真正的关切与解答。

搜索引擎也将能够理解您的问题,给出正确答案,而且不再纠结于您的用词是否严格准确。您可能还会迎来一位AI同事,它了解关于业务流程的所有知识。更重要的,如果能够使用正确的术语,那么单靠谷歌搜索没准就能解决客户的具体问题。连篇累牍的内部文档终将成为过去,留给AI模型快速浏览即可。

数据库的新时代即将来临。我们将彻底告别构造数据的繁琐工作——一切备忘录、电子邮件、报告都将由AI模型自动解释、存储与索引。由于数据库能够理解人类表达,您不需要求助于IT部门即可直接查询并创建报告。

这一切还只是冰山一角。目前一切依赖于人类语言理解能力的流程,都有可能被自动化功能所彻底颠覆。

没那么简单

但这里还有个问题。既然这么出色了,为什么这些算法还没得到普遍应用?因为单靠云计算资源训练T5算法,就花掉了谷歌约130万美元。幸运的是,谷歌研究人员慷慨地分享了这些模型。但如果要对当前任务进行调优,还需要额外承担一大笔资源开销,外加漫长的训练周期。

不过随着时间的推移,企业对于调优工作的不断探索,相信未来会有更多应用方案陆续涌现。另外,如果大家相信摩尔定律,那么五年左右之后我们就会迎来更复杂的语言AI应用,届时也会有新的模型全面超越T5算法。

2021年,我们距离AI技术的转折性突破还有遥远的距离。但只要能够迈过这道难关,AI技术必将释放出无穷的可能性。

(0)

相关推荐

  • Facebook AI Research的XLM模型:将BERT扩展成跨语言模型

    近年来,预训练语言模型的出现极大地推动了自然语言处理领域的发展.相较于普通的词向量,诸如ELMo, GPT, BERT将上下文信息也编码到词向量以及文本向量中,从而收获了比普通词向量更强的表达能力,在 ...

  • 2018年终总结之AI领域开源框架汇总

    2018年终总结之AI领域开源框架汇总 [稍显活跃的第一季度] 2018.3.04--OpenAI公布 "后见之明经验复现(Hindsight Experience Reply, HER)& ...

  • 2020上半年收集到的优质AI文章 – 开源框架&算法&数据集

    2020上半年收集到的优质AI文章 – 开源框架&算法&数据集 开源框架/算法/模型/数据集 TensorFlow 和 PyTorch 迎来了"后浪" 2020 年 ...

  • Facebook将照片3D化技术商用,强大的算法+海量的数据+移动端优化是工程亮点

    近日,Facebook AI 团队官宣使用其 Facebook APP的用户均可以方便的在手机端将单摄像头拍摄的2D图像转成3D图像,这项服务支持iPhone 7以上苹果手机和大多数中高端安卓手机. ...

  • 这期考考相似语法的细微差别,很遗憾正确率只有40%

    微博知识小测验持续进行,这期考考相似语法的辨析,这也是绝大多数同学们的弱项,不信你再试试! 相近语法-ㄴ/은 줄 몰랐다,ㄹ/을 줄 몰랐다 这个语法确实很相似,考查的是相近意思的细微差别. 满100 ...

  • 悄悄的进村,打枪的不要!很遗憾,其实“莱茵演习”很快就暴露了

    著:尼克拉斯·泽特林 & 米凯尔·塔梅兰德 译:胡毅秉 "莱茵演习"是1941年5月德军对盟军进行的一场海上作战.莱茵演习的内核是派遣"俾斯麦"号战列舰 ...

  • 这个传染病曾经很邪恶!如今已被人类攻克

    作者:广东省药学会 广州医科大学附属第一医院 梁雪茵 我国古代民间就对麻风病有着极端的误解和惧怕,它经常被和"疯""癞"扯在一起,还有谓之"大麻风&q ...

  • 感知自然语言理解(NLU)

    AI即人工智能是一个令人着迷的领域,尤其是基于对话式AI系统的智能音箱的兴起,使人工智能直接走进了我们的家庭. 自然语言是人类的智慧,自然语言处理(NLP)是AI中最为困难的问题之一,而自然语言理解( ...

  • 很遗憾,我不男不女

    我是超小米,非常简单的三个字,超级小的一粒米.一粒沙,很容易被忽略.可当无数超小米集结的时候,Ta 们组成了整个宇宙. 我原本是一位在北京开古着店的老板娘,因为疫情从国外进货变得艰难,所以我失业了.现 ...

  • 很遗憾地告诉大家~

    不将就 李荣浩 - 有理想 今天的文章,是非常干的干货,可以说价值千金,如果你能看懂,可以提高几个LEVEL. 但是很遗憾地告诉大家,因为涉及市场分析,无法收费,本文只是免费提供投资思路. 再次强调, ...

  • 全票当选MVP有多难?仅有一人做到过,奥尼尔和詹姆斯很遗憾

    NBA本赛季的常规赛已经结束,常规赛MVP花落谁家是大家非常关注的话题,最热门的候选人是约基奇,他在球队首发后卫穆雷赛季报销的情况下带领掘金队取得西部第三的战绩,得分.篮板以及助攻三项数据均是全队第一 ...

  • 高通传来一个坏消息,骁龙870:很遗憾,2年内我都是7nm神U!

    从2021年开始,高通的芯片策略发生了根本性的改变.在此之前,骁龙8系就意味着旗舰,7系是中高端,6系是中低端,4系是百元机. 而现在,骁龙888仍然是旗舰,但是去年的骁龙865,却换了个名字接着卖, ...

  • 很遗憾,我不会画画

    我有一件遗憾的事儿--不会画画. 小的时候,养羊是家里重要的一笔收入,有一年的春天,我家添了两只小羊羔(在古城镇子上住的时候,别人也这么叫我),我跟他们关系特别好.那年的夏天,房外下着大雨,小羊到屋里 ...