【NLP】详聊NLP中的阅读理解（MRC）

2024-04-10 20:24:45

机器阅读理解，笔者认为他是NLP中最有意思的任务了。机器阅读一份文档之后，可以“理解”其中的内容，并可以回答关于这份文档的问题。听上去，有一种很强的“人工智能”的Feel。

这篇文章介绍机器阅读理解（Machine Reading

Comprehension），包括MRC的概况、做法以及主要模型。

作者&编辑 | 小Dream哥

目标

目前来讲，还没有一种NLP技术，能够端到端的实现对文本的理解。通常是转化位不同的NLP任务，来实现对文本不同层面的“理解”，例如如下的任务：

词性识别
命名实体识别
句法依存
句法依存

MRC也是一种理解文本的任务，它的大体模式是：机器阅读文档，并回答相关的问题。

这跟我们做英语的阅读理解题目是非常的相似，阅读一篇英文章之后，基于此，做后面的几道选择题或者填空题。

MRC发展概况

在MRC的早期主要是一些基于规则和机器学习方法的MRC系统：

1997，QUALM system
1999. Reading Comprehension dataset by Hirschman et al
1999 Deep Read System (rule-based BOW model)
2000 QUARC system (rule-based)
2013-2015 MCTest(and 4 on1) and ProcessBank(Y/N) dataset
2014 Statistical Model
Machine learning Models(map the question to formal queries)

上述基于规则的系统，通常能够获得30-40%的准确率，机器学习模型取得了一些进展，但也有一些问题，例如：

严重依赖一些基于语法和语言学的工具
数据集太小
基于现有的语言学工具，很难特征构建有效的特征

随着深度学习时代的到来，这种情况得到了很大的改上，出现了如下的模型是数据集：

2015. The Attentive Reader(Hermann et al). Achieved 63% accuracy
2015 CNN and Daily Mail
2016 Children Book Test
2016 The Stanford Question Answer Dataset (SQUAD 1)
2017 Match-LSTM,BiDAF,TrivalQA,R-net,RACE
2018. QANet, NarrativeQA ,BiDAF+self-attention+ELMO,SQuAD 2.0, The Standford Attentive Reader,BERT, HotPotQA

我们现在来正式的定义一下基于神经网络的MRC：

给定一个训练数据集{P，Q，A}，目标是学习一个函数f:

f（p，q）-> a

其中，P是文档集，Q是问题集，A是答案集。

根据Answer的类型，我们可以把目前的MRC系统分为以下4类：

完形填空类型（cloze）
多项选择（Multiple Choice）
Span Prdiction
Free-From answer

The Standford Attentive Reader

如下图所示，展示了Stanford Attentive Reader模型结构图

这里的SAR主要用来解决的是span prediction的MRC问题。设给定一篇文章p，长度位l1；同时给定一个问题q，长度位l2；目的是预测一个span（start,end）,start和end是P上词位置，并且这个span是这个问题的答案。

模型将这个任务转化为序列上的二分类问题，即对于文章中的每个词，都预测这个词分别是start和end的得分，最后用这个分数来预测span。

1）question部分的编码

主要是对question进行编码，先经过embedding层，而后用BiLSTM进行序列建模，最终每个词的表征为：

然后，接一个带权重的softmax，得到一个编码向量q，如下的公式所示：

2）Passage编码部分

Passage的编码也是先经过embedding，再通过BiLSTM进行序列建模，最终每个词的表征为：

需要注意的是，输入BiLSTM的emdedding向量是由4部分concate而成的：

Glove生成的embedding
embedding对齐特征，通过与q的embedding做attention而得到
词性特征
实体类型特征

3）prediction部分

简单来说就n个二分类，根据q和p分别预测每个词是start及end的概率：

4）损失函数

训练过程中采用的损失函数如下：

这个模型还可以转化为上述的cloze，multiple-choice等类型的MRC任务，做一些简单的调整即可。

我们前面还介绍过，如何基于BERT来做MRC的任务，感兴趣的读者可以看看：

【NLP】如何利用BERT来做基于阅读理解的信息抽取

总结

基于MRC可以完成知识抽取、QA等重要的NLP任务，读者务必熟悉。

论文解读 | Transformer 原理深入浅出

Attention 机制由 Bengio 团队于 2014 年提出,并广泛应用在深度学习的各个领域.而 Google 提出的用于生成词向量的 Bert 在 NLP 的 11 项任务中取得了效果的大幅提 ...
Transformer靠什么''基因''，得以闯入CV界秒杀CNN？

CV(计算机视觉)领域一直是引领机器学习的弄潮儿.近年来更是因为Transformers模型的横空出世而掀起了一阵腥风血雨.小编今天就带大家初步认识一下这位初来乍到的CV当红炸子鸡- 本文主要介绍Tr ...
'轻量'且'优秀'的序列推荐模型

炼丹笔记干货作者:十方 self-attention已经广泛使用在序列化推荐中,但是存在复杂度较高且过度参数化的问题,并且由于隐式位置编码的缘故,会使模型在对items之间的关系错误建模.这篇来自微 ...
小白都能懂的推荐算法入门（三），FM、类别特征以及Embedding

大家好,上一期文章我们聊了FM模型在推荐系统当中起到的作用,以及它的一些缺点. 今天我们继续来聊FM,不过不是单纯聊FM的原理了,而是聊聊更深层次的方法论,以及FM家族的一些改进策略. Embeddi ...
NLP预训练家族 | Transformer-XL及其进化XLNet

NewBeeNLP 永远有料,永远有趣 194篇原创内容公众号最近又重新读了Transformer-XL和XLNet的论文和代码,又有很多新的感悟.其中,要想搞懂XLNet的同学一定要首先明白Tr ...
【NLP】Kaggle从零到实践：Bert中文文本分类

Bert是非常强化的NLP模型,在文本分类的精度非常高.本文将介绍Bert中文文本分类的基础步骤,文末有代码获取方法. 步骤1:读取数据本文选取了头条新闻分类数据集来完成分类任务,此数据集是根据头条 ...
NLP模型BERT和经典数据集！

每日干货 &每月组队学习,不错过 Datawhale干货作者:陈安东,中央民族大学,Datawhale成员对于刚入门NLP的伙伴来说,看到NLP任务很容易觉得眼花缭乱,找不到切入点.总的来 ...
谈谈文本匹配和多轮检索

作者:朱帅学校:华中科技大学研究方向:文本匹配,对话系统 1. 关于文本匹配文本匹配是NLP的基础任务之一,按照论文中的实验对传统的文本匹配任务进行分类,大致可以分为文本检索(ad-hoc),释 ...
旷视孙剑团队提出Anchor DETR：基于Transformer的目标检测新网络

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 214篇原创内容 Official A ...
语文考试中，阅读理解的概括能力也是必考点，3个方法帮你提高概括能力……

家长们关注孩子们的阅读能力,往往重点在理解上,其实在语文考试中,有一个和阅读理解一样重要的考点:阅读概括,这也是考试中经常遇到的.选择题.填空题.主观问答题都有考查阅读概括能力.概括是语文学习的核心能 ...
2020二模中的阅读理解问题

2020年的二模已落下帷幕,今年的阅读理解问题相较于往年的二模中有所增加,阅读理解的题型还是分为多边形.三角形.函数和方程背景下的阅读理解问题,下面我们就对这些问题进行具体的分析与讨论. 考点:本题 ...
2021一模中的阅读理解问题

在2021年的一模中,共有13个区涉及了阅读理解问题,这些问题多以函数中的新概念问题.实际应用问题.三角形或四边形的新定义问题为主.其中闵行.金山和黄浦区涉及了阅读理解的大题,其题型新颖,但是难度不高 ...
2021二模中的阅读理解问题

在2021年的一模中,共有11个区(共计12道)涉及了阅读理解问题,这些问题多以数学史问题(如<九章算术>.古希腊数学问题).二次函数的新定义问题.三角形或四边形的新定义问题.圆中的位置关 ...
期末语文复习中，阅读理解怎么提升，希望此...

期末语文复习中,阅读理解怎么提升,希望此文能帮助孩子从解决如何阅读开始,养成一个良性循环的阅读习惯,从而提升语文成绩.
详解NLP中的预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文...

NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...
【NLP】如何利用BERT来做基于阅读理解的信息抽取

信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成计算机能够处理的结构,实体抽取.关系抽取.事件抽取等都属于信息抽取的范畴.在NLP领域,信息抽 ...
小学语文阅读理解中的常见问题解答：家长需耐心了解课本中“和家长一起读”栏目……

低年级语文阅读理解,都在阅读什么?其实很多家长不知道,也不了解阅读训练目标.只是朴素地认为,只要孩子拿起课外书,在我的视线范围里,多看书就是多做阅读了.这个阅读的行为是没错的,但是阅读理解,不是只有翻 ...
提高语文考试中阅读理解的分值，你只需要做到这五步

<一本小小的蓝色逻辑书>是加拿大作者布兰登·罗伊尔关于逻辑推理初级解读的一本书,本书的目的,就是为读者提炼出一套最有用.最完整的逻辑推理概念,帮助读者在学习和现实生活中更好地理清思路,解决 ...

【NLP】详聊NLP中的阅读理解（MRC）

相关推荐