面试题:文本摘要中的NLP技术
解析:
人类很难手动汇总大型文本文档。文本摘要是NLP为源文档创建简短、准确和流畅的摘要问题。
随着推送通知和文章摘要获得越来越多的注意力,为长文本生成智能且准确摘要的任务每天都在增长。
通过首先计算整个文本文档的单词频率来自动汇总文本。
然后,存储和排序100个最常用的单词。
然后根据它包含的高频词数对每个句子进行评分,更高频率的词,价值更大。
最后,根据它们在原始文本中的位置来获取和排序前X个句子。
[object Object]
文本摘要有两种基本方法:提取和抽象。
前者从原始文本中提取单词和单词短语以创建摘要。
后者是学习内部语言表示以生成更像人类的摘要,解释原始文本的意图。提取摘要的方法是通过选择子集来工作。
这是通过从实际文章中提取短语或句子以形成摘要来完成的,LexRank和TextRank是众所周知的摘要总结,它们都使用了Google PageRank算法的变体。
· LexRank是一种无监督的基于图形的算法,它使用IDF修改的余弦作为两个句子之间的相似性度量。
该相似度用作两个句子之间的图形边缘的权重。
LexRank还采用了智能后处理步骤,确保为摘要选择的顶级句子彼此不太相似。
· TextRank是一种类似于LexRank的算法,具有一些增强功能,例如使用词形化而不是词干,结合词性标注和命名实体分辨率,从文章中提取关键短语,以及根据这些短语提取摘要句子。
除了文章摘要外,TextRank还从文章中提取了有意义的关键短语。抽象概括的模型属于深度学习。
使用深度学习的文本摘要已经取得了一定的突破。
以下是一些NLP领域最大公司最显着的公布结果:
· Facebook的神经注意是一种神经网络架构,它利用基于本地注意力的模型,能够根据输入句子生成摘要中的每个单词。
· Google Brain的Sequence-to-Sequence模型遵循编码器-解码器架构。
编码器负责读取源文档并将其编码为内部表示,解码器是一种语言模型,负责使用源文档的编码表示在输出摘要中生成每个单词。
· IBM Watson使用类似的序列到序列模型,但具有注意力和双向递归神经网络功能。
赞 (0)