【学术论文】基于卷积递归模型的文本分类研究

2024-08-02 16:52:28

摘要：

近年来卷积神经网络和循环神经网络在文本分类领域得到了越来越广泛的的应用。提出一种卷积神经网络和长短时记忆网络特征融合的模型，通过长短期记忆网络作为池化层的替代来获得长期依赖性，从而构建一个联合CNN和RNN的框架来克服单卷积神经网络忽略词语在上下文中语义和语法信息的问题。所提出的方法在减少参数数量和兼顾文本序列全局特征方面起着重要作用，实验结果表明，可以通过更小的框架来实现相同级别的分类性能，并且在准确率方面超越了同类型的其他几种方法。

中文引用格式： 殷晓雨，阿力木江·艾沙，库尔班·吾布力. 基于卷积递归模型的文本分类研究[J].电子技术应用，2019，45(10)：29-32，36.
英文引用格式： Yin Xiaoyu，Alimjan Aysa，Kurban Ubul. Research of text classification based on convolution recursive model[J]. Application of Electronic Technique，2019，45(10)：29-32，36.

0 引言

随着人类一直以来在互联网上产生的非结构化文本数据量的不断增长，迫切需要更加智能地处理这些庞大的数据并从中提取不同类型的知识。自然语言处理(Natural Language Processing，NLP)是计算机科学领域的一个广泛的研究领域，它关注计算机与人类语言之间的交互过程。文本分类在许多NLP应用程序中起着重要作用，例如垃圾邮件过滤、电子邮件分类、信息检索、Web搜索以及排名和文档分类^[1-2]，在这些功能中都需要将预定义类别分配给序列文本。文本分类关注的核心问题是文本中词语的表示以及分类模型的选择。相比较传统的文本分类方法，深度学习文本分类框架不需要人为地获取特征，并且具有更好的分类准确率以及更高的效率，因而在自然语言处理领域获得越来越广泛的应用。

卷积神经网络(Convolutional Neural Networks，CNN)最初在计算机视觉领域取得了非常成功的结果。CNN将特征提取和分类视为一个联合任务。通过堆叠多个卷积和池化层来改进这一过程，并且充分利用其多层感知器的结构，具备了学习高维、复杂和非线性映射关系的能力，在语音识别以及图像领域都取得了很好的成果。KIM Y^[3]等人提出将文本中经过预处理的词向量组合为二维的词向量矩阵，作为卷积神经网络的输入，通过卷积池化等操作来提取文本局部特征，从而实现句子级别的文本分类。虽然卷积神经网络模型为文本分类研究打开了新的研究方向并且取得了显著的成果，但是卷积神经网络过于关注局部特征而忽略词序以及语法结构，也对其分类准确率造成了一定的影响。所以本文中引用卷积神经网络(Recurrent Neural Networks，RNN)^[4]来解决单独卷积神经网络忽略全局特征的问题。

本文所提出的架构受到最近RNN在NLP应用中的成功以及RNN即使只有一个单层也可以捕获长期依赖性这一事实的启发^[5]。NLP的大多数深度学习架构需要堆叠许多层来捕获由于卷积和池化层的局部性而导致的长期依赖性^[6]。因而本文研究了长短时记忆网络(LSTM)作为卷积神经网络语言模型中池化层的替代方法，以执行短文本的情感分析。本文将提出一种联合CNN和RNN的架构，它将CNN提取的局部特征作为RNN的输入，用于短文本的情感分析。本文的主要贡献：利用LSTM替代卷积神经网络结构中的池化层，通过卷积结构提取的局部特征和LSTM模型获得长期依赖关系，以较少的参数并实现有竞争力的结果^[7]，并在反复试验后实现对这一模型参数的优化。

1 模型结构

1.1 卷积神经网络

卷积网络是一种包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一^[8]，通常包含输入层、卷积层、池化层、全连接层以及输出层等。本文利用卷积神经网络模型提取文本的局部特征，通过反向传播算法进行参数优化^[9]。由KIM Y提出的CNN短文本分类模型如图1所示。

(1)输入层。输入层是由句子中词语的词向量组成的词向量矩阵。本文为了实现文本单词特征的提取尽可能地保留其所在语句中的含义，因而将每条文本中所有的词向量纵向堆叠得到二维的文本向量矩阵^[10]。主要是利用Word2vec将词W(i)转换为词向量V(W(i))，并且将词W(i)组成的句子映射成为句子矩阵S_j，假设词向量的维度为n，这个句包含词的数量为k，因此该文本中包含k个子矩阵的大小就是n×k。

(2)卷积层。卷积层通过一组不同大小的卷积核(Fliter)r×k对句子矩阵S_j进行卷积运算操作，提取的局部特征：

其中，F代表r×k大小的的卷积核，b表示偏置量，f表示非线性激活函数，c_i表示通过卷积操作得到的局部特征。随着卷积核以步长为1从上向下扫描完整个词向量矩阵后，最终会得到局部特征向量集合C：

其中，h是卷积层参数，对应卷积步长。

(3)池化层。池化层主要负责对卷积层的输出进行保留压缩，进一步减少参数数量并提取主要特征，它通常包括平均池化和最大池化，本文选取最大池化操作，通过调整k-max池化窗口参数来提取特征矩阵中最具有价值的重要信息。

(4)输出层。将池化层的所有输出特征在全连接层组合输出为向量U，之后通过softmax分类器计算文本在各个类别下的概率，最终模型利用实际的分类标签，通过反向传播算法进行模型参数的优化^[11]。

其中，y代表目标输出的实际分类。

1.2 长短时记忆网络

为了在文本中获得较长的序列信息，仅仅依赖于卷积神经网络是难以实现的，因此自然语言处理中更常用到循环神经网络。它利用定向循环操作将前一刻的隐层状态参与下一时刻隐层状态的计算，从而解决了输入间的前后关联问题^[12]。

长短期记忆网络(Long Short_Term Memory Network，LSTM)^[13]是一种特殊的RNN，其核心是利用记忆细胞记住长期的历史信息和门机制进行管理，从而更新每一层的隐状态。LSTM递归神经网络的隐藏层向前公式可表示为：

1.3 融合模型

文本分类特征融合模型由卷积神经网络和循环神经网络组成。第一层是嵌入层，将输入文本转换为可供处理的词向量矩阵，矩阵的列数就是词向量的维度，行数就是单词序列的长度。

对其进行卷积操作，通过文献[15]中对基础卷积神经网络的研究，本文经过分析测试后认为，当词向量取100维，且卷积核分别设置为3×100、4×100、5×100时，卷积神经网络会取得比较好的分类效果。在得到卷积运算所产生特征向量矩阵之后，将其作为输入直接进入长短时记忆网络以捕获文本的长期依赖关系，提取文本中的全局性特征。卷积循环网络模型图如图2所示。

将融合后的特征保存在output中，再连接第二个全连接层，其中θ代表函数的输入向量，在第二个全连接层之后使用dropout机制，舍弃每次训练中得到的部分参数，且dropout参数设置为0.5，防止过拟合，将最后将得到的结果输入到softmax函数中得到x被分类成j类的概率计算公式为：

2 实验与分析

2.1 实验环境

实验环境参数配置如表1所示。

2.2 实验数据

本文的数据集为斯坦福大学的大型标准互联网电影资料库IMDB，是英文情感分析的标准试验数据，其任务是判断电影评论是正面还是负面的。IMDB数据集有5万条来自网络电影数据库的评论，其中2.5万用来训练，2.5万用来测试，每个部分正负评论各占50%。使用15%已经标注过的文档作为验证数据。

IMDB数据集是Keras内部集成的，初次使用需下载导入，之后便可以直接使用，并且该数据集已经经过预处理，所有的影评文本已经被转换为整数序列。在输入神经网络前首先要将整数列表转换为词向量，将文本转化为低维、稠密的词向量矩阵。目前有很多词向量训练工具，最具代表性的是斯坦福大学的Glove以及Google发布的Word2Vec等。

2.3 实验参数

通过使用随机最速下降法SGD训练网络以及反向传播算法来计算梯度。本文通过添加一个循环层模型作为池化层的替代，有效地减少所需的卷积层数并捕获长期依赖关系。因此，本文考虑将卷积和循环层合并为一个单独的模型。本架构目标是减少网络中的多个卷积和池化层堆叠数量并进一步减少局部详细信息的丢失。从而，在提出的模型中，卷积核的大小设置为3×256、4×256、5×256，使用ReLU作为激活函数。对于循环层LSTM，本文将其隐藏层的参数设置为128，训练迭代数量为50。表2中显示了所提出的架构的所选参数值。

2.4 实验结果及分析

为了验证本文所提出的CNN与LSTM融合模型的分类性能，分别将本文中的模型与单独CNN模型、LSTM模型、传统分类模型以及其他文本分类模型做了比较试验。

图3～图5分别给出了3层CNN模型、单LSTM模型以及融合模型的准确率。单独模型与融合模型准确率对比如表3所示。从表3中可知，本文所提出的融合模型在准确率方面要优于单独的卷积神经网络模型以及LSTM模型。通过卷积神经网络提取局部特征之后，直接将文本的局部特征作为长短时记忆网络的输入，可以取得比单独模型更高的分类准确率。

本文不仅与单独文本分类模型进行对比，还与传统的机器学习算法SVM以及其他模型进行比较。通过表4可以看出，文献[15]提出的基于风险最小化的分类决策树虽然在原有的基础上有了较大进步，但本文所提出的融合模型在分类准确率上显然效果更好。

在用LSTM进行分类时，由于需要将全部的文本特征信息编码到隐藏层中，显然这种长距离特征依赖对于长文本的效果更为明显，在加入了注意力机制之后显然对LSTM的准确率有较为显著的影响，但本文所提出的的融合模型通过卷积计算提取局部特征和LSTM兼顾文本序列以及语法结构的长距离特征在分类效果上表现要更好，本文所提出的文本特征融合模型的确可以有效提高文本分类的准确率。

3 结论

本文提出了一种利用LSTM替代卷积神经网络模型中池化层的特征融合模型用于文本分类研究。该模型既可以利用卷积结构提取文本的局部特征，又可以利用LSTM保留文本的全局特征，减少局部特征在多层卷积池化结构中的的特征损失问题。在实验阶段，本文将所提出的文本分类融合模型与单模型、传统文本分类模型以及其他深度学习模型进行对比实验，本文所提出的融合模型有效提升了文本分类的准确率。然而本文所提出的融合模型并没有采用复杂的网络结构，在接下来的研究中将针对结构更加复杂的卷积神经网络与LSTM的融合模型来开展。

参考文献

[1] Li Juntao，Cao Yimin，Wang Yadi，et al.Online learning algorithms for double-weighted least squares twin bounded support vector machines[J].Neural Processing Letters，2017，45(1)：319-339.

[2] KALCHBRENNER N，GREFENSTETTE E，BLUNSOM P A.Convolutional neural network for modelling sentences[J].Information Sciences，2016(1)：217-253.

[3] KIM Y.Convolutional neural networks for sentence classification[C].Proceedings of the EMNLP，2014.

[4] 李云红，梁思程，任劼，等.基于循环神经网络变体和卷积神经网络的文本分类方法[J].西北大学学报(自然科学版)，2019(4)：1337-5003.

[5] GRAVES A.Supervised sequence labelling with recurrent neural networks[M].Berlin Heidelberg：Springer，2012.

[6] ANDRIY M，GEOFFREY H.A scalable hierarchical distributed language model[C].The Conference on Neural Information Processing Systems(NIPS)，2008：1081-1088.

[7] 苏丰龙，谢庆华.基于深度学习的领域实体属性词聚类抽取研究[J].电子技术应用，2016，42(6)：1674-7720.

[8] 字云飞，李业丽，孙华艳.基于深度神经网络的个性化推荐系统研究[J].电子技术应用，2019，45(1)：14-18，22.

[9] MIKOLOV T，SUTSKEVER I，CHEN K，et al.Distribtedrep-resentations of words and phrases and their compositionality[C].Proceedings of the Advances in Neural Information Processing Systems，2013：3111-3119.

[10] 王静.基于机器学习的文本分类算法研究与应用[D].成都：电子科技大学，2015.

[11] 张冲.基于Attention -Based LSTM模型的文本分类技术的研究[D].南京：南京大学，2016.

[12] MANNING C D，RAGHAVAN P，SCHUTZE H.An introduction to information retrieval[M].Cambridge：Cambridge University Press，2008.

[13] 李华，屈丹，张文林，等.结合全局词向量特征的循环神经网络语言模型[J].信号处理，2016，32(6)：715-723.

[14] VIGLIOCCO G，VINSON D P，DRUKS J，et al.Nouns and verbs in the brain：a review of behavioural，electrophysiological，neuropsychological and imaging studies[J].Neuroscience and Biobehavioral Reviews，2010(3)：167-198.

[15] ZHANG X，ZHAO J，LECUN Y.Character-level convolutional networks for text classification[C].Advances in Neural Information Processing Systems，2015：649-657.

作者信息:

殷晓雨，阿力木江·艾沙，库尔班·吾布力

(新疆大学信息科学与工程学院，新疆乌鲁木齐830046)

原创声明：此内容为AET网站原创，未经授权禁止转载。

一万字纯干货|机器学习博士手把手教你入门LSTM（附代码资料）

LSTM是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件.在自然语言处理.语言识别等一系列的应用上都取得了很好的效果. <Long Short Term Memor ...
【信息抽取】介绍一种端到端的关系抽取方法

事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...
深度学习的三个主要步骤！

Datawhale干货作者:屈太国,湖南大学,Datawhale优秀学习者本文来自李宏毅机器学习笔记(LeeML-Notes)组队学习,详细介绍了使用深度学习技术的三大主要步骤. 教程地址:h ...
基于Seq2Seq的信息抽取方法在多轮对话场景的应用

基于Seq2Seq的信息抽取方法在多轮对话场景的应用
GCN-GAN：加权动态网络的非线性时序链路预测模型

GCN-GAN：加权动态网络的非线性时序链路预测模型
基于卷积神经网络的列控车载设备故障分类研究

车载设备是列车运行控制系统中重要的行车控制设备,是确保高速铁路安全运行的核心.车载设备运用至今,虽整体性能稳定,但使用过程中也发生了不少故障,严重干扰运输组织和秩序.车载设备故障诊断是防止列车故障.保 ...
AIops ｜一文了解日志异常检测

背景介绍日志是有关系统运行状态的描述,例如Linux的系统日志,数据库系统的日志以及分布式系统的日志等.日志是运维人员查看系统运行状态,寻找系统故障的重要数据.另一方面,日志属于非结构化数据,兼具有 ...
人工智能与信息安全：新的革命与挑战

人工智能,是一种借鉴生物感知系统和神经系统来开发相应模拟算法的计算机技术,其主要特点是可从数据中学习特征并进行自我迭代训练. 通常,人工智能算法往往需要大量的数据以及庞大的计算资源作为支撑.随着计算机 ...
直观比较四种NLP模型 - 神经网络，RNN，CNN，LSTM

文/ 阿里淘系 F(x) Team - 紫矜 NLP中使用的每种模型的差异有时令人难以把握,因为它们具有相似之处,并且通常设想使用新模型来克服以前模型的缺点.因此,本文将深入探讨每种模型的本质,并了解 ...
【学术论文】卷积神经网络在肝包虫病CT图像诊断中的应用

摘要: 探讨卷积神经网络(Convonlutional Neural Network,CNN)在肝包虫病CT图像诊断中的应用.选取两种类型的肝包虫病CT图像进行归一化.改进的中值滤波去噪和数据增强等预 ...
【学术论文】一种面向微博文本的命名实体识别方法

命名实体识别(Named Entity Recognition)是指识别文本中的各种实体,如人名.地名.机构名或其他特有标识[1],是自然语言处理(Natural Language Processin ...
论文选读丨基于演化视角的穿斗架分类研究

一前言中国古建筑中的穿斗架量大面广,传承久远,做法多样.调研发现,即使是作为原生代表的苗居.侗居穿斗架,它们之间也存在不小差异,分属不同的技术子系统.在国务院公布的五批国家级非物质文化遗产名录中, ...
使用Transformer模型进行文本分类

作者 | Eric Fillion 编译 | VK 来源 | Towards Data Science 文本分类是NLP最常见的应用.与大多数NLP应用一样,Transformer模型近年来在该领域占 ...
【学术论文】面向5G的车联网安全业务研究

导读: "2019年是5G元年."2019年2月18日,上海移动和华为在虹桥火车站正式启动建设5G网络,计划在2019年内完成5G网络深度覆盖.时隔不久,在2月25日开幕的201 ...
【学术论文】太赫兹片上集成放大器研究进展

摘要针对当前太赫兹科学与技术发展的状态和瓶颈问题,重点讨论太赫兹电路中的核心部件--片上集成放大器的研究进展情况.根据太赫兹芯片设计和加工不同基底材料,比较了磷化铟和砷化镓制成化合物太赫兹放大单片与 ...
【学术论文】交错并联CCM Boost PFC变换器研究

摘要: 针对功率因数校正变换器电感电流连续导电模式(Continue Conduction Mode, CCM)时,两相交错并联Boost PFC变换器各支路不均流造成某一支路中开关管电流应力加大的问 ...
【学术论文】合并单元测试仪量值溯源方法研究

电子式互感器及合并单元是智能变电站的核心部件,其性能及精度等各项指标对继保.测控.数字电能计量等有决定性的影响,而各地供电单位对电子式互感器及合并单元的选型.验收.定期检测等环节所采取的措施或手段尚 ...
【学术论文】光伏组件内部参数辨识与输出特性研究

近几年,随着生态问题的日益突出,不可再生能源的过度使用,对环境造成了不小的影响,比如近几年我国雾霾尤其严重,这就凸显出清洁可再生能源的重要性了.近年来,光伏产业作为可再生能源工业的代表,在人们生活的各 ...

【学术论文】基于卷积递归模型的文本分类研究

相关推荐