如何将关键词信息融入到文本分类任务 / 四六文摘

在知乎看到这样一个问题【如何将关键词信息融入到文本分类任务】，简单说一下自己的经验，供大家参考；

首先说，现在基本各组都有自己的关键词词库，构造方法也都基本上相似。

简单点的就是TF-IDF筛选，复杂的就是构建挖掘特征，关键词二分类模型；

基于此，大家一般也会加上新词发现+实体挖掘进行候选词库的补充；

然后我们再来说，如何把关键词信息融入到文本分类任务中去。

如果说关键词类别未知，这种情况不常见，但是也会有，一般是两种处理方式。

一种是直接拼接在文本后面，增强信息，很常见。

举个例子【今天出去旅游吗】，关键词是【旅游】，文本输入就是【今天出去旅游吗旅游】

另一种是将关键词构造维稀疏特征加入到文本中去，缺点就是维度会比较高；

如果说关键词类别已知，这种场景比较常见；

先说个题外话，在挖掘语料的时候，关键词匹配挖掘语料是一个很常见的手段，但是容易造成语料太过简单单一+语料噪声比价大，所以冷启动的情况下，可以用关键词挖掘语料，之后还是上一批人工的标注会好一点；

关键词类别已知的情况下，也可以使用两种方式来融入到文本分类任务中去；

第一种就是，把关键词往上抽象化，转为对应的类别，然后作为特征结合文本输入到网络中去；

第二种，也是我比较常用的就是对文本分类之后，对文本做关键词匹配，对应类别提升分值，简单说加规则，这个手段有点不好控制的地方就是分值的确定。

但是我为啥爱用呢？最大的原因就是容易在和运营讲道理【撕】的时候获胜，百试不爽~~~

最后说一下，我的Github仓库【NLP_ability】正式突破 2K 星星，主要是关于NLP的知识点总结，感兴趣的朋友可以去关注一下

AINLP

一个有趣有AI的自然语言处理公众号：关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人，尝试自动对联、作诗机、藏头诗生成器，调戏夸夸机器人、彩虹屁生成器，使用中英翻译，查询相似词，测试NLP相关工具包。

330篇原创内容

公众号

如何将关键词信息融入到文本分类任务