文献计量学系列30:关键词清洗与同/近义词合并2 / 四六文摘

导读

系列29讲解了带有特殊符号的同/近义词合并过程。本期，我们将讲解bibliometrix包中关键词处理与清洗函数termExtraction，并改造该函数，尽可能地清洗关键词，使之符合数据分析要求。本期中同/近义词数量较多，将在Excel中排版，并同时建立同/近义词表，保留词组表和移除词表，通过rio包的import函数导入这些表格，并将它们的格式转换为向量，作为清洗函数的参数。本期是建立在系列29的基础上，大家要先有选择的运行系列29的代码才能运行本期代码，否则将会报错。

<<<<<<<<<课程推荐>>>>>>>>>

R文献计量学基础篇已上线！

内容涵盖文档、作者、期刊、研究机构和国家等相关文献计量学指标分析

更多自定义函数

一次性获取较多文献计量指标

让学习更轻松！

学习力，才是最大的竞争力！扫码约我吧！

一、termExtraction函数简介

termExtraction函数能够从题录数据框中的文本数据（摘要，题目和关键词等）中提取专业术语。

（一）表1 termExtraction函数参数与描述

（二）termExtraction函数文本数据清洗与术语提取过程

图1 termExtraction函数运行逻辑

原函数中认为特殊字符不具有任何意义，因此，除连字符“-”外，其他的字符全部删除。但在实际中，比如“：”或者“/”其有可能表达事物之间的比例关系，具有实际意义，因此在处理中要根据专业情况做具体的修改。同样的道理，“是否删除数字”调整到同义词合并之后，比如“water”和“H₂O”，如果先删除数字，那么“HO”的意义就变了，因此，应先对有意义的数字进行处理，再删除其他无意义的数字。

二、关键词清洗与术语提取

（一）在系列29的基础上导出关键词并作处理

DEID <- tableTag(m,Tag = 'DEID',sep = ';') %>% as.data.frame(stringsAsFactors = F)export(DEID,file = 'E:/精鼎统计/DEID.xlsx')

然后将导出的关键词按字母排序（如图2）。

图2 关键词导出

本数据中的关键词经过初步清洗后有1510个术语，词汇量较小，作者逐个对关键词进行审查。在审查的过程中，在Excel中同时创建同/近义词表、需保留词汇表和需删除词表（图3）。如果关键词太多，可以删除低频关键词，以减少工作量。

图3 新建表格，sheet1为原数据

图4 同/近义词表，from表示原词，来自sheet1，to表示最终在数据中的词，即转变后的词，to列中有许多相同的词；该表还包含单词拼写错误的校正

图5 需要保留的词组列表

图6 需要删除的词

（二）同/近义词格式处理

由于termExtraction函数synonyms参数格式向量，比如c(“human;people;man”,”water;H₂O”)，因此，我们需要把同/近词表更改成此格式。

synonyms_other_data <- import(file = 'DEID.xlsx',which = 'synonyms')head(synonyms_other_data)# from to# 1 Acid Acidification# 2 Altitudinal Altitude# 3 Base flow Baseflow# 4 Base flow index Baseflow# 5 Biogeochemical Biogeochemistry# 6 Canadian Canada# from <- toupper(synonyms_other_data$from)to <- toupper(synonyms_other_data$to)keep.to <- unique(to)#构建自定义函数synonfun <- function(from,to,keep,i){ fw = from[which(to == keep[i])] fw1 = paste0(a,collapse = ';') return(fw1) }

synon <- c()for (i in 1:length(keep.to)) { synon = c(synon, synonfun(from, to, keep.to, i)) }

synonyms <- paste(keep.to, synon, sep = ';')head(synonyms)# [1] "ACIDIFICATION;ACID" "ALTITUDE;ALTITUDINAL" # [3] "BASEFLOW;BASE FLOW;BASE FLOW INDEX" "BIOGEOCHEMISTRY;BIOGEOCHEMICAL" # [5] "CANADA;CANADIAN" "CLIMATE CHANGE;CHANGING CLIMATE;CLIMATIC CHANGE"

（三）导入需要保留的词和需要删除的词

keepKW <- import(file = 'DEID.xlsx',which = 'keep') %>% .[,1] removeKW <- import(file = 'DEID.xlsx',which = 'remove') %>% .[,1]

（四）关键词彻底清洗

m1 <- mm1$DE <- m1$DEID

#自定义函数termExtraction1只是对termExtraction函数做了少量的修改，如图1，大家可要自己试一试

m1_TE <- termExtraction1(m1, Field = 'DE', stemming = FALSE, language = 'english', keep.terms = keepKW, synonyms = synonyms, remove.numbers = TRUE, remove.terms = removeKW, verbose = TRUE)# CATCHMENT RUNOFF STABLE-ISOTOPE GROUNDWATER PRECIPITATION RUNOFF-GENERATION TRACER # 249 165 164 136 120 115 106 # MODEL RIVER SOIL BASIN OXYGEN-STABLE-ISOTOPE DEUTERIUM FLOW # 103 98 96 93 92 85 82 # STORM SNOWMELT FOREST GLACIER STREAM GENERATION CHEMISTRY # 82 68 65 60 53 52 51 # FLOWPATH TRANSPORT MOUNTAIN HEADWATER # 49 47 45 40

结果会生产以新的一列DE_TM，即题录数据框的最后一列。需要说明的是，处理出来的词可能存在重复，需要进一步清洗。

#删除重复m1_TE$DE_TM <- lapply(strsplit(m1_TE$DE_TM,';'), unique) %>% lapply(paste0, collapse = ';') %>% unlist()head(m1_TE$DE_TM)

# [1] "HYDROGEOLOGY;KARST;HYDROCHEMISTRY;NATURAL-TRACER;TEMPORAL;DISTRIBUTION;MEDITERRANEAN;SALINE;GROUNDWATER;SR;CARBONATE;AQUIFER;STABLE-ISOTOPE;EVOLUTION;BASIN"

# [2] "STABLE-ISOTOPE;SPATIAL;VARIATION;NAQU;RIVER;BASIN;QINGHAI;xizang;PLATEAU;TEMPORAL;CALABRIA;PRECIPITATION;OXYGEN-STABLE-ISOTOPE;COMPONENT;DEUTERIUM;CHEMISTRY"

# [3] "SUTRI;DHAKA;CHANDRA;BASIN;HIMALAYA;STABLE-ISOTOPE;SPECIFIC;ABLATION;CHHOTA;SHIGRI;GLACIER;MELT;CONTRIBUTION;MASS-BALANCE;UPPER;GANGA;DEUTERIUM;CHORABARI;HIMACHAL;PRADESH;SOURCE;RIVER"

# [4] "RUNOFF-GENERATION;TRACER;FLOWPATH;UNCERTAINTY;THREE-COMPONENT;GROUNDWATER;CATCHMENT;CHEMISTRY;TWO-COMPONENT;DISCHARGE"

# [5] "ACCESSIBLE;RESIDENCE-TIME;QUALITY;CHLORIDE;CATCHMENT;VARIATION;TRANSPORT;DYNAMIC;PRECIPITATION;FOREST"

# [6] "GROUNDWATER;RECHARGE;MONSOON;GLACIER;CLIMATE-CHANGE;COMPONENT;TIANSHAN;MOUNTAIN;STABLE-ISOTOPE;SOIL;MOISTURE;BASIN;PALEOALTIMETRY;FRACTIONATION"

三、小结

虽然关键词的清洗到此结束了，但是由于很多时候同/近义词，需要保留的词和需要删除的词并不能一次都收集全，尤其是对新入门的学者，因此，需要根据后续的分析，反复地对关键词进行清洗整理。接下来的系列，我们将对清洗完全的关键词进行若干的分析。

文献计量学系列30:关键词清洗与同/近义词合并2

相关推荐