文献计量学系列30:关键词清洗与同/近义词合并2

导读
系列29讲解了带有特殊符号的同/近义词合并过程。本期,我们将讲解bibliometrix包中关键词处理与清洗函数termExtraction,并改造该函数,尽可能地清洗关键词,使之符合数据分析要求。本期中同/近义词数量较多,将在Excel中排版,并同时建立同/近义词表,保留词组表和移除词表,通过rio包的import函数导入这些表格,并将它们的格式转换为向量,作为清洗函数的参数。本期是建立在系列29的基础上,大家要先有选择的运行系列29的代码才能运行本期代码,否则将会报错。
<<<<<<<<<课程推荐>>>>>>>>>
R文献计量学基础篇已上线!

内容涵盖文档作者期刊研究机构国家等相关文献计量学指标分析

更多自定义函数

一次性获取较多文献计量指标

让学习更轻松!

学习力,才是最大的竞争力!扫码约我吧!

<

一、termExtraction函数简介

termExtraction函数能够从题录数据框中的文本数据(摘要,题目和关键词等)中提取专业术语。

(一)表1 termExtraction函数参数与描述
(二)termExtraction函数文本数据清洗与术语提取过程
图1 termExtraction函数运行逻辑
原函数中认为特殊字符不具有任何意义,因此,除连字符“-”外,其他的字符全部删除。但在实际中,比如“:”或者“/”其有可能表达事物之间的比例关系,具有实际意义,因此在处理中要根据专业情况做具体的修改。同样的道理,“是否删除数字”调整到同义词合并之后,比如“water”和“H2O”,如果先删除数字,那么“HO”的意义就变了,因此,应先对有意义的数字进行处理,再删除其他无意义的数字。

二、关键词清洗与术语提取

(一)在系列29的基础上导出关键词并作处理
DEID <- tableTag(m,Tag = 'DEID',sep = ';') %>% as.data.frame(stringsAsFactors = F)export(DEID,file = 'E:/精鼎统计/DEID.xlsx')

然后将导出的关键词按字母排序(如图2)。

图2 关键词导出
本数据中的关键词经过初步清洗后有1510个术语,词汇量较小,作者逐个对关键词进行审查。在审查的过程中,在Excel中同时创建同/近义词表、需保留词汇表和需删除词表(图3)。如果关键词太多,可以删除低频关键词,以减少工作量。
图3 新建表格,sheet1为原数据
图4 同/近义词表,from表示原词,来自sheet1,to表示最终在数据中的词,即转变后的词,to列中有许多相同的词;该表还包含单词拼写错误的校正
图5 需要保留的词组列表
图6 需要删除的词
(二)同/近义词格式处理
由于termExtraction函数synonyms参数格式向量,比如c(“human;people;man”,”water;H2O”),因此,我们需要把同/近词表更改成此格式。
synonyms_other_data <- import(file = 'DEID.xlsx',which = 'synonyms')head(synonyms_other_data)# from to# 1 Acid Acidification# 2 Altitudinal Altitude# 3 Base flow Baseflow# 4 Base flow index Baseflow# 5 Biogeochemical Biogeochemistry# 6 Canadian Canada# from <- toupper(synonyms_other_data$from)to <- toupper(synonyms_other_data$to)keep.to <- unique(to)#构建自定义函数synonfun <- function(from,to,keep,i){ fw = from[which(to == keep[i])] fw1 = paste0(a,collapse = ';') return(fw1) }
synon <- c()for (i in 1:length(keep.to)) { synon = c(synon, synonfun(from, to, keep.to, i)) }
synonyms <- paste(keep.to, synon, sep = ';')head(synonyms)# [1] "ACIDIFICATION;ACID" "ALTITUDE;ALTITUDINAL" # [3] "BASEFLOW;BASE FLOW;BASE FLOW INDEX" "BIOGEOCHEMISTRY;BIOGEOCHEMICAL" # [5] "CANADA;CANADIAN" "CLIMATE CHANGE;CHANGING CLIMATE;CLIMATIC CHANGE"
(三)导入需要保留的词和需要删除的词
keepKW <- import(file = 'DEID.xlsx',which = 'keep') %>% .[,1] removeKW <- import(file = 'DEID.xlsx',which = 'remove') %>% .[,1]
(四)关键词彻底清洗
m1 <- mm1$DE <- m1$DEID#自定义函数termExtraction1只是对termExtraction函数做了少量的修改,如图1,大家可要自己试一试m1_TE <- termExtraction1(m1, Field = 'DE', stemming = FALSE, language = 'english', keep.terms = keepKW, synonyms = synonyms, remove.numbers = TRUE, remove.terms = removeKW, verbose = TRUE)# CATCHMENT RUNOFF STABLE-ISOTOPE GROUNDWATER PRECIPITATION RUNOFF-GENERATION TRACER # 249 165 164 136 120 115 106 # MODEL RIVER SOIL BASIN OXYGEN-STABLE-ISOTOPE DEUTERIUM FLOW # 103 98 96 93 92 85 82 # STORM SNOWMELT FOREST GLACIER STREAM GENERATION CHEMISTRY # 82 68 65 60 53 52 51 # FLOWPATH TRANSPORT MOUNTAIN HEADWATER # 49 47 45 40
结果会生产以新的一列DE_TM,即题录数据框的最后一列。需要说明的是,处理出来的词可能存在重复,需要进一步清洗。
#删除重复m1_TE$DE_TM <- lapply(strsplit(m1_TE$DE_TM,';'), unique) %>% lapply(paste0, collapse = ';') %>% unlist()head(m1_TE$DE_TM)# [1] "HYDROGEOLOGY;KARST;HYDROCHEMISTRY;NATURAL-TRACER;TEMPORAL;DISTRIBUTION;MEDITERRANEAN;SALINE;GROUNDWATER;SR;CARBONATE;AQUIFER;STABLE-ISOTOPE;EVOLUTION;BASIN" # [2] "STABLE-ISOTOPE;SPATIAL;VARIATION;NAQU;RIVER;BASIN;QINGHAI;TIBET;PLATEAU;TEMPORAL;CALABRIA;PRECIPITATION;OXYGEN-STABLE-ISOTOPE;COMPONENT;DEUTERIUM;CHEMISTRY" # [3] "SUTRI;DHAKA;CHANDRA;BASIN;HIMALAYA;STABLE-ISOTOPE;SPECIFIC;ABLATION;CHHOTA;SHIGRI;GLACIER;MELT;CONTRIBUTION;MASS-BALANCE;UPPER;GANGA;DEUTERIUM;CHORABARI;HIMACHAL;PRADESH;SOURCE;RIVER"# [4] "RUNOFF-GENERATION;TRACER;FLOWPATH;UNCERTAINTY;THREE-COMPONENT;GROUNDWATER;CATCHMENT;CHEMISTRY;TWO-COMPONENT;DISCHARGE" # [5] "ACCESSIBLE;RESIDENCE-TIME;QUALITY;CHLORIDE;CATCHMENT;VARIATION;TRANSPORT;DYNAMIC;PRECIPITATION;FOREST" # [6] "GROUNDWATER;RECHARGE;MONSOON;GLACIER;CLIMATE-CHANGE;COMPONENT;TIANSHAN;MOUNTAIN;STABLE-ISOTOPE;SOIL;MOISTURE;BASIN;PALEOALTIMETRY;FRACTIONATION"

三、小结

虽然关键词的清洗到此结束了,但是由于很多时候同/近义词,需要保留的词和需要删除的词并不能一次都收集全,尤其是对新入门的学者,因此,需要根据后续的分析,反复地对关键词进行清洗整理。接下来的系列,我们将对清洗完全的关键词进行若干的分析。

(0)

相关推荐

  • 跟李锐学Excel:IF函数判断是否包含关键词

    这106种Excel中级技术,帮你超越98%的职场高手!

  • 信息计量学|CiteSpace使用教程8---生成聚类标签

    5.6 生成聚类标签 为了表征识别聚类的性质.从特定聚类的标题.关键词.摘要中抽取名词短语. 点击 任意,从文献的标题.关键词.摘要中抽取名词短语,作为聚类标签. 至此最基本的文献共被引图谱生成.

  • 【一组近义词】

    【一组近义词】

  • 信息计量学|CiteSpace使用教程12---不同图谱的应用范围

    6.3 使用哪种图能展现哪种结果? 此部分仅介绍研究中常使用的几种图谱,对于WOS学科共现.相似度图谱等不做介绍. 文献共被引图谱 文献共被引 期刊共被引图谱 期刊共被引 作者共被引图谱 作者共被引图 ...

  • 文献计量学系列29:关键词中的同/近义词合并

    导读 系列27探索了如何把作者关键词(DE)和数据库添加关键词(ID)进行合并,并做简单的清洗.本期将介绍合并后的关键词中的同/近义词的合并,即用同一个词来表示所有意思相近的词.该过程需要一定的专业背 ...

  • 文献计量学系列34: 关键词共现网络与可视化

    一.加载包与导入数据 pacman::p_load(bibliometrix, rio)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames( ...

  • 文献计量学系列33: 关键词时间分布规律

    导读 本期我们将介绍关键词随时间的变化.bibliometrix包中有一个时间相关的统计函数keywordGrowth.该函数可以统计每年关键词的出现的次数(词频).很多与时间相关的分析均可从该函数开 ...

  • 文献计量学系列32: 关键词描述统计、词频分布和模式

    导读 本期我们将用清洗过的关键词数据进行描述统计分析.我们通过构建自定义函数,对关键词基本信息进行统计,比如关键词数量.关键词总词频和平均词频等.同时探索关键词词频分布,关键词数量与关键词词频模式. ...

  • 文献计量学系列40: 概念结构地图2

    导读 上一期我们讲解了术语概念结构的意思以及运用bibliometrix包中conceptualStucture函数来构建术语概念结构图,该函数中提供了三种方法分别是"MCA",& ...

  • 文献计量学系列39: 概念结构地图1

    读 首先,我们从新华字典和百度百科中查询概念结构(conceptualstructure)的含义与解释,从而帮助我们理解这个术语.新华字典:概念是反映对象的本质属性的思维形式:     结构有两种定义 ...

  • 文献计量学系列37: 不同时期主题分析

    导读 系列36我们讲解了主题战略坐标图的概念和制作方法.本系列我们将探索不同时期的主题战略坐标图,即结合时间切片函数timeslice,即将整个研究分为若干时间段,每个时间段作一个战略坐标图,从而探索 ...

  • 文献计量学系列36: 主题战略坐标图

    导读 战略坐标图是在主题聚类(关键词聚类)的基础上,对不同主题间的内外联系进行可视化,定量地评估特定领域不同主题的重要性和发展程度,探索特定领域的研究热点与前沿及其发展趋势. <<< ...

  • 我国家庭肠内营养研究文献计量学分析

    石磊,柳园,母东煜,廖欣怡 龚杰,胡雯,曾小庆,喻佳洁 四川大学华西医院 华西公共卫生学院 中国循证医学中心 目的:系统综述我国家庭肠内营养治疗研究进展,为我国家庭肠内营养研究和管理提供科学依据. 方 ...