文献计量学系列32: 关键词描述统计、词频分布和模式

导读
本期我们将用清洗过的关键词数据进行描述统计分析。我们通过构建自定义函数,对关键词基本信息进行统计,比如关键词数量、关键词总词频和平均词频等。同时探索关键词词频分布,关键词数量与关键词词频模式。
<

一、自定义函数

keywordAnalysis函数有题录数据框、字段标识和分割符三个三参数;返回结果为列表包含有三个数据框。
keywordAnalysis <- function(M, Tag = 'DE_TM', sep = ';'){ data = tableTag(M, Tag = Tag, sep = sep) %>% as.data.frame(stringsAsFactors = F) #MainInformation keyword_TF = sum(data$Freq)#total frequency, or keywords' appearance keyword = length(data$Tab) #the number of the type of keywords keyword_AF = keyword_appearance / keyword #average Frequency keyword_SD = sd(data$Freq) #standard deviation keyword_CV = keyword_AveFreq / keyword_SD * 100 #coefficient of variation keyword_TTR = keyword / keyword_appearance * 100 #Type-Token Ratio, 形符类比 keyword_HP = length(data$Tab[data$Freq == 1])# the number of hapax keywords keywordMainInformation = data.frame(keyword = keyword, keyword_TF = keyword_TF, keyword_AF = keyword_AF, keyword_SD = keyword_SD, keyword_CV = keyword_CV, keyword_TTR = keyword_TTR, keyword_HP = keyword_HP) #distribution TabFreq = table(data$Freq) %>% as.data.frame() names(TabFreq) = c('keywordFreq','Count') #Pattern data$keywordRank <- 1:length(data$Tab) data$keywordRankPercentage = data$keywordRank / max(data$keywordRank) * 100 data$FreqCumsum = cumsum(data$Freq) data$FreqCumsumPercentage = data$FreqCumsum / max(data$FreqCumsum) * 100 #Results rlist = list(MainInformation = keywordMainInformation, Distribution = TabFreq, Pattern = data) return(rlist)}

二、加载包,数据导出与导入

pacman::p_load(bibliometrix, rio, tidyverse)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames(m1_TE) <- m1_TE$SR

三、关键词描述统计

keywordInfo <- keywordAnalysis(m1_TE)keywordInfo$MainInformation# keyword keyword_TF keyword_AF keyword_SD keyword_CV keyword_TTR keyword_HP# 1 957 5300 5.53814 15.14573 36.56568 18.0566 496
数据共有957个关键词,总词频数为5300,平均词频为5.5,变准差为15.1,变异系数为36.6,形符类比为18.1,罕见关键词次数为496(即词频为1的关键词数)。
head(keywordInfo$Distribution)# keywordFreq Count# 1 1 496# 2 2 155# 3 3 81# 4 4 33# 5 5 27# 6 6 21
head(keywordInfo$Pattern)# Tab Freq keywordRank keywordRankPercentage FreqCumsum FreqCumsumPercentage# 1 CATCHMENT 205 1 0.1044932 205 3.867925# 2 STABLE-ISOTOPE 150 2 0.2089864 355 6.698113# 3 RUNOFF 149 3 0.3134796 504 9.509434# 4 GROUNDWATER 123 4 0.4179728 627 11.830189# 5 PRECIPITATION 106 5 0.5224660 733 13.830189# 6 RUNOFF-GENERATION 103 6 0.6269592 836 15.773585

三、词频分布与模式可视化

词频分布:

fig1 <- ggplot(keywordInfo$Distribution, aes(x = keywordFreq, y = Count))+ geom_bar(stat = 'identity')+ labs(x = '关键词频率', y = '关键词数量')+ theme_bw()+theme(axis.title = element_text(size = 20))fig1
图1 关键词分布
从图1中可以清晰地看到,关键词频为1的关键词数量远远大于其他关键词数量。

关键词分布模式

fig2 <- ggplot(keywordInfo$Pattern, aes(x = keywordRankPercentage, y = FreqCumsumPercentage))+ geom_line( )+ annotate(geom = "text", x = 5.2246604, y = 51.981132, label = "(Top 50, 5.22%, 51.98%)", color = 'red')+ annotate(geom = "text", x = 10.4493208 , y = 65.716981, label = "(Top 100, 10.45%, 65.72%)", color = 'green')+ annotate(geom = "text", x = 20.89864 , y = 78.32075, label = "(Top 200, 20.90%, 78.32%)", color = 'blue')+ labs(x = '关键词累积百分比', y = '关键词词频累积百分比')+ theme_bw()fig2
图2 关键词分布模式
从图2可知,关键词词频排名前50的关键词(即5.22%的关键词)总词频数占所有关键词总词频数的51.98%。该图表明少数关键词能够代表该领域的核心内容。

(0)

相关推荐

  • 文献计量学系列34: 关键词共现网络与可视化

    一.加载包与导入数据 pacman::p_load(bibliometrix, rio)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames( ...

  • 文献计量学系列33: 关键词时间分布规律

    导读 本期我们将介绍关键词随时间的变化.bibliometrix包中有一个时间相关的统计函数keywordGrowth.该函数可以统计每年关键词的出现的次数(词频).很多与时间相关的分析均可从该函数开 ...

  • 文献计量学系列30:关键词清洗与同/近义词合并2

    导读 系列29讲解了带有特殊符号的同/近义词合并过程.本期,我们将讲解bibliometrix包中关键词处理与清洗函数termExtraction,并改造该函数,尽可能地清洗关键词,使之符合数据分析要 ...

  • 文献计量学系列29:关键词中的同/近义词合并

    导读 系列27探索了如何把作者关键词(DE)和数据库添加关键词(ID)进行合并,并做简单的清洗.本期将介绍合并后的关键词中的同/近义词的合并,即用同一个词来表示所有意思相近的词.该过程需要一定的专业背 ...

  • 文献计量学系列40: 概念结构地图2

    导读 上一期我们讲解了术语概念结构的意思以及运用bibliometrix包中conceptualStucture函数来构建术语概念结构图,该函数中提供了三种方法分别是"MCA",& ...

  • 文献计量学系列39: 概念结构地图1

    读 首先,我们从新华字典和百度百科中查询概念结构(conceptualstructure)的含义与解释,从而帮助我们理解这个术语.新华字典:概念是反映对象的本质属性的思维形式:     结构有两种定义 ...

  • 文献计量学系列37: 不同时期主题分析

    导读 系列36我们讲解了主题战略坐标图的概念和制作方法.本系列我们将探索不同时期的主题战略坐标图,即结合时间切片函数timeslice,即将整个研究分为若干时间段,每个时间段作一个战略坐标图,从而探索 ...

  • 文献计量学系列36: 主题战略坐标图

    导读 战略坐标图是在主题聚类(关键词聚类)的基础上,对不同主题间的内外联系进行可视化,定量地评估特定领域不同主题的重要性和发展程度,探索特定领域的研究热点与前沿及其发展趋势. <<< ...

  • 我国家庭肠内营养研究文献计量学分析

    石磊,柳园,母东煜,廖欣怡 龚杰,胡雯,曾小庆,喻佳洁 四川大学华西医院 华西公共卫生学院 中国循证医学中心 目的:系统综述我国家庭肠内营养治疗研究进展,为我国家庭肠内营养研究和管理提供科学依据. 方 ...