文献计量学系列39: 概念结构地图1 / 四六文摘

读

首先，我们从新华字典和百度百科中查询概念结构（conceptualstructure）的含义与解释，从而帮助我们理解这个术语。新华字典：概念是反映对象的本质属性的思维形式；

结构有两种定义：1）各个组成部分的搭配和排列，2）建筑物上承担重力或外力的部分构造。概念结构的“结构”应该是第一种意思。例如我们称“水”为无色无味无臭的液体，则“无色”、“无味”、“无臭”和“液体”等词语为“水”的本质属性，它们的排列形式则构成了“水”这个概念的结构。

在百度百科中：概念结构指的是概念的内部组织，即概念由哪些因素构成以及这些因素之间的关系。据此，我们认为通过文献计量分析和文本挖掘技术从特定学科的科技文献分析得到的概念结构指示的是该学科的知识由哪些主要的术语构成，以及术语之间的关系，文献之间的关系和文献与术语之间的关系（猫仔个人理解，如有不对之处，欢迎指正）。

如何用图的方式展示概念结构是我们本系列的话题，即概念结构地图。在bibliometrix包中conceptualStructure函数即可绘制术语的概念结构地图，其主要原理是对数据进行降维处理，并在2维图中展示结果。

<<<<<<<<<课程推荐>>>>>>>>>

R文献计量学基础篇已上线！

内容涵盖文档、作者、期刊、研究机构和国家等相关文献计量学指标分析

更多自定义函数

一次性获取较多文献计量指标

让学习更轻松！

学习力，才是最大的竞争力！扫码约我吧！

一、conceptualStructure函数简介

conceptualStructure函数封装了多个函数，其降维技术有3种，分别为对应分析（Correspondence Analysis, CA），多重对应分析（Multiple Correspondence Analysis, CA），和多维标度法（Multidimensional Scaling, MDS），其中CA和MCA是封装了FactoMineR包中的CA和MCA函数，MDS是封装了基础包stats中的cmdscale函数。该函数还使用的hclust对术语进行了层次聚类，其中聚类的数量可以选择，同时该函数还封装了factoextra包的多个可视化上述多元统计分析结果的函数。猫仔我为了更好地、准确地向大家介绍conceptualStructure函数，也是花了不少时间，高强度地学习了下这些个封装的方法和包，理解不到位的地方请大家批评指正，谢谢。conceptualStructure函数工作的逻辑如下图。

图1 conceptualStructure函数运行逻辑

conceptualStructure函数参数和返回值见表1。

表1 conceptualStructure函数参数与返回值

二、MCA方法的术语概念结构地图与解读

pacman::p_load(bibliometrix, rio, tidyverse)m1_TE <- import(file = 'E:/精鼎统计/m1_TE.xlsx')rownames(m1_TE) <- m1_TE$SRm1_TE$ID <- m1_TE$DE_TMIDfreq <- tableTag(m1_TE, Tag = 'ID', sep = ';') %>% as.data.frame()#词频统计IDfreq[50,]#排名第50的术语和词频# Tab Freq# 50 PREFERENTIAL-FLOW 20#术语概念结构地图CS <- conceptualStructure(M = m1_TE, field = 'ID', method = 'MCA',#分析方法为多重对应分析 quali.supp = NULL, quanti.supp = NULL, minDegree = 20, #删除词频低于20的术语 clust = 3, k.max = 3,#聚类数量为3 stemming = FALSE, labelsize = 10, documents = 5, graph = TRUE)

图2 词频排名前50的术语概念结构地图。不同分类中间的点（不同的颜色和形状的点）坐标分别是不同分类的术语的dim1和dim2均值

图2是通过FactoMineR包的MCA函数多重对应分析结果，取术语的dim1 和 dim2组成新数据df；然后hclust函数对dist(df)(术语的欧式距离)聚类，获得术语聚类；最后通过factoextra中fviz_cluster函数将聚类可视化，但是图1的x和y的坐标是MCA分析所得dim1 和dim2，括号里的数值是特征值累加百分比。因此，该图是术语的聚类与MCA分析组合图。术语MCA分析的可视化表示可以定性地根据术语间的距离判断不同术语的相似性，那么聚类在此的作用就是让术语的这种相似性更加明了，很明显，图2显示排名前50的术语可分为3类，同一类的术语相似性较大，可能代表了一个主题，解读该主题需要一定的领域内知识或者请教专家。

图3 术语层次聚类树状图

图3是我们常见的层次聚类树状图，就不多解释了。

图4 贡献排名前5的文档因子图

图4展示了不同术语聚类下相关的文档，且文档对术语概念结构的贡献排名靠前，该结果是储存在返回值的docCoord中。文档的x,y坐标由MCA分析所得，不同分类的文档颜色同术语分类颜色，位置也相对靠近相应分类的术语。这些文章可认为是相应分类（主题）的代表性文章。

图5 被引排名1前5的文档因子图

该图与图4类似，只是文档变成了被引最高的文献了。

五、小结

本期较为详细地介绍了概念结构地图的含义以及concepturalStructure函数的工作逻辑，并以多重对应分析（MCA）方法为例介绍了通过concepturalStructure函数获取术语概念结构地图，并对输出的4图进行了解读，输出结果中还有一些其他的重要的信息，大家可以自行探索。concepturalStructure函数封装了许多函数，被封装的函数的很多参数都是固定的，不能更改，所以concepturalStructure函数得到的结果及其解读的效果可能与大家预想的结果不太一致，这可能需要结合专家知识进行解读，或者修改封装函数的参数以获得最好的结果。下一期我们将探索对应分析（CA）和多维标度法（MDS）算法。

文献计量学系列39: 概念结构地图1

相关推荐