【网络首发】中文科技期刊原创指数研究——基于因子分析法的实证分析
网络首发
作者单位 | 上海财经大学期刊社
摘要 | 文章以中国科学引文数据库(CSCD)的中文核心库科技期刊及其发表的论文为研究样本, 运用因子分析法对中文科技期刊原创指数进行实证研究。选取10 个衡量期刊原创水平的指数(内核指数、黏性指数、贡献指数、特色指数、专业指数、全媒体指数、数字化指数、首发指数、国际 作者指数、国际编纂指数),使用主成分分析法提取4个原创因子(原创内容因子、品牌特质因子、媒体传播因子、国际化因子),构建具有 3 级指标的中文科技期刊原创指数体系。研究表明,中文 科技期刊需以原创为本,培育品牌意识,治理学术乱象,增强核心竞争力,打造具有原创力的出版 物,以此建立良好的原创生态圈。
关键词 | 原创指数;因子分析;实证研究;科技期刊
固定布局
工具条上设置固定宽高
背景可以设置被包含
可以完美对齐背景图和文字
以及制作自己的模板
新时代背景下“万众创新”已经逐渐形 成新态势,原创是学术期刊顺应新浪潮的立 足之本 [1],也是培育世界一流期刊的原始驱 动力。中文科技期刊的原创性是一本学术期 刊在知名度、学术价值、信誉度、稿件质量、 整体形象、服务水平等方面的综合体现,原 创出版物是出版单位文化的标志,是作者、 读者和其他用户对该期刊的一种自然认同, 并且具有本学科和领域的研究特点、特色和 特征 [2]。近年来,我国学术期刊发表论文的数量 和质量均显著提高,期刊的影响因子和影响力在全球范围内不断提升,对海外作者的吸 引力逐步增强。但是学术期刊近期在原创出版上出现了诸多问题 [3],例如部分期刊学术 失范 [4],不顾稿件内容质量,收取高额费用 牟取私利,过度互引、自引等,或在发论文 时忽略了文献的原创性,被检举后大面积撤 稿,严重影响了学术声誉,内部管理模式比 较松散,缺乏完善的内部控制体系,尚未形 成相辅相成、互相促进的原创出版生态圈。2019 年 7 月 1 日正式实施的《学术出版规 范——期刊学术不端行为界定》为学术不端 行为的判断和处理提供了行业标准,彰显了 对学术期刊原创问题进行研究的重要性。目 前,学者们对学术期刊原创出版问题的研究 主要是以期刊被引频次 [5] 和学术影响力进行 综合评价 [6],以评价指标的确立 [7] 和方法选择为主 [8],在有理论根据的定性研究和规范 原创出版的实证研究较少,缺乏以大数据作 为支撑的研究,尚未形成对学术生态发展有 推动力的原创出版理论。鉴于此,在全媒体时代中文科技期刊如 何培育原创意识和环境 [9]、如何提升创新能 力等问题亟待解决 [10]。本文研究我国中文科 技期刊原创出版理论与框架,试图构建中文 科技期刊原创指数体系,弥补对学术期刊较 少进行原创评价和实证研究的不足,以期为 我国学术期刊创造良好的原创生态环境。
一、中文科技期刊原创指数的研究设计
1.样本选择和数据来源
本研究的样本数据来自中国知网、CNKI 科研诚信管理系统、《中国科学引文数据库 (CSCD)》( 2017—2018 年),以及相关期 刊网站、微信公众平台、移动客户端等。首先,在中国知网(CNKI)“期刊导航” 中选择“核心期刊导航”,其下共有七个分 类,以第四编至第七编四个期刊分类下的学 术期刊代表中文科技期刊,这四个分类包括 自然科学、医药卫生、农业科学和工业技术。在每个分类下按照复合影响因子排序,并选 取前20% 的中文科技期刊作为研究样本,同 时获取期刊的栏目、学科、评价等数据。其次,为了得到论文的被引频次和公开 发表前的文字复制比例,在中国知网导出这 些样本论文的被引次数(考虑论文在发表后 两年左右时被引用的次数趋于稳定,时间截 至 2019 年 12 月 31 日),下载期刊2017 年 公开发表的全文,并将其导入CNKI 科研诚 信管理系统研究中心的学术不端文献检测系 统,对论文的相似度进行检测,获取论文公 开发表之前的重复率(具体方法请参见下文关于内核指数的计算过程)。再次,按照期刊名称在微信客户端搜索 公众号,并对期刊官方微信公众号发布的原 创文章数量进行统计(2017—2019 年),同 时登录期刊官网获取期刊其他的媒体形式、 外文版及外籍编委等数据,在可以访问的媒 体形式中对期刊的数字化信息进行采集。最后,为消除极端值和缺失值对研究结 果的影响,对收集到的期刊和论文进行如下 处理:(1)本文的研究对象是中文科技期刊, 而《中国科学引文数据库(CSCD)》收录了 我国数学、物理、化学、天文学、地学、生 物学、农林科学、医药卫生、工程技术等领 域出版的中英文科技核心期刊,具有内容丰 富、结构科学、数据准确的特点,因此在初 步筛选的样本中剔除非CSCD(2017—2018 年)中文核心库来源期刊;(2)剔除尚未开 通微信公众号(包括订阅号、服务号和小程序) 的期刊;(3)剔除投稿须知、会议通知、征 稿启事、总目录等类型的文章;(4)剔除被 引次数、栏目信息、媒体数量、数字出版形 式、作者数量、编委数量等数据缺失的期刊 和论文样本。按照上述步骤和方法,本文最 终获得了98份期刊的17 615篇论文作为研究 样本,为了减少数据中极端值对模型和结果 的干扰,对相关数据中的连续变量进行了1% 的 Winsorize 处理和分析,即如果某连续变量 的值小于该样本的1 分位数(或大于99 分位 数),则该变量的值被替换为1 分位数(或 99 分位数)。
2.研究方法
运用Stata15 统计软件对期刊数据进行预 处理和编程,使用SPSS25.0 统计软件进行因 子分析,对产生的结果做出分析和解释。因 子分析法的主要作用是将多个指标降低维度,用较少的几个主要因子去反映原始数据中的 重要信息,通过因子分析法可以简化指标的 处理,有利于期刊原创指数构建,提高计算 的效率。
二、中文科技期刊原创指数的变量选取
在构建原创指数时应充分考虑指数的易 得性、可量化性、可对比性等特性,并遵循 公开、客观的原则。笔者在借鉴以往学术期 刊评价相关研究成果的基础上,构建了内核 指数、黏性指数、贡献指数、特色指数、专 业指数、全媒体指数、数字化指数、首发指数、 国际作者指数与国际编纂指数等10 个中文科 技期刊原创指数,其计算方法见表 1。
表1 中文科技期刊原创指数的变量计算与说明
内核指数(core)是衡量论文原创性的 核心指数。将每篇论文导入CNKI 科研诚信 管理系统研究中心的学术不端文献检测系统, 根据此检测系统输出的结果(相似文献、文 字复制比例),将论文在发表月份之前的文 字复制比例进行加总,并除以相似文献的总 篇数,得到论文的相似度均值δ,用100% 减 去 δ 的值作为每篇论文的内核指数,论文的 内核指数越高,说明论文的原创程度越高, 随后根据每份期刊的发文数量和每篇论文的 内核指数计算期刊年度内核指数,期刊的内 核指数代表着期刊核心内容的创新程度。
黏性指数(viscosity)是根据微信公众号 发布的原创文章数量计算得到的数据,微信 公众平台根据拟发布内容对运营者的原创声 明进行严格的审核,审核通过后方可在文章 中标记“原创”,故期刊在其官方微信公众 号发布的原创文章越多,表明期刊分享的研 究方法、前沿领域、科技新知等原创内容越多, 这样读者有更强的意愿关注、阅读、引用和 投稿,用户黏性越强。
贡献指数(citation)是测度期刊已发表 论文贡献的指数,以每篇论文发表年限为权 重计算被引次数,并以此为基础按发文数量 计算期刊被引次数均值。论文的被引次数越 多,说明作者对期刊所发表论文的原创程度 越认可,期刊对学科和研究领域的贡献便越 大。
特色指数(feature)是反映期刊栏目特 质的指数,对中国知网期刊导航中所有样本 期刊界面下的“文献所属栏目的分布”进行 统计,将每份期刊的栏目名称与相同学科分 类中其他样本期刊的栏目进行对比,得到不 同于其他期刊的栏目名称和数量,对独有的 栏目数量进行加总得到特色指数,独有的栏 目数量越多,表明期刊栏目的特点越鲜明, 栏目原创性越高。
专业指数(specialty)是反映期刊专业化水平的指数,对中国知网期刊导航中所有样 本期刊界面下的“文献的学科分布”进行统计, 学科数量越少,表明期刊涵盖的领域和学科 越专一,专业化水平越高。
全媒体指数(media)是指期刊拥有的宣 传、采编、出版等媒体形式的数量。媒体数 量和形式越多,期刊能够利用的传播期刊发 表的原创内容的媒介越多,在全媒体时代读 者更愿意通过多种渠道获取新的文献和知识。
数字化指数(digital)的计算是二元的, 即在样本期刊任意媒体形式中,如果可以对 发表的文献进行HTML 全文阅读则计为1, 如果不能进行全文阅读则计为0。HTML 全 文阅读具有诸多优点,例如可以自适应终端 的屏幕大小,单独查看、下载图表,点击文 中引用信息可跳转至文后相应的参考文献, 点击参考文献条目可跳转至文献DOI 指向的 原始出处。若期刊发表的论文可以进行全文 阅读,在阅读形式上原创度越高,读者的阅 读体验越好。
首发指数(pioneer)是衡量期刊传播原 创内容速度的指数,出版形式能够影响期刊 的影响因子[11],期刊在中国知网以“网络首 发”“优先数字出版”“独家数字出版”等 形式出版的数量即为首发指数。相对于纸质 版期刊的出版方式,“网络首发”和“优先 数字出版”等出版形式能以更快的速度将原 创的研究成果展现在读者和大众面前。
国际作者指数(global)反映期刊作者国 际化程度的指数,以发表论文中的外籍作者 人数为测度指标,国际作者指数越高表明更 多的国际学者愿意将其原创内容和成果展现 在学术期刊的学术平台上。
国际编纂指数(compile)是衡量期刊编 纂能力的指数,期刊编委会成员中的外籍编 委人数越多,说明编委会在组稿、审稿、编纂等方面的能力越强,对论文能进行严格的 审核和把关,能够促进期刊原创内容的产出。
三、适用性检验与公共因子的提取
1.原创指数因子分析适用性检验
在进行中文科技期刊原创指数因子分析 之前,需要对数据进行KMO 测度和Bartlett 检验,目的是检验样本和数据的适用性。研 究表明,KMO 值在大于0.5 的基础上越接近 1,表示原始数据越适合做因子分析。表2 展 示了KMO 测度和Bartlett 的检验结果,KMO 测度值为0.708,表明原有变量较适合进行因 子分析处理。Bartlett检验的相伴概率为0.000, 在 1% 的水平上显著,说明变量间的相关系 数矩阵是非单位矩阵,符合因子分析的条件。
表2 因子分析适用性检验结果
2.公共因子的提取
原创指数因子分析适用性检验结果表明, 原始的10 个指数比较适合进行因子分析,接 下来选择主成分分析法和方差最大法分别作 为因子分析的攫取方法和载荷矩阵的正交旋 转方法,提取特征值大于1 的主成分,对数 据进行因子分析,正交旋转前后的累计方差 解释率见表 3。
表3 正交旋转前与旋转后累积方差解释率
方差解释率是同一公共因子对各变量方 差贡献的总和,方差解释率越大,表示公共因子的重要性越强。表3 显示,SPSS 统计软 件提取了4 个特征值大于1 的公共因子,累 计方差解释率是81.08%,表明这4 个主因子 基本保留了 10 个样本指数的大部分信息。
四、中文科技期刊原创指数的构建
1.公共因子的命名
由于降维的效果较好,可以根据因子载 荷较高的主要变量中所蕴含的共同信息,对 4 个公共因子进行分类和命名,正交旋转后 的因子载荷与得分系数见表 4。
表4 正交旋转后的因子载荷与得分系数
表 4 的结果显示,公共因子中的几个变 量存在较高的相关度,因子间不存在严重的 多重共线性,4个公共因子指数可以用于随后 的数据处理和分析。表4 中 core、viscosity、 citation 在公共因子F1 上的因子载荷有两个 超过了0.8,另一个大于0.9,方差解释率为29.61%,对数据总体变化的贡献最多,说明 内核指数、黏性指数、贡献指数相关程度较 高,归在同一个主成分之下,它们共同蕴含 着期刊原创内容的信息,表明了期刊的原创 能力,因此为公共因子F1 命名为原创内容因 子(JOIOC)。
feature和specialty在公共因子F2上的因 子载荷均超过了0.8,方差解释率为24.00%, 特色指数和专业指数较好地反映了期刊在栏 目特色和专业水平上的原创程度,因此将公 共因子 F2 命名为品牌特质因子(JOIBT)。
media、digital 和 pioneer 在公共因子F3 上的因子载荷均超过了0.7,说明全媒体指数、 数字化指数和首发指数具有相近的核心信息, 将它们归类在同一个公共因子中,可以反映 期刊在媒体传播方面的原创能力,因此将F3 命名为媒体传播因子(JOIMC)。
global 和 compile 在公共因子F4 上的因 子载荷均超过了其他变量,这表明国际作者 指数与国际编纂指数共同反映了期刊的国际 原创稿源质量和编审能力,因此将F4 命名为 国际化因子(JOIGL)。
2.主因子得分与原创指数计算
运用因子分析法中将样本数据生成旋转 得分系数,具体情况见表4(括号内是因子得 分系数)。根据表4 的因子得分系数,用因 子得分系数乘以标准化后的10 个指数得出每 个因子得分的计算公式,由于因子载荷超过 0.5 的变量对公共因子的影响比较大,故选取 因子载荷超过0.5 的变量作为主因子得分的 主要指数,得到如下主因子得分表达式。
每个公共因子描述了中文科技期刊原创 指数的各个侧面,若要衡量学术期刊整体的 原创指数则需计算综合因子得分,在计算出 各个因子得分的基础上,根据表3 中每个提 取因子正交旋转前的方差解释率在四个因子 累计方差解释率(81.08%)中的占比计算每 个因子的权重,将得出的因子得分和权重相 乘并加总得到中文科技期刊原创指数的综合 得分(JOI),如式(5)所示。
由此构建出中文科技期刊原创指数体系, 此体系包括一级指数、二级指数和三级指数 共 3 个层次,其中二级指数包括原创内容、 品牌特质、媒体传播和国际化共4 个构面, 三级指数包括内核、黏性、贡献、特色、专业、 全媒体、数字化、首发、国际作者与国际编 纂共 10 种要素(见表 5)。
表5 中文科技期刊原创指数三级指数体系
五、结论与展望
本文运用因子分析法,构建中文科技期刊原创指数体系,此体系适用于数据(如被 引次数、栏目信息、媒体数量、数字出版形式、 作者数量、编委数量等)完备的中文科技期刊, 可为后续的验证性和扩展性研究提供良好的 思路和视角,并可以为今后的实证研究和案 例研究奠定良好的理论基础和研究框架。研 究结论有利于治理学术乱象,推进学术发展, 助力评价中文科技期刊原创指数,培育品牌 意识,打造具有原创力的出版物,增强核心 竞争力,建立学术生态圈。
参考文献
向上滑动阅览
[1] 沈燕燕. 原创力是出版的活力源泉[J]. 科技与出版, 2017,20(8):109-112,126.
[2] 董天策.试论新闻传播学术创新[J].新闻与传播研究, 2013(2):14-23.
[3] 王海涛,谭宗颖,陈挺. 论文被引频次影响因素研 究——兼论被引频次评估科研质量的合理性[J]. 科 学学研究,2016,34(2):171-177.
[4] 白雪娜,张辉玲,黄修杰 . 科技论文基金项目标注的 不端行为及防范对策研究——基于178 篇论文标注 209 个国家自然科学基金项目的实证分析[J]. 编辑学 报,2017,29(3):260-264.
[5] 王黎明,张啸兵,俞立平 . 论文作者数与被引频次关 系的再思考[J]. 情报杂志,2019,38(9):166-170,157.
[6] 李跃艳,熊回香,李晓敏 . 基于主成分分析法的期刊 评价模型构建 [J]. 情报杂志,2019,38(7):199-207.
[7] 张洋,常珍珠. 基于CSSCI 的国内期刊评价研究计 量分析 [J]. 图书馆学研究,2016(10):17-25.
[8] 许新军. 优化期刊评价指标体系的五维路径——对 《中文核心期刊要目总览》的建议[J]. 中国科技期 刊研究,2018,29(2):118-124.
[9] 张小强,杜佳汇 . 中国大陆“新媒体研究”创新的扩 散:曲线趋势、关键节点与知识网络[J].国际新闻界, 2017,39(7):30-57.
[10] 余倩. 中国人文社会科学期刊开放存取现状研究[J]. 图书馆学研究,2018(14):71-76.
[11] 张小强,史春丽 . 独家数字出版与期刊影响因子关系 的实证分析 [J]. 编辑学报,2014,26(3):205-209.
Title : Research on Original Index of Chinese Sci-Tech Journals: Empirical Analysis Based on Factor Analysis
Author : WANG Zi
Author Affiliation : Department of Academic Journals, Shanghai University of Finance and Economics
Abstract : The sci-tech journals in Chinese Science Citation Database and their papers were selected as research samples, and factor analysis method was used to conduct empirical research on the original index of sci-tech journals. Ten indicators (core, viscosity, citation, feature, specialty, media, digital, pioneer, global and compile) for measuring the original level of academic periodicals were proposed. Principal component analysis method was used to extract four original factors (original content, brand traits, media communication, globalization) and an original index system for academic periodicals with three levels was constructed. Research shows that sci-tech journals need to be based on originality, cultivate brand awareness, manage academic chaos, and enhance core competitiveness, so as to create original publications and establish a good original ecological circle.
Key words : original index; factor analysis; empirical research; sci-tech journals
编辑:许彤彤
审核:靳琼 熊喆萍