融合出版 | Rich HTML 在医学期刊网络出版中的应用研究

作者 | 龚晓霖

作者单位 | 上海市临床检验中心《检验医学》编辑部

DOI | 10.19619/j.issn.1007-1938.2021.00.039

*基金项目:江苏省科协“精品科技期刊”资助项目(苏科协发〔2017〕231 号)。

引用参考文献格式:

龚晓霖. Rich HTML 在医学期刊网络出版中的应用研究 [J]. 出版与印刷, 2021(3): 47-51.

摘要 | Rich HTML 可通过内容分析、知识标引,以及文字、图、表的结构化,实现碎片化条件下的深阅读。文章对 Rich HTML 的基本原理、特点及其在国内外医学期刊中的应用情况进行了研究,同时结合《检验医学》应用 Rich HTML 进行网络传播的实践,分析目前中文医学期刊在应用 Rich HTML 中存在的人员资金、链接版权、功能拓展等问题,以期为 Rich HTML 在医学期刊网络出版中的应用提供参考。

关键词 | Rich HTML;医学期刊;网络出版;可扩展标记语言 (XML);知识标引;全文结构化

近年来,随着移动通信网络技术的飞速发展,智能手机等移动设备在知识和信息的获取中发挥的作用越发凸显,人们的阅读习惯和需求也发生了巨大的变化。许多报纸、期刊紧跟信息化发展的步伐,建立了官方网站、微信公众号等,实现了纸质版和电子版的同步出版,有些期刊甚至舍弃了纸质版,直接采用在线出版。目前,我国医学期刊的官网大多只是简单呈现论文的“摘要”和“PDF 全文”。PDF 文档是典型的非结构化文件,只显示页面效果,未指明文字内容的语义,而且由于期刊的 PDF 文件需要经过专业的排版软件进行排版后再转换生成,因此生产成本较高[1],无法满足期刊为读者提供便捷阅读的需求。

Rich HTML 是基于超文本标记语言(hyper text mark-up language,英文缩写 HTML)标准,通过对纸质版内容进行结构化处理,形成可扩展标记语言(extensible markup language,英文缩写 XML)文件,可在与纸质版内容一致的电子版上进行内容分析和知识标引,实现文字、图、表等全部内容的结构化,最终以静态网页的形式展现出来,为读者提供各种便利和附加信息。《检验医学》杂志于 2015 年开始实行基于 Rich HTML 的网络出版,已取得一些经验,本文对 Rich HTML在医学期刊网络出版中的应用进行介绍,并结合《检验医学》的实践情况提出思考。

一、Rich HTML 的应用背景及其性质与特征

随着网络技术的飞速发展,科技期刊编辑的关注重点已逐渐从传统的纸质出版转向网络传播,也就是数字出版方向。在这一过程中,期刊文章的传播方式逐步由以往的“被动阅读”(即读者只能被动接收其订阅期刊所提供的内容)转变为“主动被阅读”(即读者可以通过多种渠道获得不同期刊的内容,不再局限于一本期刊);由“被偶然阅读”(读者在翻阅纸质版期刊时被动获得内容)转变为“被自然阅读”(读者通过网络等多种渠道主动获得期刊内容)。同时,读者的阅读习惯也发生了变化,由传统的全文逐一阅读方式转变为简短而少量的文本阅读的方式,即碎片化阅读。

目前在网络出版中广泛应用的 PDF 格式需要借助专用软件才能阅读,且一次只能获取单篇文章,与文章内容相关的其他信息仍需通过搜索引擎或数据库查询获得,这已无法适应新媒体发展潮流下便捷化、碎片化的阅读需求。在这种情况下,科技期刊的网络出版开始采用一种新的展示方式,即 HTML 格式,以之为基础的 Rich HTML 逐步得到应用。

1. Rich HTML 的基本原理

HTML 是网页格式的全文形式,是数字出版的标识性文件、富媒体出版的展示形式。Rich HTML 是基于 HTML 标准,对包括文字、符号、公式、图片、表格等在内的纸质版全文内容进行结构化处理,用计算机可以理解的语言,即 XML 来标记内容,形成符合美国国立医学图书馆的文件类型定义标准[2]的结构化文件,并在文章原文(与印刷版内容一致的电子版本)基础上进行内容分析和知识标引,提供作者、关键词的延伸信息及参考文献的原文链接等,最终以 HTML 静态页面形式发布在不同的网络平台上,实现文章的富媒体出版。

Rich HTML 的核心和基础是全文结构化。实现结构化后,相同的内容可形成印刷版、网页版、手机版等多种版本,进行多渠道传播;可实现个性化、片段化、碎片化出版,以满足读者的个性化需求;有助于出版的论文进入全球学术互链体系,被计算机和网络准确发现,实现与其他系统的精准互联,融入全球学术体系网络。

2. Rich HTML 的优势和特点

(1)轻量化的阅读形式

由于网页文件的大小约为 PDF 文件的8%,甚至更低,以 Rich HTML 发布的内容展开速度更快,且不需要借助任何其他工具,只用浏览器即可阅读。不仅全文版面美观,语义直观、丰富,还可以进行全文检索。

(2)碎片化的阅读方式

碎片化阅读的一大特点即不完整、断断续续的阅读模式。随着平板电脑、智能手机等移动设备的普及,微博、微信等网络工具的兴起,以公众号、朋友圈为主的碎片化信息获取模式的普及,基于印刷技术而建立的传统深阅读方式受到了巨大的冲击,碎片化阅读已逐渐成为人们获取信息的主要方式,而且这是一个在短时期内不可逆的过程。Rich HTML 全文结构化的优势在于可以根据文章大纲,把正文、图、表等按内容进行碎片化处理,分割出的每个部分均可单独展示,读者可在任意时间浏览任意内容,而不必像 PDF 一样必须下载全文,借助专用的软件才能进行阅读。

(3)延伸性的阅读体验

Rich HTML 页面的一大特点就是设置了多种链接,大致可以分为 6 种类型:第一,文章各级标题与正文相应部分的链接;第二,正文文献引用处与文后参考文献列表的链接;第三,正文图表的页内链接;第四,文章附加信息,如作者、关键词等信息的外延链接;第五,文后参考文献的资源链接;第六,整本期刊中与该篇文章相关的文章的链接。Rich HTML 的精髓在于将文章的各个部分进行分拆,然后通过不同形式的链接再组合起来,同时添加各种附加信息,从而实现文章的“碎片化深阅读”。通过 Rich HTML 发布的网络版期刊,读者能够轻松浏览文章附加的额外信息,包括段落章节、图、表、参考文献出处信息等,可以方便地了解所引用文献与本文关联的紧密程度、被引文献的学术质量等,这极大地延伸了读者阅读的可选择性。在碎片化信息大行其道的当下,许多读者已习惯于用碎片化的时间查阅碎片化的信息,很多人将“碎片化”与“浅阅读”联系在一起,但Rich HTML 为实现碎片化阅读方式下的深阅读提供了可能,非常适合科研人员的阅读需求。

(4)便利的检索支持

Rich HTML 静态网页的优点在于信息内容的稳定性,这为搜索引擎在网络上检索网页信息提供了方便,因为这些静态网页总是存在的,只要搜索引擎根据某个链接关系发现这个网页,就很容易抓取网页的信息[3]。由于 Rich HTML 是以静态网页的方式发布的,因此在搜索引擎上检索相关信息十分便利。

二、Rich HTML 在国内外医学期刊网络出版中的应用现状

国外著名的医学期刊,如 New EnglandJournal of Medicine(《新英格兰医学杂志》)、Journal of the American Medical Association(《美国医学会杂志》)、The Lancet(《柳叶刀》)、PLoS ONE 等早在十余年前就已开始在其网站上发布不同风格和功能的 Rich HTML 版全文。目前,国外多家商业出版公司可提供多种 Rich HTML 发布平台,如 Elsevier(爱思唯尔)出版公司的 ScienceDirect、Springer(施普林格)出版公司的 Springer Link、Wiley-Blackwell(威立-布莱克威尔)出版公司的 Wiley  Online  Library、Taylor  & Francis(泰勒-弗朗西斯)出版集团的Taylor & Francis Online 等网络出版平台。

国内科技期刊使用 Rich HTML 进行网络发布的时间较晚,发展尚不成熟,应用不够广泛,使用的期刊也较少,而较多已实现Rich HTML 网络发布的英文版期刊则依赖于国外出版平台,自主发展能力较弱。周小玲等[4]40对我国 70 种百强中文科技期刊的 HTML出版现状进行了调研,发现上线 HTML 全文的期刊共 17 种(24.3%);杨郁霞[5]对 438种中文高校科技期刊的 HTML 应用情况进行了调研,发现仅有 78 种(17.8%)期刊提供HTML 阅读模式;郁林羲[6]739对 175 种“中国最具国际影响力学术期刊”的 Rich HTML 实现情况进行了调研,结果显示有 104 种(59.4%)期刊实现了 Rich HTML 出版,其中仅有 38种期刊(英文期刊 28 种、中文期刊 10 种)独立实现 Rich HTML 网络发布,其他 66 种期刊均借助国外出版平台实现 Rich HTML 网络发布。由此可见,我国科技期刊应用 Rich HTML 实现网络发布的情况并不理想。

目前,在检验医学领域的专业期刊中,仅有《中华检验医学杂志》和《检验医学》2种期刊上线了 Rich HTML 全文。《检验医学》于 2015 年正式上线 Rich HTML 版全文(2009年及以后的期刊论文均实现 Rich HTML 全文网络发布),同年摘要点击量为 35 万次,PDF 全文下载量为 45 万次,而 Rich HTML版全文的点击量仅为 3000 次。由此可见,当时的医学研究人员阅读习惯还未改变,仍以PDF 阅读为主。随着时间的推移,Rich HTML版全文上线数据量逐年增大,摘要点击量和PDF 全文下载量并没有太大的增长,分别稳定在 30 万~35 万次和 40 万~50 万次,而Rich HTML 版全文点击量则逐年升高。2021年 1−3 月,摘要点击量为 11 万次,PDF 全文下载量为 10 万次,Rich HTML 版全文点击量已接近 PDF 全文下载量的一半。这说明有更多的读者阅读了《检验医学》的 Rich HTML版全文。下文将结合《检验医学》的 Rich HTML 在网络出版中的应用实践,分析目前中文医学期刊应用 Rich HTML 发布中存在的问题,以期为我国医学期刊的 Rich HTML 应用提供参考。

三、我国中文医学期刊 Rich HTML 发布面临的问题

1. 人员、资金问题

XML 文件是实现 Rich HTML 发布的关键,所有纸质版文章均需转换成 XML 文件后才能生成 Rich HTML 网页文件。制作 XML文件一般有两种方式:一种是由编辑部自行购买工具,然后招聘专业人员制作;另一种是外包给相关技术公司[7]。对于编辑部来说,第一种方法的难处在于人员问题,虽然已有商业化的 XML 文件制作软件,但编辑部的工作人员一般为编辑,没有专业技术背景,不熟悉专业软件使用和相关制作标准,一般很难胜任相关工作;第二种方法的难处主要在于成本问题,以《检验医学》为例,委托专业技术公司的制作成本为 10 元/面,需持续投入,加上后期的维护成本,这对编辑部来说是一笔不小的负担。因此,医学期刊编辑部可根据自己的实际情况,选择合适的方法。但对于国内大多数仍处于“单打独斗”阶段的单刊编辑部来说,刚开始尝试使用 Rich HTML进行网络发布时,选择专业的技术公司进行合作可能更为可行。

2. 链接的版权问题

由于 Rich HTML 的最大特点是为页面设置了各种形式的链接,其中参考文献的资源链接涉及链接的合法性问题,即是否取得了被链接方的合法授权。国外大型出版公司旗下医学期刊的 HTML 全文中的参考文献,均使用 Crossref 引文链接系统与 Scopus、PubMed、Web  of  Science 数 据 库 及 Google Scholar 等建立了链接,多数英文参考文献通过数字对象标识符(digital object identifier,英文缩写 DOI)实现了跨平台或跨资源库的链接。[4]41而国内期刊由于版权问题,参考文献的资源链接尚存在一些困难。在郁林羲[6]741调查的 104 种实现 Rich HTML 网络发布的学术期刊中,独立实现 Rich HTML 发布的 38 种期刊中有 26 种(68.4%)提供参考文献的链接,66 种依托国外出版平台实现 Rich HTML发布的期刊全部提供参考文献的链接。《检验医学》已对英文的参考文献进行了链接,但对于中文文献,考虑到版权和数据库的接口限制等问题,所以尚未进行链接。参考文献的资源链接是应用 Rich HTML 发布的重要组成部分,是作者获取学术信息的重要来源,因此希望国内各大数据库能够开放接口,使中文参考文献也能进行链接。

3. 功能拓展问题

除了文章的正文、图、表、参考文献、作者等信息外,Rich HTML 全文还可附加专业术语关联、文章的原始数据及音视频资料、多维度评价指标等内容。国外的基于 Rich HTML 的网络出版平台中,PLoS 和 Science等出版平台能提供论文浏览量、下载量、分享量、被引频次等评价数据,供读者了解文章的关注度和影响力,在文章末尾处还有相关原始数据、音视频等材料的链接;ScienceDirect 网络出版平台发布的各学科文章中的专业术语已经实现了语义关联,读者可点击获取专业术语的解释及与其相关的其他术语和文献资料。[4]41 而国内绝大多数期刊只有摘要点击量和下载量统计,并未嵌入社交媒体分享量、被引频次等文章计量数据。《检验医学》原本也只能提供摘要点击量、Rich HTML全文点击量和 PDF 全文下载量的统计,2021年 3 月网站改版后添加了社交媒体一键分享、论文计量指标等功能,其中,论文计量指标在已有的点击量和下载量数据的基础上,增加了文章下载数、浏览数的国家和地区分布情况说明,以反映文章的传播广度与影响范围。另外,由于国内科技期刊在相关标准建立和执行方面还存在较大问题,不同期刊网站之间无法互通数据,导致目前只有中国知网、万方数据等大型数据库能够实现专业术语关联工作,功能拓展力度有限。

四、结语

数字信息技术的迅猛发展为传统出版业带来了发展的机遇和挑战,传统出版业向数字化出版转型已成为必然趋势,基于 HTML格式的网络传播是数字化出版的主要方向。应用 Rich HTML 发布网络版期刊从文献资源的可复用性、呈现页面的简洁性和多链接等方面实现了碎片化条件下的深阅读[8],有助于适应读者的碎片化阅读习惯,提升期刊的出版效率和传播效果。目前我国医学期刊应用Rich HTML 的情况与国外同类期刊相比差距较大,但随着相关技术的发展及期刊出版单位的重视和投入的增加,相信这个差距会逐渐缩小,我国医学期刊的学术传播力和影响力也会随之不断提升。

参考文献

向上滑动阅览

[1]龚晓霖. 富媒体技术对我国医学期刊网络出版的影响及《检验医学》的实践[M]//赵惠祥. 科技期刊发展与导向: 第11辑. 上海:上海大学出版社, 2016:95-100.

[2]包靖玲, 李敬文, 沈锡宾, 等. 美国NLM DTD 3.0期刊存储和交换标签集中文章正文部分标记解读[J]. 中国科技期刊研究,2014,25(4):515-519.

[3]刘国奇. 基于CMS的流媒体管理平台的设计与实现[D]. 沈阳:东北大学, 2006.

[4]周小玲, 侯春梅, 黄爱华, 等. 我国百强中文科技期刊XML/HTML出版现状调研与分析[J]. 中国科技期刊研究,2019,30(1):40-45.

[5]杨郁霞. 基于PC 端调查HTML在高校科技期刊中的应用[J]. 编辑学报,2019,31(3):316-319.

[6]郁林羲. “中国最具国际影响力学术期刊”Rich HTML出版现状分析[J]. 中国科技期刊研究,2020,31(6):738-745.

[7]王永超. 建设科技期刊富媒体平台的探讨[J]. 天津科技,2020,47(9):95-97, 101.

[8]程海涛. 我国高水平科技期刊HTML出版的实践探索与发展进路[J]. 出版广角,2020(7):48-50, 79.

Title : Research on the Application of Rich HTML in Internet Publishing of Medical Journals

Author : GONG Xiaolin

Author Affiliation : Editorial Department of Laboratory Medicine, Shanghai Center for Clinical Laboratory

Abstract : Rich HTML can realize deep reading under the condition of fragmentation through content analysis, knowledge indexing and the structuring of texts, graphs and tables. In this paper, the basic principles and characteristics of Rich HTML and its application in medical journals at home and abroad were described. According to the application practice of Rich HTML in Laboratory Medicine's Internet publishing, the problems such as personnel and funds, link copyright and function development in the application of Rich HTML in Chinese medical journals were analyzed, so as to provide reference for the application of Rich HTML in the Internet publishing of medical journals.

Keywords : Rich HTML; medical journal; Internet publishing; extensible markup language (XML); knowledge indexing; full text structure

→ 查看HTML全文

(0)

相关推荐