【NSII专题报道十五】Natural Object Identifier · 自然索引发布上线
“如果每位研究者,在使用一个物种学名时都能够附上参考文献,那么分类学一定会是影响因子最高的学科之一”,圈子里时常可以听到这样的牢骚。在自然科学的发生发展过程中,对事物性质的区分与对事物变化规律的研究,一直是相辅相成、难分伯仲的。这一点不管是在不同层次的自然对象研究之中,还是在脱离了具体研究实体的纯粹数学领域均是如此。因此对于物种的分类,特别是那些有赖于主观经验的分类,当前的挑战主要还是来自于量化研究的困难。尤其是进行多维度、大规模数据的信息提取和分析一直是相关领域协力而为的目标。其中,如何解决计算机在系统内和系统间发现、识别、访问、重用生物多样性数据,则是在宏观层面上与这一目标最为相关的基础课题。
2020年,NSII特设立“自然对象唯一标识符(简称 NOI)分发系统的建设”专题。该专题就是针对这一问题的一次尝试。可以实现记录、数据集、工具等自然对象的索引、标识、引文生成等功能。
NOI 是一个索引聚合平台
植物分类学家经常需要尽可能的访问多个站点,以便查阅更多的数字标本。这就像所有的内容被写在了不同的书籍上,我们必须逐本翻看,才可以获得完整的信息。NOI 的目标则是为这些书籍建立一个统一的索引,通过这一索引(https://noi.link),用户不仅可以一次性检索多个站点的资源,还可以借助地址映射,直接访问到源站点中相应资源的详细内容。通过索引而非数据的聚合,NOI 有效规避了数据管理和数据权属难以统一的问题,从而为跨机构、跨平台的资源发现与访问、标识和评价创造了可能。
NOI 的理念是 All Link Togather
截止目前,通过各方合作,NOI 首期上线的资源,聚合了包括中国数字植物标本馆(CVH)、中国科学院昆明植物研究所标本馆(KUN)、生命观察(Biotracks)、国家重要野生种质资源库(GBOWS)、国家标本平台(NSII)等国内在线平台近 190 万条植物标本、物种观察记录和活体材料的信息索引。同时,基于各类知识共享协议,我们还收集包括英国皇家植物园标本馆(K)、英国爱丁堡植物园标本馆(E)、美国史密森自然历史博物馆(US)、巴黎自然历史博物馆(P)、密苏里植物园(MO)等境外机构收藏的40多万份中国植物标本的信息(含诸多模式)。
NOI 为这些资源总共分发了 229 万个 NOI 号,未来我们还将继续与各方密切合作,不断提高资源索引量。
NOI 是一个资源标识平台
类似于 DOI,NOI 中的每份资源,都会获得一个用于身份标识的资源标识符(比如 NOI:668517),每一个标识符都有一个持久的、全球唯一的 URL 链接(比如https://noi.link/NOI:668517),该链接将永久的指向该 NOI 指代的资源。同时,用户在 NOI 上查看资源时 NOI 还可以为每份资源生成一个规范的文献引文,比如下面这一份来自于 KUN 的 1208714 号标本的文献引文:
杨增宏, 95-1473. 1995-04-01. 中国, 云南省, 文山壮族苗族自治州, 麻栗坡县. 昆明: 中国科学院昆明植物研究所标本馆, 2020-12-04T14:39:40 08:00. https://noi.link/NOI:668517
不同于 DOI 的层级码,NOI 采用双码制。即一份资源可以有两个唯一编码。其中一个编码是 NOI 平台主动分配给对象的 NOI 码;另一个为资源发布者注册时提交的编码,该编码同样需要确保全球唯一性。对于植物标本馆,我们推荐使用“国际标本馆代码:内部唯一编号”组成,其中唯一编号建议尽可能使用已经条形码化的编号,以降低人工编排和转录出错的概率。对于资源的引用,两个编码是等效的,比如对于上个引文,下方引文是完全等同的:
杨增宏, 95-1473. 1995-04-01. 中国, 云南省, 文山壮族苗族自治州, 麻栗坡县. 昆明: 中国科学院昆明植物研究所标本馆, 2020-12-04T14:39:40 08:00. https://noi.link/KUN:1208714
两个引文中, 第一个引文的 NOI 号是由 NOI 分发,不可改写,因此可以保证绝对稳定;第二个引文中的机构资源编码,则是由机构分配,错误时可以改写,因此只能保证相对稳定。任何时候,双码一一对应,都可以指向同一对象。因此前者更适合作为长期引用使用,后者更适合机构内部使用(如果对内部编码体系有足够的信心,也可以直接将其作为稳定的链接推荐给外部人员使用)。
除此之外,双码制还可以很好的兼顾异步分码的需求,在资源未被真实注册时,可以利用内部码先生成引用链接(比如 https://noi.link/KUN:1208714),在完成 NOI 注册之后这些链接即可被激活使用,而同一资源通过不同平台注册NOI,内部码的存在也可以保证不同资源提交的索引都可以指向同一个NOI。
NOI 是一个引文生成平台
NOI 不仅可以生成引文,还可以将多个引文打包为 BibTex 文件,该文件可以被导入到常用的文献管理软件中,从而可以像管理文献一样管理标本资源。
导入 Papers 文献管理软件中的标本索引,你可以像普通文献一样将其插入到自己撰写的论文之中。
除此之外,NOI 同样支持将多条记录合并为单个合集。合集会有自己的访问页面、标识符和文献引文。不同于单条记录的标识符前缀为 NOI, 在 NOI 中合集和数据集的标识符前缀为 NOISET,而合集的文献引文内容则会根据合集创建者的身份信息自动生成。
这里演示了将多份杜鹃花属模式标本合并为一个合集,该合集具有唯一的 NOISET 标识符和访问链接,同时还会生成规范的文献引文:
徐洲锋. Type Of Rhododendron. 中国科学院昆明植物研究所. 2021-01-17T23:36:25 08:00.https://noi.link/NOISET:1
NOI 是一个 1 1 > 2 的平台
NOI 既可以为普通用户提供多个站点的资源访问和标记服务,也同样欢迎更多的组织和机构加入 NOI。NOI 的专题账户可用于特定专题、课题组、学术群体、自然观察组织的注册。这些账户不仅能够批量注册、检索、更新和利用 NOI 索引,还可以将账户的名称作为文献引文的组成部分,以被其他用户引用。对于缺乏程序适配能力的专题账户,我们还会为相关成员提供数据清洗、转换和装载等方面的程序工具,这些工具不仅可以协助用户注册 NOI, 还可以简化生物多样性相关的数据工作。在 NOI 上设立专题,其实是相互增益的,这主要体现在:
对于尚无在线平台以承载自身数据的组织或团体,可以借助 NOI 宣传自己,并对外提供数据服务。
对于中小型数据平台,资源的直接访问量通常是比较有限的。借助 NOI 将其与其他平台的索引汇集在一起,信息的规模和维度都会互相得到加强,相应平台的访问流量和服务价值必然会同步得到提升。
实现索引而非数据的聚合,也为国内未来生物多样性数据的真正汇集创造了一个良好的缓冲,并将促使领域更多的关注学科更深层次的需求,因此从长远来看会有利于国内生物多样性信息学平台的发展,也是对目前各类国字号平台的有益补充。
NOI 是一个注重个人价值的平台
对于个人账户,受限于数据权责,目前仅支持将个人开发和整理的各类软件和数据集的摘要发布到 noi.link。这些软件或数据集可以是已经发布到期刊上的,也可以是尚未发布的。其他用户可以在网站上浏览、引用和下载这些资源,或者通过联系方式,获取资源。除此之外,个人账户还能够搜索、收藏、管理、分享和引用其他资源索引。NOI 未来也会为个人用户提供更多的扩展服务。
专题负责人:徐洲峰
中国科学院昆明植物研究所项目聘用人员。主要从事生物多样性信息学与生物地理学相关的工作,主导开发了生命观察(Biotracks)平台,KIngdonia 数字标本馆系统、ipybd 生物多样性数据清洗框架、自然索引(NOI)平台等应用。在国内植物数字标本影像的评价与获取、植物标本数字化的流程与模式、植物标本馆信息化体系建设、生物多样性信息学平台构建等方面做了一点基础性和开拓性的工作。
撰写:徐洲峰
测试:徐洲峰
排版:张德纯