学术访谈|李振聚老师谈学术数据库的使用
人物介绍
李振聚,男,1986年1月生。山东大学儒学高等研究院中国古典文献学方向博士。山东大学文学院博士后。现为山东大学文学院研究员。研究方向为目录版本校勘学、中国经学。
part1 常用数据库与古典文献研究
宓嘉祥:李老师好!请问您在学术研究中经常使用哪些数据库?如果让您选择古典文献领域最重要的数据库,您认为是哪个?
李振聚:在“中国基本古籍库”之前,我经常使用的是“文渊阁四库全书电子版”,里面包括原图和全文检索。后来产生的诸种全文检索系统,都有这个四库检索系统的身影。现在经常使用的是:
1、爱如生的“中国基本古籍库”和“中国方志库”,这两个库山东大学已经购买,校内可以使用。“中国基本古籍库”所收典籍都请专家学者圈定审核过,有一万多种,量非常大,版本选择也很审慎(“中国基本古籍库”收了一万多种书,三倍于《四库全书》,里面会有各种问题,陈尚君先生有《中国基本古籍库初感受》一文,可参阅,但创始为难,希望以后能再加改订)。只不过方志库,我校只买了初集和二集,后几集没有购买。还有较为有价值的“四库系列数据库”,我校也未购买。爱如生的数据库后来加上了全文检索和原图对照功能,原图对照是后期补上,故检索时不能够实现即时的一一对应,想翻原图,只能再回头翻检。但“一一对应”只是技术问题,希望以后会改善。
2、期刊检索方面,我常用的是“晚清与民国期刊全文数据库”(又名全国报刊索引),这个库是上海图书馆做的,依托上图庞大的特色收藏(所收期刊以上图所藏为主,也整合了他馆馆藏)和前期的学术积累(上海图书馆顾廷龙先生主持编过《中国近代期刊篇目汇录》等书,没有晚清民国期刊数据库的时候,这类书是查近现代报刊的必备书),清代和民国的期刊数据当属此库为最全。很多学者的文章就发表在民国报刊上,编辑全集时不一定收集的很全,现在有了这个数据库,可以帮助我们搜集更多的佚文。
3、国家图书馆有“中华古籍资源库”,该数据库以国家图书馆藏书为主题,主要将国家图书馆等中的胶卷转化为电子图像,后期陆续也有大批量的扫描图像,现在逐渐增加中,此数据库内都是古籍图片,只能在线阅览,不能全文检索。该库有很多重要典籍重要版本以及稀见的稿抄校本,能够提供很多有益的学术线索。
4、CADAL数据库,是浙江大学主办的,扫描有大量的古籍和近现代学术著作(约200万册),可以在线阅览。
5、国学数典,这个是古典文献爱好者资源分享社区,既有古籍也有近现代学术著作,也可以在线求书或交流学术发现与学术信息。
part2 校图书馆所购数据库推荐
宓嘉祥:我校图书馆购买了大量电子资源,比如大家经常使用的中国知网、万方数据和爱如生古籍库等等,这之中有没有您认为非常方便好用的,能否向同学们简单介绍、推荐?
李振聚:我们学校购买的数据库,除了上面所列举的外,我认为“读秀”这个数据库值得推荐,这里面有知识栏目,基本可以实现现代学术著作的在线检索,显示的是原书图像,方便核实原文。听出版社编辑们讲,“读秀”对书稿校对引文甚为有用。“中华经典古籍库”也有它的特色,这个库是中华书局牵头,整合多家出版社的古籍整理资源,提供全文检索,都标示有出版物的所在页码。中华书局的标点本《二十四史》、《资治通鉴》、《新编诸子集成》和《古典文学基本丛书》等都在里面。该数据库能够做到文本可靠,属于可检索的数据库里面的精校版。
part3 数据库分类及信息筛选
宓嘉祥:您认为学术资源数据库可以分为哪些类别?同学们在使用数据库的过程中,需要着重对哪些信息、资源有所侧重?
李振聚:古籍方面学术资源数据库大致可以分为三类:
1、古籍全文检索的,诸如爱如生中国基本古籍库、方志库,我们台湾地区与韩国国史编纂委员会合作建设的《明实录》、《清实录》等全文检索数据库之类的都属此类。
2、古籍原文图像的,如国家图书馆的“中华古籍资源库”、日本国立公文书馆、中国台湾地区的“国家图书馆”中的“古籍与特藏文献资源”等等,提供原文图像,一般没有全文检索。像晚清民国期刊数据库,属于既可以全文检索也可以下载原文图像的,我们山东大学档案馆开发了《山东大学学报》数据库,也属于这个性质。
3、专门的数据库,如古籍目录检索方面有:国家古籍保护中心的“古籍普查数据库”、北京大学联合国内外二十多所高校所做的高校藏古文献目录“学苑汲古—高校古文献资源库”、日本的“日本所藏中文古籍数据库”等等。对于调查典籍的版本和存藏情况等,这类数据库非常有用。当然也有其他类别的专门数据库,如“中国古典文献资源导航系统(奎章阁)”里面就整合了很多有用的资源,大家可以浏览,各取所需。
part4 数据库内容检索与获取方法
宓嘉祥:任何工具的使用都有其方法,在使用学术资源数据库时,您一般都采用什么方法来高效、准确地获取自己需要的内容?
李振聚:数据库既不能帮助我们筛选信息,更不能帮助我们判别资料的可信与否。当然限于所选文献的量和检索关键词,我们使用时不一定能将有效信息提取出来。想要高效、准确获取自己需要的内容,当然是建立在对基本文献的较高的熟悉程度上。我认为只有对基本文献熟悉了,才能够用好各种学术资源数据库。对基本文献的不熟悉,会走很多弯路,当然有可能影响我们的最后结论。
每一类文献、每个时期的文献都有他的独特部分,需要深入了解掌握,才能高效、准确获取自己需要内容。换而言之,数据库只是提供一种便捷的检索方式,不能代替读书。我记得有个同学考证清代一本诗集的作者问题,只知道这个人是大概某时期的某县知县,县志也没有记载,数据库无法检索,我建议他去查这个时期的《缙绅全书》,里面果然有这个人,再根据这个人去检索,很多资料也搜集出来了。在这里,《缙绅全书》就很关键,是高效、准确获取信息的重要材料。
part5 如何平衡取用电子资源与纸质资源
宓嘉祥:当下信息技术高度发达,同学们在使用电子资源的时候,有时会出现忽视实体书的情况,您认为我们应如何平衡电子资源和纸质资源的使用?一般在什么情况下、遇到什么问题时,选择使用电子数据库为佳?
李振聚:数据库和纸质书没有不同,使用数据库检索,如同查阅纸质书的索引一样,都是为了一个问题去检阅相关资料。现在所说的重视数据库,忽视纸质书,实际上要表述的是重检阅而轻精读这一问题。只去检阅某种书的某些部分,而忽视对这本书整体的审视,有时候会出问题。比如你检阅时可能材料来源于伪书,时代不对。还有的情况是检索过程中只检索到有利于你的部分,提反对意见的条目被你忽视了,当然没有关键词也检索不出来,得到材料不完备。清初的时候,顾炎武论证反切为什么到唐代称为“翻切”了呢,他举证说是唐代讳言反字,黄侃和殷孟伦师徒二人就举出唐代不讳“反”的很多例子,有不少条目是从顾炎武举证过的书中找来的。顾炎武是个大学问家,读书细密如此,还能出问题,何况我们呢?所以我们使用数据库时更要慎之又慎。
另外,全文检索类数据库,一般重视文字而忽视了文献的形式,比如全文数字化会将古籍中的版式打乱,章句符号、句读等删削,有些重要的内容会丢失。分章离句,在古代读书是基本功。除了不同传本有异文外,一句话怎么读,不同的学术派别会有不同的说法,不是简简单单的标示符号的问题。清代学者如武亿,就为这个问题撰写有《经读考异》《句读叙述》之类的著作,这也是清代学者和藏书家都重视旧本的原因。旧本蕴含的信息多,得到一个旧本,没办法复制怎么办呢?想要尽可能的得到一部宋板书中蕴含的信息,就认认真真的制作一个校宋本出来,将宋板原书的行款、异文、标示符号等等信息,尽可能的标示在另外一个本子上,等于人工复制一个宋本出来。我们全文检索数字化的数据库尽量做到图文对照,也是为了弥补这方面的缺陷。
part6 国外学术数据库推荐
宓嘉祥:最近有很多同学参与了杜泽逊老师的 “日藏项目”,可见我们应该高度重视国外学术成果的学习、使用,您能否据此谈一下国外学术资源的使用问题?
李振聚:国外的文献数字化比国内进行的早,像美国的哈佛大学哈佛燕京图书馆藏中国典籍现在已经全部拍照上网,没有水印(中国大陆地区和台湾地区都喜欢在照片上加上影响阅读的巨大水印,割耳朵供菩萨,出力不讨好),全部采取开放获取的方式向全世界使用者开放,检索、浏览、下载都没有限制,这种才是世界一流大学的气度。当下很多学者在在阅览和研究中国典籍时,很多典籍是利用美国哈佛大学的馆藏。比如哈佛所藏明嘉靖江以达、李元阳所刻《十三经注疏》本的《尚书注疏》(这部《十三经注疏》因刻于福建,学术界称“闽本”。我们学术界所常见到的版本卷端校阅人已经挖改为李元阳或连李元阳一并挖改,就根据版式字体等信息定为“李元阳刻本”。实际这部书为江以达校刻的)是初刻初印本,卷端题衔仍是江以达,还没有挖改为李元阳,这个《尚书注疏》是研究闽本刊刻成书过程的重要材料。当然充分数字化也是保护古籍的手段之一,值得我们山东大学学习。
日本国立公文书馆、东洋大学东洋文化研究所、国立国会图书馆、京都大学人文科学研究所、早稻田大学等机构都有大量的线上资源供在线阅览、下载,图片堪称高清,且没有水印,做的很认真,值得仿效。日本国立公文书馆所藏宋板书基本都可以高清阅览、下载。而我们想看我们自己藏的宋板书,只有“中华再造善本数据库”,这个再造善本,影印时去底灰,一些印刷淡的笔画都给去没了,拿这个版本校勘,容易出问题。如果像日本这样高清原始照片上网,可以弥补很多不足。
欧洲地区,有德国巴伐利亚州立图书馆东亚数字资源库,该库收集的东亚文献资源非常丰富,在线阅览、下载皆可。
使用国外学术资源时,利用谷歌搜索比百度好很多,特别是谷歌图书,能够提供很多有益的线索。
part7 学术研究心得分享
宓嘉祥:谢谢李老师!请问您还有没有什么其他学术研究心得想与同学们分享?
李振聚:学术研究心得谈不上,说几个问题:
第一,电子资源方面,我推荐《网洋撷英》这本书,它简要介绍了一些重要的国内外学术资源,可以按自己的需求参考。网站我推荐“中国古典文献资源导航系统”,该网整合了很多在线的电子资源,分门别类,便于取用。
网址:https://www.kuizhangge.cn。
第二,数据库资源有其固定的范围,不是文献的全部,只能够在你掌握的资料之外予以增补。2012年,有人研究胡适早年的行历,晚清民国期刊库中胡适的《竞业旬报》收录就不全,只有几期,但这已经是整合全国的力量来收录了。其实这部书山东大学历史学院资料就有整套,属于全国独一份的资源。
第三,数据库多多少少都存在一些问题。比如版本问题,“中国基本古籍库”所收阮刻《十三经注疏》,标注的版本是清嘉庆阮元刻本,实际文本则是《文渊阁四库全书》本,是清乾隆武英殿刻本系统(《四库全书》本《十三经注疏》底本用殿本)。他们做数据库袭用《四库全书》已经数据化的文本,改改题名而已,这样省力,但容易误导使用者。所以用的时候要慎之又慎,不要轻信他们的题名,最好复核原书。
第四,中国方志库所据方志多为《中国地方志集成》所用之本,《方志集成》的底本多数来源于国家图书馆。这些方志有些版面漫漶,或者后来刷印,可能有些重要信息认不出来,没办法数字化,使用时最好再寻找一些印本予以校核。比如清代(康熙)《济南府志》,是唐梦赉修的,国内外的藏本基本都是后印漫漶的版本,很多页面完全看不清字,就这样漫漶的本子,国内也没有几套全套的。后来调查到日本国内公文书馆就有一套初印本,页面一点都不模糊,非常清朗,我请在日本的山东大学校友王菲女士帮助济南史志办复制回来了。
最后,希望我们国家各类收藏机构所藏文献都能充分数字化(即高清图片上网),这是世界大潮流,也是学术大潮流。只有这样,才能将沉睡的文献唤醒,才能让优秀传统文化活起来。千里之行,始于足下,我希望我们山东大学能够借鉴世界一流大学——美国哈佛大学的先进经验,将自己的收藏充分数字化,敢为全国之先。
宓嘉祥:好的,谢谢李老师的悉心回答!相信同学们一定会从您的讲解中获益很多。
李振聚:不客气。科研是一项系统工作,同学们在不断探索中会有更多发现,祝大家学业顺利。