海外古籍数字化回归,上手试了试古籍落地平台…
【文/观察者网 张照栋】
近日,一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落地阿里达摩院开发的“汉典重光”古籍数字化平台。据悉,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过汉典重光平台翻阅、检索古籍。
海外古籍数字化回归的消息,让一众网友拍手叫好;但对于阿里达摩院开发的“汉典重光”古籍数字化平台,网友们却态度不一……
5月18日下午,中国海外古籍“数字化回归”项目“汉典重光”平台在北京中国科技馆正式发布,通过先进的人工智能(AI)技术,一批珍藏于美国加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落地“汉典重光”古籍数字化平台。
首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本,如宋刻本《後村居士集》、北宋《金粟山大藏经》写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有命运多舛的清文澜阁《四库全书》零本等,很多都是消失多年后重回公众视线的珍本。
文澜阁版《宋百家诗存》(卷七)
海外古籍数字化回归的消息,让一众网友拍手叫好。
承担此次海外书籍数字化回归任务,由阿里达摩院开发的“汉典重光”古籍数字化平台,也受到关注。
根据微信公众号“达摩院DAMO”介绍,古籍数字化完整流程主要分为采集侧、数字化生产侧、和应用测三个环节。采集侧主要是将纸质书变为电子扫描版,数字化生产侧时间电子扫描版变为文字版,应用侧则是将文字版变为古籍研学系统,涵盖检索、字典、知识图谱等功能。
此次首批海外古籍数字化回归的工程的分工十分明确,采集侧由加州大学伯克利分校东亚图书馆分校完成,而阿里达摩院和四川大学共同完成另外两个步骤。
为了将伯克利提供古籍的扫描图片和编目数据全部文字化,达摩院技术团队与四川大学专家联手研发了一套可以边识别古籍、边训练模型的全新AI古籍识别系统,以97.5%的准确率完成了对20万页古籍的整体识别,并沉淀为覆盖3万多字的古籍字典,比起专家录入,这套人机交互的识别系统将效率提升了近30倍。
此次承接海外古籍数字化回归的“汉典重光”古籍数字化平台,运用的正是这套系统。
笔者登录“汉典重光”古籍数字化平台,在检索栏输入最近引发讨论的“刺史”二字,该平台所收录的古籍中,所有出现“刺史”二字的书籍一一呈现,并且精确到具体页面。
点击搜索结果,就会进入相应的古籍页面,而出现“刺史”二字的地方,也会用半透明蓝框标出。
截图自“汉典重光”古籍数字化平台
但除了关键字检索功能,以及可以将古籍图片最大放大至3倍的功能外,“汉典重光”并无其他功能。
古籍《庄子通》放大3倍后 的《逍遥游》片段 截图自“汉典重光”古籍数字化平台
不少网友在“汉典重光”古籍数字平台上体验过后,纷纷点赞。
“效果比想象中的好,支持缩放和关键字搜索……”
但也有网友的体验效果并不是很好。
“一股塑料质感…”
“部分书籍需要放大多倍才能阅读,更不用说有些批注与背面的批注重叠导致识别困难。”
“别的图书馆古籍扫描,可以下载文件到本地,它这只能在线阅读,体验还极差。”
除了体验效果外,还有网友还认为许多国外图书馆都已经开放相关资源,这件事技术含量不高。这件事的重点不在海外,而在国内,国内图书馆对中国古籍善本资源的开放做得很差。
“国外很多藏书机构已自行公布高清资源,这件事技术含量不大……中国古籍善本的资源公开做得最差、系统差、图像渣,浏览体验也最差。”
“很多海外的文献本身即是开放的……与其攻关海外,倒不如先让国内的图书馆开放自己的古籍资源来的实在。”
“说真相真的很尴尬!在国内看古籍文献真的很难,很多时候还要看身份……”
也有网友表示,“汉典重光”古籍数字化平台将流散海外各处的书籍集中一处,便于国人检索,与国内古籍网络化并不矛盾。
随即有网友反驳道:“没有针对普通读者的配套导引,也没大意义,重点不在所谓的海外古籍网络回归,而在于用户体验。”