流散海外20万页中文古籍“数字化回归”
离家百年、去国万里,它们回来了。一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化方式回归故土。首批数字化的20万页古籍中,包含40余种珍贵宋元刻本、写本,如宋刻本《後村居士集》、北宋《金粟山大藏经》写本;明清至民国时期著名学者钱谦益、翁方纲、王韬的抄本、稿本;著名藏书楼嘉业堂、密韵楼的抄本,还有命运多舛的清文澜阁《四库全书》零本等,很多都是消失多年后重回公众视线的珍本。
这一“数字化回归”的背后,是古籍保护曾经面临的诸多痛点。因邦交、贸易、战乱等,历史上中国古籍时有出海,近代以来,战争和动荡更加剧了古籍的损毁和流散。据不完全估计,散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。
同时由于古汉语常用字仅有几千,但中国古籍全部字符约有几十万,绝大部分没被现代字库收录,不仅很难找到众多识得古籍文字的专家来开展浩繁的人工录入和检校工程,也几乎找不到样本供AI学习。面对海量无标注的数据,如何让AI快速批量识别古籍,始终是古籍数字化领域的技术瓶颈。
70岁的中央文史馆馆员、四川大学教授陈力花费两年时间,奔走联系加州大学伯克利分校,让收藏于伯克利东亚图书馆的中文古籍善本通过达摩院AI技术回归故土。
文澜阁版《宋百家诗存》(卷七)
这套全新的古籍识别系统利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统,以97.5%的准确率完成对20万页古籍的整体识别。比起专家录入,这套人机交互的识别系统将效率提升了近30倍。据悉,这套技术工具连同古籍数字化平台将一并捐赠交由权威公共机构长期运营。
与古籍打了一辈子交道的陈力说,典籍是中华文明的传承载体,更是人类世界的公共财产,希望有更多力量参与中国古籍的保护和传承,让更多普通人有机会接触古籍、使用古籍,让所有蒙尘的古籍重焕新生,让书写在古籍里的文字活起来。
附:
“汉典重光”首批数字化古籍重要书目一览
1、周易兼义九卷(魏)王弼(晋)韩康伯注(唐)孔颖达疏 元刻本
2、易附记十六卷[存卷一至十一]书附记十四卷诗附记十卷[存卷一至七]礼记附记囗卷[存卷四至六]春秋附记[缺卷七、九](清)翁方纲撰 稿本,嘉业堂藏书
3、五代史阙文一卷(宋)王禹偁撰 清乾隆南昌彭氏知圣道斋抄本,清彭元瑞跋,嘉业堂藏书
4、瀛壖杂志一卷(清)王韬撰 稿本 清魏彦、左桂、孙瀜、赵烈文题记
5、金石古文八卷(题)双华山人乔辑 清周亮工抄本 清吴骞跋
6、居业录八卷[存卷三至四](明)胡居仁撰 清乾隆文澜阁四库全书本,嘉业堂藏书
7、学思录一卷(封面题东塾存稿)(清)陈澧撰 稿本
8、丙丁龟鉴十卷(宋)柴望撰 天一阁抄本
9、新刊履斋示儿编二十三卷(宋)孙奕撰 明抄本,天一阁、嘉业堂递藏
10、蓬轩类记四卷(明)黄暐撰 明抄本 柯逢时校,汪氏振绮堂、刘氏嘉业堂递藏
11、大般若波罗蜜多经[存卷第二百五十四] 北宋写金栗山广惠禅院大藏本
12、苏文忠公文集[存一叶](宋)苏轼撰 宋四川眉山刻本
13、淮海集四十卷淮海后集六卷(宋)秦观撰 宋乾道九年高邮军学刻宋元明递修本,嘉业堂藏书
14、傅忠肃公文集三卷(宋)傅察撰 清初经鉏堂抄本,曹溶旧藏
15、鹤山先生大全文集一百十卷目录二卷[存卷一至九、九六、九十九至一百零三、一百九十](宋)魏了翁撰 民国蒋汝藻影宋抄本,密韵楼藏书
16、後村居士集五十卷目录二卷[卷四十六至五十缪荃孙抄配](宋)刘克庄撰 宋刻本,嘉业堂藏书
17、林子真诗一卷(明)林光宇撰 明曹学佺辑 明崇祯韩锡抄本
18、茗柯文编囗编囗卷[存初编一卷三编一卷四编一卷未编稿一卷](清)张惠言撰 稿本 清范当世、近人叶恭绰跋,嘉业堂藏书
19、宋百家诗存四十卷[存卷七](清)曹廷栋辑 清文澜阁四库全书本
20、西清诗话三卷(题)无为子撰 明抄本,嘉业堂藏书
21、拜经楼诗话续编二卷(清)吴骞撰 稿本,嘉业堂藏书
22、玉茗新词四种(明)汤显祖撰 明万历四十六年雕虫馆刻本
(光明日报全媒体记者 孙小婷)