走进国内图像数据库

文 / 孙 嘉


内容摘要:本文考察了国内图像数据库的发展情况,包括美术类院校数据库、非艺术类高校数据库、博物馆数字资源、公立图书馆数据库以及专门的图像数据库,列举了各类型图像数据库的代表,并呈现其建设情况。在此基础上,对国内数据库的发展趋势和存在问题做出总结:基于文本的图像检索是美术作品数据库的主流方式;检索功能较为简单;资源库之间缺乏联动;部分数据库的信息和界面老旧,访问量小。

关键词:图像数据库 高校 博物馆 艺术网站 数字资源

一、目前我国图像数据库发展情况

考察国内数据库发展情况,可从美术院校、非艺术类高校、博物馆、公立图书馆、艺术网站,以及专门的图像数据库几种类型入手:

1. 美术院校美术类图像数据库建设较多

各大美院通常拥有较多针对自身收藏建立的美术类资源库,而其他类型数据库较少,多为购置的外部数据库。例如,中国美术学院图书馆特色资源“美术作品资源库”收录了十万余件美术图像,涵盖国画、油画、书法、篆刻、壁画、陶瓷、金石等艺术门类,截至文章写作时访问量已超六十万次。国画子库下的山水、人物、花鸟、综合四个库还会按工笔、写意、兼工带写3种风格分类。除可以按照作者、作品名、创作年代、作品编号搜索,还设置了关键词搜索,但尝试输入诸如山水、花鸟、梅兰竹菊等中国画经常出现的母题后,都未能搜索成功,说明这一关键词搜索的功能还需进一步完善。

天津美术学院图书馆“四万张精品素材”将4万张图片分为人文艺术、自然界、世界各地、人物和其他五大类。四川美术学院和广州美术学院等院校的图书馆充分利用地域资源优势,建成了具有地方特色的数据库。如广州美术学院的“岭南美术数字资源共享平台”“岭南画派纪念馆馆藏作品专题数据库”以及四川美术学院“西南美术数字信息平台”。

2. 非艺术类院校中,行业特点较为突出的院校图像数据库建设较多

美术史研究不仅依赖经典美术图像,更是需要广泛的历史、自然、地理等社会生活资源。非艺术类高校自建美术类藏品数据库较少,而地域文化和具有专业特色的图像库较多,其次是人物图像库和历史记忆类图像库。

能反映地区特色的图像数据库成为许多高校图书馆的选择,如东北师范大学图书馆“东北文献图片库”等。行业特点明显的图像数据库建设比例更高,如东北林业大学图书馆“中国珍稀植物图片库”“濒危和保护动物图片库”等。历史记忆类则意在保存高校和所处地区的文化历史,如海南大学图书馆“海南记忆网”、北京邮电大学图书馆“北邮记忆数据库”等。

3. 博物馆的图像资源库展示效果更好

博物馆与高校不同,除面向学术研究外,更具有展示、展览和公共教育的职能。所以许多博物馆的图像资源视觉效果更佳,并且相比精确搜索,通常更加注重分类浏览和相关推荐,便于使用者在网络上能像置身博物馆之中,对馆藏作品进行整体浏览,建立作品之间的联系。

对于敦煌石窟和壁画这类在自然条件中保存难度较高的文物,建立数字化资源是重要举措。敦煌研究院建立的“数字敦煌”网站对敦煌石窟和相关文物进行了全方面的数字化采集、加工和存储,将30个经典洞窟以300DPI的采集精度呈现给观众,还可以用3D眼镜进行全景漫游。“数字敦煌”既有注重原始环境的洞窟展示,也有经典壁画的单独高清呈现。而在洞窟整体展示中,内容导航是一个亮点。以254窟为例,通过内容导航可以直接进入主室的东壁、南壁、西壁、北壁,中心柱、平棋顶以及甬道。

故宫博物院在图像资源数字化领域一直有着不错的表现,早在2019年便曾一次性推出了“数字文物库”“故宫名画记”“数字多宝阁”等7款数字产品。2021年,故宫博物院上线了新版“故宫博物院藏品总目”数据库,基于2004年至2010年故宫博物院第5次藏品清理工作的重要成果之一——《故宫博物院藏品总目》建成,展示了25个大类超过一百八十万件藏品,陶瓷为其中数量最多者。收录作品有较为详尽的文字信息与相关推荐,部分作品可以直接跳转到“故宫名画记”,供用户查看更为高清的图像和更详尽的介绍。

其他博物馆也多有相似的网络图像资源建设。中国国家博物馆对部分藏品进行了数字化展示,第一期上线藏品数据251523条306447件,第二期在第一期的基础上公布藏品475931件。但该网站更多的是名录性质,图片无法放大查看。浙江美术馆官网共有作品记录3445件,分为绘画、书法、篆刻、摄影、现代装置、民间美术等,每个类目下又做了更细致的进一步区分。另外,像首都博物馆、上海博物馆、陕西历史博物馆、天津博物馆、苏州博物馆等也都有呈现图像资源的网络展厅。

除了各大博物馆自建的数字资源库外,也有一些集群式的数字博物馆平台,如集合全国一千八百余家博物馆数据资源的“博物中国”,以及苏州市“文物资源大数据平台”、北京市“博物馆大数据平台”、江西省“博物江西”等。但这类平台可能由于建设时间较短,存在着资源收录不齐全的问题,部分博物馆只收录了寥寥几幅作品,有些甚至一片空白。

“数字敦煌”网站敦煌莫高窟254窟展示界面

4. 公立图书馆的图像资源类型更为丰富

公立图书馆通常较少专门的美术类数据库,但依托馆藏资源优势和地区优势,能够呈现类型更为丰富的图像资源。

中国国家图书馆·中国国家数字图书馆“古籍资源库”中收录“前尘旧影”(国家图书馆收藏的新旧照片七千余种、十万余张)、“甲骨世界”“碑帖菁华”“年画撷英”等,皆基于国家图书馆强大的馆藏基础;首都图书馆建有历史文化资源性网站“北京记忆”,以其近百年馆藏为依托,其中的图像资源有以老照片为主的“旧京图典”、以金石拓片为主的“燕都金石”、以历史地图为主的“京城舆图”,另外还有从馆藏古籍文献中选取了一万余条古籍插图数据的“古籍插图库”;上海图书馆“图述百年——中国近代文献图库”(1833—1949)依据上海图书馆的中国近代图书、期刊、报纸、老照片等重要文献中的图片进行挖掘和展示,收入图片总量超过一百万幅;成都图书馆耗时3年自建的“老成都影像馆数据库”收录两千五百余张珍贵的成都老照片;南京图书馆于2011年完成了“中国近代文献图像数据库”自建项目,包含了1个综合库和8个专题库,涵盖了民国时期出版的图片资料;浙江图书馆“中国历代人物图像数据库”共有人物5928位,“中国历代人物印鉴数据库”包括图像35565幅,“中国寺庙祠观造像数据库”则包括像主1330位以及图像13456幅。

通过以上几个公立图书馆的举例可以看到,大型公立图书馆自身具有多方面的、大体量的馆藏资源,据此建立的图像数据库能涵盖社会生活的多个面向,广泛适用于人文学科研究中的多学科需要。但也正是由于资源量大,致使数据库在图像的分类和组织上不够系统、明确,造成基本检索功能失效,更难以完成高级检索。

5. 艺术网站除图像资源外,文字信息也更加充分

许多艺术网站除收录艺术作品外,更注重呈现美术史知识、艺术资讯等,趋于形成供用户进行艺术学习的平台。例如“Artlib世界艺术鉴赏库”便是一个科普类、大型通史式的资源库,集艺术文献、艺术图片和艺术资讯于一体。“艺术品”板块涵盖十六万余件高清经典美术作品,可按题名、作者、简介检索,支持高清图下载。另外,所有图片按照类型、时间和流派做了详尽分类,共31种类型、二百余种流派,并做出了详细的时间轴,具有艺术百科性质。除“艺术品”板块外,该网站还有“艺术普及”栏目和六千余条“艺术故事”,“艺术故事”包括经典、大师、云展、解读、艺展和史论类目,其中甚至还有“八卦”分类,文章题目和行文风格较为活泼,图片质量不是特别高,以文字表述为主。

由文物出版社与易拍全球研究院联合发布的“艺拍指数”网站主要内容为艺术品市场的各类价格指数,同时收录了近七万名艺术家、超过六千万条的艺术品图片,可以检索、查看比较清晰但加有水印的图片。

“中华珍宝馆”有网页版及APP版,收录高清文物图片数十万幅,目前已上线近十万幅,且在持续更新。该网站对展示文物标注了“特级—超实物”“一级—如观实物”“二级—超高清”等质量分类,大多数文物有数千至数万次左右的观看记录。

6. 专门的图像数据库资源量较大,但国内这类数据库目前数量不多

整体来看,国内专业的图像数据库相较高校和图书馆自建、博物馆数字资源等数据库具有一定优势,体现在资源体量和检索方式的专业性上,目前这一类型数据库并不多,但被多所高校和图书馆机构采购,因此使用量较为可观。

“Artbase雅昌艺术教育课堂”(原中国艺术品图片库)以数据库方式收录了中国古代、近现代和当代艺术品信息资源、高质量图片数据以及艺术家信息。该数据库中国画分类较为详细,其中还有政治历史、民情风俗、神话传说、清供、小品画、抽象等在其他数据库不常见的分类条目。然而并不是所有条目下都有资源,比如中国画中的卡通条目、玉石珠宝中的抽象及卡通条目,古董珍玩中的鱼虫条目等下面便是空白。

“全国报刊索引”中的“近代期刊图片数据库”汲取了两万五千余种近代期刊中的图片。具体使用中,举例来说,键入“洛神赋”字样,共出现5个检索结果,分别来自《艺林旬刊》(1929年第64期)、《图画日报》(1910年第374期)、《妇女杂志(上海)》(1916年第2卷第1期,两幅)以及《歌谣周刊》1925 年第83期。每幅图附有所属正文篇名以及图片的尺寸、大小、像素,并有相关图片推荐。

“中华数字书苑”与多家出版社及报社合作,收录了大量正版数字资源,其中“中国艺术博物馆图片数据库”包含18个分馆,236个子馆,35万幅艺术类、设计类、建筑类等高清图片,图片分类细致,支持多种浏览方式,可下载原图。

“全国报刊索引”的“近代期刊图片数据库”网站,当键入“洛神赋”后出现的检索结果

二、国内图像数据库趋势和问题总结

1. 检索功能较为简单

目前国内各图像数据库基本都拥有对作品名称、作者姓名、馆藏地等的简单检索功能,但对检索词的智能化处理程度不高,缺少检索词联想功能,也没有进一步扩展检索词的同义词和下位词。同时,国内图像库大多仅支持中文检索,当然这与国内机构收藏作品多为中国的内容有关,但跨语言检索仍然是未来图像库建设需要面对的问题。

2. 基于文本的图像检索是美术作品数据库的主流方式

目前常用的图像检索技术一种是基于文本的图像检索(Text-Based Image Retrieval),一种是基于内容的图像检索(Content-Based Image Retrieval)。

在美术领域应用较多的是基于文本的图像检索,将美术图像人工描述、标记为一系列关键词语,如作品名、作者名、流派、年代、风格等,适合搜索信息较为明确的经典美术作品。该检索方式产生时间较早,但需要依赖人工标注,工作量较大,并且一旦检索的词语不准确,就容易检索失败。另外,对于像民间美术这样作品名和作者名不甚明确的艺术类型,则往往检索效果不佳,目前许多图像库对于年画、剪纸等作品的分类和信息描述都不尽如人意。

基于内容的图像检索利用特定的算法提取图像本身的颜色、形状、纹理等信息,人工参与的主观性有所降低,这种方式通常运用于图像素材网站,如“图虫创意”以及谷歌、百度等搜索引擎,但对美术作品来说未必合适。我们通常很难用颜色、形状等特征框定诸如山水画、油画这样的作品,因为底层的、基础的视觉信息和美术作品更高层的内涵意义之间存在较大差异。

事实上,不管是基于文本还是基于内容,都是以关键字词的文字描述进行检索和相似度匹配,完成图像至文本的映射。除这两种方式外,以图搜图的技术目前也已发展得比较完备,一些专门的图片检索网站,如搜狗图片搜索、有道图片搜索等,又如百度大脑AI开放平台中的图像技术不仅有相同和相似图片搜索,也能进行多重图像识别,如识别图像中的植物信息、红酒、商店、地标等等。但这类技术在艺术类资源库方面还鲜有运用,当然这与资源库覆盖的图像资源量也有关。

“故宫博物院藏品总目”网站主页

3. 资源库之间缺乏联动

目前国内各资源库之间的联动是明显不够的,不仅不同机构的资源数据共享程度较低,同一机构的数据库往往也各自为政,甚至同一数据库的各个子库之间都无法跨库搜索。用户在使用图像时,常常要在不同数据库之间跳转,难免有割裂之感。目前国内仅有少数数据库支持跨库检索,如中国美院“美术作品资源库”中每个子库既是一个独立的数字化项目,又相互关联,用户既可以在指定子库中查询,也可跨库检索。

4. 部分数据库的信息和界面老旧,访问量小

从目前的情况来看,许多高校和公立图书馆的数据库界面老旧,设计思路还停留在多年前,不符合今天的网络使用习惯,且页面常常无法成功打开,或加载时间过长。而博物馆和艺术网站在这方面做得更好,如“数字故宫”和“数字敦煌”都有大尺幅的高清背景图,网页设计吸引人,载入速度快,各功能运行流畅。

许多数据库在建成后缺乏宣传,导致长期无人问津。然而数据库的维护和更新是一项长期且艰巨的工作,数据库建成后,不仅机构需要不断地对其进行维护和更新,用户的使用其实也是某种意义上的维护,在使用中发现问题,做出反馈。因此,数据库的建设和运用,是一体两面的事情,两方面需一起进步。

孙嘉 中国艺术研究院博士研究生

(本文原载《美术观察》2021年第4期)

(0)

相关推荐