CCCF动态 | 大数据知识工程研究进展与发展趋势
本文从基础理论与关键技术等方面介绍了国内外大数据知识工程领域近些年的发展状况,从知识类型、知识范围、处理技术与应用范围等方面总结了大数据知识工程的总体发展趋势。

引言
知识工程(Knowledge Engineering)这一概念是由美国斯坦福大学教授、专家系统之父爱德华·费根鲍姆(Edward A. Feigenbaum)于上世纪70年代在第五届人工智能国际会议上提出的。当时的背景是,人工智能经历了60年代以数理逻辑为代表的符号主义学派的辉煌成就,第一次陷入了低谷。费根鲍姆认为,人工智能陷入低谷的原因在于忽略了的知识重要性,“要增强人工智能程序/系统的性能,知识就是力量。这种力量不在于推理过程,而在于问题领域的专门知识。未来最强大的系统一定是那些包含大量知识的系统”[1]。因此,人工智能必须引进知识。基于这一认识,他提出了知识工程的概念。他认为,从工程角度来说,知识工程主要包括三个方面,即知识获取(如何自动或半自动地获取用于问题求解的重要知识)、知识表示(如何将领域知识表示为计算机内存中便于应用的数据结构)与知识利用(知识如何用于问题求解,其本质在于对推理引擎的设计)。在当时的背景下,知识工程理念很快被人工智能界广泛接受,但其后被赋予大同小异的内涵。比如,维基百科将知识工程定义为“构建、维护和使用基于知识的系统中所涉及的技术、科学和社会的各个方面”[2]。在国内,吴信东和邹燕在1988年出版的《专家系统技术》[3]中指出,知识工程结合了科学、技术和方法论三个方面的因素,研究知识的获取、形式化和计算机实现,用于设计和制造专家系统和其他知识库系统。总体上,知识工程涵盖了知识处理与应用的全生命周期,包括知识的获取、处理、管理、存储、共享、应用和创新。其中,知识获取被广泛认为是知识工程的瓶颈,限制了专家系统和其他人工智能系统的发展。
知识工程的发展大致经历了三个主要阶段。第一阶段(1960s~1970s)是小规模知识工程阶段,也是知识工程研究方向的诞生阶段。这一阶段以费根鲍姆团队于1968年研发出全球第一个专家系统DENDRAL(用于判断物质的分子结构)为标志。知识工程的第二阶段(1980s~2000s)是大规模知识工程。该阶段以1984年道格·莱纳特(Doug Lenat)开发的CYC大型知识库为代表。同一时期,国内的知识工程与专家系统研究得到快速发展。中国科学院院士陆汝钤于20世纪80年代设计并主持开发了知识工程语言TUILI[4],继而主持完成了知识工程平台“'天马’专家系统开发环境”,两项成果在当时得到较大范围的推广应用。
第三阶段(2010s至今),即当前的基于大数据的超大规模知识工程时代。随着大数据时代的到来,知识工程在这一阶段迎来了新的发展机遇。这一阶段,以IBM沃森(Watson)、谷歌知识图谱(Knowledge Graph)、微软Probase、百度知心、搜狗汪仔等为代表的基于公开可访问资源的超大规模知识工程产品,在产业界开始大规模部署和应用。特别是谷歌2012年发布了知识图谱这一项目并将基于大数据的知识图谱用于增强搜索引擎的性能之后,大数据知识工程迅速得到了学术界、工业界甚至是政府部门的高度关注。总体来说,知识工程之所以在大数据时代迎来新的春天,其根本原因在于:一方面,大数据为知识工程积累了海量“原料”,而对大数据进行结构化、知识化是大数据价值落地的重要抓手;另一方面,硬件存储成本的大幅下降与算力的飞速提升,以及机器学习特别是深度学习技术的高速发展,为基于大数据的超大规模知识工程提供了新的机遇。
本文阐述国内外大数据知识工程领域近些年的发展现状,同时展望未来的总体发展趋势。
国内外研究现状
基础理论
关于大数据知识工程的基础理论,以HACE原理、开放知识网络与大知识模型等为代表。
HACE原理由吴信东等人于2014年提出[5],用以建模大数据与大知识的特征。它指出大数据源于海量、异构(Heterogeneous)、自治的(Autonomous)来源,使用分布式、去中心化的控制,寻求探索数据之间复杂的(Complex)、演化的(Evolving)关联关系。这些特征使得从大数据中发现有用知识变得极具挑战。2020年第11届IEEE国际知识图谱大会上,美国德克萨斯大学达拉斯分校教授、ACM会士、IEEE会士巴瓦尼·杜莱辛甘(Bhavani Thuraisingham)在其主题演讲中将HACE 原理评价为大数据特征描述的牛顿定律[6],对其奠基性贡献做了定位。
同样在2014年,王元卓与程学旗等人提出了开放知识网络(OpenKN)[7]的概念。OpenKN是一个基于网络大数据的开放式、可演化、可计算的知识网络。这里,开放是指知识的来源是多元化的,包括来自互联网的非结构化多语言文本数据(如时事新闻等)、半结构化的在线百科知识和数据、机器可读的结构化数据;可演化是指网络可以不断获取最新的知识,进行自我更新,同时可将其他知识网络中的知识转化为标准形式吸纳到自身的知识网络中;可计算是指知识网络本身具有一个可对知识进行推理计算的算子体系,该体系还能对推理计算的复杂度等进行评价。
2018年,陆汝钤与靳小龙等人提出了基于10个MC(Massiveness Characteristics)的大知识模型[8]。这里的“C”同时也代表了大知识10种性质的英文首字母,具体包括概念(Concepts)、连通性(Connectedness)、干净数据资源(Clean data resources)、案例(Cases)、可信(Confidence)、能力(Capabilities)、积累(Cumulativeness)、关注(Concerns),以及一致性(Consistency)和完备性(Completeness)。这10种性质中,前5个MC从一般意义上刻画了大知识,表明大知识是一个大规模的结构化知识元素的集合,其中每个知识元素可以是一个概念、一个实体、一条数据、一个规则或者是其他计算机可操作的信息元素。前5个MC并不同等重要。MC1、MC2和MC5是大知识的必要性质,而MC1~5一起构成了大知识的充分性质。第6项是大知识系统(Big Knowledge-System,BK-S)应具备的性质。一个大知识系统是由知识组件和功能组件组成的系统,其中知识组件满足MC1~5,功能组件实现大规模能力(Massive Capabilities,MC6)。第7、8两个性质反映了高级大知识系统(Advanced BK-S)的特性:MC7表示一个大知识系统应当持续不断地增加和更新其知识元素和服务能力,而MC8意味着高级大知识系统不受限于任何特定的知识领域,它们收集任意类型的知识。因此,这类大知识系统特别适用于搜索引擎以及公共知识的普及。最后两项(一致性和完备性)则提出了对未来大知识系统强大功能的需求。尽管现有的大知识系统不满足这两项属性,但未来的大知识系统都应具备。图1描述了上述10个MC性质与大知识、大知识系统、大知识工程等概念之间的逻辑关系[9]。

关键技术
大数据知识工程通过从大数据中挖掘提炼知识,实现对大数据的深度理解,其中的关键技术包括知识获取、知识融合、知识表示与推理以及知识存储等。
知识获取是大数据知识工程中至关重要的一步,旨在从非结构化的文本语料中获取知识。知识获取按抽取内容的不同可分为实体抽取、关系抽取和事件抽取等。实体抽取旨在从原始语料中自动识别出指定类型的命名实体,具体可以看成待抽取字/词序列上的序列标注任务。近年来,BERT等[10]预训练模型在实体抽取任务上取得了非常好的效果并得到了广泛的关注。关系抽取旨在发现实体之间的语义关联,从方法上来说,关系分类可以分为词典驱动、基于模式匹配、基于机器学习、基于本体方法或多种方法的混合。相对于实体表示的静态知识,事件表示的是涉及多个要素多个关系的动态知识,因此近几年关于事件抽取、事件图谱构建的研究引起了学术界的研究兴趣。事件抽取的目的是抽取文本中指定类型事件的实例,具体可以细分为两个子任务,即事件触发词抽取和事件论元抽取。按照抽取事件是否跨多个句子可以分成句子级事件抽取和篇章级事件抽取。当前主流研究工作集中于句子级别的事件抽取,比如PLMEE[11]将BERT模型运行在事件抽取中,并使用BERT自动生成训练数据;DYGIE++[12]基于BERT预训练模型和图卷积神经网络模型,设计了一种多任务的事件抽取模型。
知识融合的目的是将不同来源的知识进行对齐、合并,从而形成全局统一的知识标识和关联。知识融合包括不同知识图谱的融合,以及知识图谱与从语料中获取的新知识的融合。前者主要涉及实体对齐技术,后者主要涉及实体链接技术。实体对齐的目的是将从不同数据源中抽取到的,指向真实世界中同一个对象的实体指称词或概念进行合并。实体链接指的是利用知识库中的实体对新抽取的实体指称词进行消歧的过程,使实体指称词在已有知识图谱或知识库中找到对应的映射。如果实体指称在知识库中找不到对应的实体,则称其为“NIL实体”。近年来,基于表示学习的实体对齐与链接方法已成为主流。比如,Bayu等人[13]针对跨知识图谱的实体对齐任务,提出并改进了多种基于表示学习的对齐模型。官赛萍等人[14]提出了一种基于自学习和表示学习的无监督实体对齐方法,更好地利用实体的属性信息进行对齐。Creswell等人[15]提出了一种无监督的实体对齐框架。Feng等人[16]则提出了一个简单有效的融合多种语义信息的实体表示方法促进语境共性的学习,从而提升链接的准确性。
知识图谱表示与推理尝试将高维异构的知识图谱数据表示成实体和关系的低维向量嵌入,从而用于下游任务。知识推理是指根据知识图谱中已有知识,推理出新知识或识别知识图谱中的噪音,即知识图谱补全和知识图谱去噪。近年来,使用知识图谱表示学习的方法解决知识推理任务成为了国内外研究的热点。Trouillon等人[17]将知识图谱中的实体和关系投影到复数空间中,将知识表示从实数空间扩展到复数空间,进而通过复数向量计算实现知识推理。官赛萍等人[18]提出了一种共享嵌入的神经网络模型用于知识图谱表示学习,同时考虑知识推理任务中实体预测和关系预测在难度上的差异性对损失函数进行加权。Tay等人[19]提出了自适应的鲁棒转移模型puTransE进行知识图谱实体和关系的表示学习。puTransE模型生成多个表示空间,每个表示空间对应一个采样的关系和先后通过语义感知与结构感知选择机制得到的三元组集合。Dettmers等人[20]将卷积神经网络引入到知识图谱表示学习中,设计了一个参数高效、计算快速的二维卷积神经网络用于图谱的表示学习。Kifv等人[21]在图卷积神经网络的基础上,针对知识图谱设计了一种多关系图消息传播机制进行知识图谱表示学习。Nathani等人[22]用图注意力神经网络对每个实体学习不同关系空间中的向量表达。
发展趋势与挑战
发展趋势
总的来说,大数据知识工程的发展趋势可以概括为以下几个方面:
1.知识类型从静态事实类知识向动态过程类知识延伸
大数据知识工程关注的知识类型从相对静态的事实类知识(知识图谱)向动态的过程类知识(事件图谱、事理图谱)延伸。现有的知识图谱通常以名词性实体为核心,聚焦于实体与实体之间关系的挖掘。而大数据中存在大量事件,事件与事件之间存在多种多样的关联关系,这在当前的知识图谱中较少涉及。常规知识图谱的静态特性满足不了事件数据实时动态更新的需求。这就需要进一步以事件为中心,建立事件之间的相互关联关系,挖掘事件之间的演化规律与模式。这对常识推理和行为模式挖掘等任务都具有重要意义。因此从知识图谱拓展到事件图谱、事理图谱成为未来发展的一大趋势。Glavaš和Šnajder[23]于2015年提出事件图谱——节点代表事件,有向边代表事件之间的关系的有向图。2018年,李忠阳等人提出了事理图谱[24]的概念,用于挖掘和刻画事件之间的演化规律和模式。根据事件图谱与事理图谱的内涵,事理图谱可以看作事件图谱的“本体”,而事件图谱可以看作事理图谱的实例化。对事件实例的抽取和预测是构建事件图谱的基本任务,而事件图谱经过表示、演化和推理可以归结出事理图谱。当前,无论是事件抽取、事件关系抽取,还是事件预测与事件推理,其性能都还难以达到实际应用的标准。因此,对事件/事理图谱的深入研究与探索是未来几年的重点发展趋势。
2.知识范畴从单一的领域或通用知识向领域+通用知识转变
领域知识覆盖面窄、体量小,往往以人工构建方式为主,精度高;而通用知识覆盖面宽、体量大,往往通过自动化抽取的方式构建,精度低。在实际应用中,单一的领域知识无法满足对知识量的需求,而单一通用知识无法满足精度标准。为此,领域知识和通用知识的结合是重要的发展趋势。一方面,领域知识可以辅助发现和修正通用知识中的错误;另一方面,通用知识为领域知识提供补充。在具体应用中二者相结合,互为补充。
3.数据类型从文本数据向多模态数据扩展
在海量大数据中,文本数据只占了一部分,还有大量的图片、视频、音频等非文本数据。这些数据包含了大量信息,是文本数据的重要补充。利用这些多模态数据,将构建更为丰富的知识图谱,为上层应用提供有利的基础支撑。近年来,有少量引入图片数据的工作。未来,数据多模态知识图谱的构建工作,即除了文本数据、图片数据,将视频和音频等数据也引入知识图谱构建,将是重要的发展趋势。
4.知识处理方法从机器学习向机器学习与逻辑规则相结合演进
纯粹基于机器学习的方法通常在向量空间中对知识建模,学习知识的低维向量表示,知识工程特别是知识推理、知识计算任务被转化为简单向量操作,可计算性强。因此,基于机器学习的方法便于批量计算。然而,机器学习模型通常是个难以解释的“黑盒子”。逻辑规则方法的每一步都有据可循,可解释性强。当逻辑规则正确时,准确率高,但需要逐个处理数据,难以批量化,可计算性比较差。机器学习与逻辑规则的结合,优势互补,使得知识工程更加实用,同时也提高了计算的可解释性。目前,这方面已经有了一些研究工作。比如,神经定理证明器(NTPs)[25]以及由其扩展而来的条件定理证明器(CTPs)[26]与贪心神经定理证明器(GNTPs)[27]在融合连续向量空间中的机器学习模型与离散空间的逻辑规则方面进行了尝试。然而,针对机器学习与逻辑规则相结合的探索还有很大的空间,未来将其应用到大数据知识工程的各项关键技术中将是很有前景的研究。
5.知识工程应用从典型场景向广泛领域拓宽
2012年谷歌最早提出知识图谱的概念,从大数据中提取有用的知识,这是大数据知识工程的重要一步。随后,少数几个行业(例如垂直搜索与智能问答)对大数据知识工程关注较多。当前,越来越多的行业试图用好大数据带来的红利,几乎每个行业甚至每个企业都在构建自己的知识图谱。总体上,大数据知识工程在医疗诊断、电商推荐、金融决策、异常检测、机器翻译等行业已经展示出很好的应用前景。
挑战问题
大数据知识工程在不断发展的过程中也带来了很多的技术挑战和问题,未来大数据知识工程需要关注以下主要问题:
1.知识获取的小样本学习问题
现有知识工程涉及的模型往往需要大量高质量的样本进行训练,需要耗费很大的代价去获取训练样本。在实际应用中,难以获得大量训练样本,极大限制了现有知识处理模型的应用范围。与这些模型不同,人类往往凭借少量样本再加上相关经验知识就能快速进行学习推理。在此过程中,大脑感知外部环境,对感兴趣或待学习的信息保持关注,并通过与已有先验知识的结合快速建立起新的知识,而后,经过神经元的加工整理形成难以被遗忘的长时记忆。由此,每个人不断地从生活经验中建立并整合知识,从而学会处理日益复杂的任务。在持续不断的学习过程中,对以往的知识进行检索利用,使得人们只需要少量的训练就能快速地学会新的任务。为此,基于小样本学习的大数据知识工程将成为未来的重要研究方向,即如何模拟人脑,以已建立的公开高质量知识图谱(如YAGO、Freebase和NELL)等为先验,通过少量样本进行学习,快速高效地获取新的知识。
2.常识的自动获取与推理问题
目前,各界已经积累了不少通用的知识图谱,但通用知识不同于最基本的常识,而且自动获取的这些知识的准确率往往无法满足实际深度应用的需求。实际上,常识是对事物普遍存在的普遍共识。常识能使模型更加智能,能够辅助错误知识的快速修正。从大数据中总结归纳并自动学习海量、高精度的常识,进一步实现智能推理,是大数据知识工程能够深度应用的关键前提。
3.知识工程的可解释性问题
现有大数据知识工程往往关注模型性能的提升,较少关注可解释性问题。大数据知识工程需要借助表示学习等方法,将机器学习与逻辑规则相融合,实现从计算智能和感知智能到认知智能的提升。关于认知智能的研究目前还处于初级阶段[28,29],未来需要进一步实现认知智能的落地应用,实现基于知识图谱的可解释人工智能。
(参考文献略)
吴信东
明略科技集团首席科学家,明略科学院院长。“大数据知识工程”教育部重点实验室(合肥工业大学)主任。IEEE/AAAS Fellow。主要研究方向为数据挖掘、知识工程和大数据分析。xwu@hfut.edu.cn
靳小龙
CCF高级会员、大数据专家委员会副秘书长。中国科学院计算技术研究所研究员。中国科学院大学岗位教授。主要研究方向为知识工程、知识图谱、大数据分析。jinxiaolong@ict.ac.cn
陈欢欢
CCF专业会员、计算机视觉专委会委员。中国科学技术大学计算机学院教授。主要研究方向为大知识工程、机器学习、数据挖掘、演化计算等。hchen@ustc.edu.cn
