知识图谱简介 / 四六文摘

本文根据幕布上这篇思维导图总结而得无需AI基础，小白也能看懂的知识图谱技术与应用
对知识图谱了解还不多，后续会跟进。。。

一、什么是知识图谱？

定义

学术上：语义网络（Semantic Network）的知识库
应用中：多关系图（Multi-relational Graph）

什么叫多关系图？

图：由节点和边构成，通常只包含一种类型的节点和边
多关系图：包含多种类型的节点和多种类型的边

图与多关系图的区别

知识图谱中的节点和边

节点：

通常用实体（Entity）来表达
实体：现实世界中的事物

边

通常用关系（Relation）来表达
关系：不同实体之间的某种联系
[图片上传失败...(image-ffd958-1534511439797)]

二、知识图谱的表达

属性图（Property Graph）

运用前提：当知识图拥有属性时
运用场景：工业界
[图片上传失败...(image-b7b9b9-1534511439797)]
图片概述：李明李飞是父子关系，李明拥有138开头的电话号，开通时间是2018
电话号属性：2018年开通
李明属性：25岁、职位总经理

RDF（资源描述框架）

运用前提：不支持实体或关系拥有属性
运用场景：学术界

三、知识抽取

数据主要来自2种渠道

业务本身的数据

包含在公司内的数据库表
以结构化的方式存储
只需简单预处理即可输入后续AI系统

网络公开、抓取的数据

以网页形式存在
属于非结构化数据
需要借助自然语言处理等技术提取结构化信息

处理非结构化数据涉及的自然语言处理技术

实体命名识别（Name Entity Recognition）

从文本里提取出实体
对每个实体做分类/打标签
[图片上传失败...(image-c1bd24-1534511439797)]

关系抽取（Relation Extraction）

把实体间的关系从文本中提取出来
[图片上传失败...(image-df8184-1534511439797)]

实体统一（Entity Resolution）

有些实体写法不一样，但指向同一个实体
合并实体，减少种类，降低图谱稀疏性

指代消解（Coreference Resolution）

分清文中出现的代词到底指向哪个实体
[图片上传失败...(image-772b6-1534511439797)]

四、知识图谱的存储

基于RDF的存储

以三元组的方式来存储数据
不包含属性信息
数据易发布、易共享
多用于学术界场景
推荐使用：Jena

基于图数据库的存储

以属性图为基本的表示形式
节点和关系可以带有属性
高效的图查询和搜索
多用于工业界场景
推荐使用：Neo4j

五、金融知识图谱的搭建

搭建的核心：

对业务的理解
知识图谱本身的设计

搭建步骤：

定义具体的业务问题
数据的收集和预处理
知识图谱的设计
把数据存入知识图谱
上层应用的开发，以及系统的评估

1. 定义具体的业务问题

哪种业务问题适合用知识图谱？

有强烈的可视化需求
经常涉及到关系的深度搜索
对关系查询效率有实时性要求
数据多样化，解决数据孤岛问题
有能力、有成本搭建系统

哪种业务问题适合用传统数据库？

对可视化需求不高
很少涉及关系的深度搜索
关系查询效率要求不高
数据缺乏多样性
暂时没有人力或成本不够

案例需要解决的业务问题

P2P网贷环境下的反欺诈风控

2. 数据的收集 & 预处理

确定数据源:

用户的基本信息

大多存储在业务表里，可直接提取使用: 如姓名、年龄、学历等
个别字段需要进一步处理: 同一实体如用不同名称填写，则需要对齐

用户行为数据

需要通过简单的处理，提取有效的信息: 如：“用户在某个页面停留时长”

运营商数据
网络上的公开信息

需要信息抽取相关技术

3. 知识图谱的设计

常见问题
需要哪些实体、关系和属性？
哪些属性可以做为实体，哪些实体可以作为属性？
哪些信息不需要放在知识图谱中？
设计知识图谱BAFE原则
Business-业务原则
从业务逻辑出发

观察知识图谱可以推导出业务逻辑
设计时想好未来业务可能的变化

Analytics-分析原则
与关系分析无关的实体不放进图谱
Efficiency-效率原则

常用信息放进知识图谱
对分析没有太多作用的不放进图谱
访问效率低的不放进图谱

Redundancy-冗余原则
重复性信息、高频信息可放入传统数据库

4. 把数据存入知识图谱

10亿节点以下规模的图谱
使用Neo4j
超过10亿节点的庞大数据量

选择支持准分布式的系统（OrientDB, JanusGraph）
通过效率、冗余原则把信息存放在传统数据库中，减少知识图谱信息量

5. 上层应用的开发，以及系统的评估

基于规则的方法论

不一致性验证

通过规则找出潜在的矛盾点
如：李明、李飞注明同样的公司电话，但两人公司数据不一致

不一致性验证

基于规则提取特征

特征一般基于深度的搜索
如：申请人二度关系里有多少个实体触碰了黑名单？

[图片上传失败...(image-13d414-1534511439797)]

基于模式的判断

适用于找出团体欺诈
核心在于通过一些模式找到有可能存在风险的团体或者子图（sub-graph），然后对这部分子图做进一步的分析
如：三个实体共享很多信息，可看做为团体并进一步分析

多点共享信息

基于概率的方法

社区挖掘：从数据图中找出一些社区，进行进一步分析
标签传播：核心在于节点之间信息的传递
基于概率的方法的缺点：需要足够多的数据

基于动态网络的分析

聚焦时间变化与风险之间的关联
如：从T到T+1时刻的图谱结构变化，暗示着潜在风险

图谱结构变化

六、知识图谱在其他行业的应用

教育行业

依据交互、评测、互动数据，理解学生当前的知识体系
根据逻辑进行个性化教育、因材施教

证券行业

最为常见：“一个事件发生了，对哪些公司产生什么样的影响？”
如：公司1高管的负面事件，对其他公司的影响

高管负面事件

知识图谱简介