知识图谱简介

本文根据幕布上这篇思维导图总结而得无需AI基础,小白也能看懂的知识图谱技术与应用
对知识图谱了解还不多,后续会跟进。。。

一、什么是知识图谱?

定义

学术上:语义网络(Semantic Network)的知识库
应用中:多关系图(Multi-relational Graph)

什么叫多关系图?

图:由节点和边构成,通常只包含一种类型的节点和边
多关系图:包含多种类型的节点和多种类型的边

图与多关系图的区别

知识图谱中的节点和边

节点

  • 通常用实体(Entity)来表达

  • 实体:现实世界中的事物

  • 通常用关系(Relation)来表达

  • 关系:不同实体之间的某种联系
    [图片上传失败...(image-ffd958-1534511439797)]

二、知识图谱的表达

属性图(Property Graph)

运用前提:当知识图拥有属性时
运用场景:工业界
[图片上传失败...(image-b7b9b9-1534511439797)]
图片概述:李明李飞是父子关系,李明拥有138开头的电话号,开通时间是2018
电话号属性:2018年开通
李明属性:25岁、职位总经理

RDF(资源描述框架)

运用前提:不支持实体或关系拥有属性
运用场景:学术界

三、知识抽取

数据主要来自2种渠道

  1. 业务本身的数据

    • 包含在公司内的数据库表

    • 以结构化的方式存储

    • 只需简单预处理即可输入后续AI系统

  2. 网络公开、抓取的数据

    • 以网页形式存在

    • 属于非结构化数据

    • 需要借助自然语言处理等技术提取结构化信息

处理非结构化数据涉及的自然语言处理技术

  • 实体命名识别(Name Entity Recognition)

    • 从文本里提取出实体

    • 对每个实体做分类/打标签
      [图片上传失败...(image-c1bd24-1534511439797)]

  • 关系抽取(Relation Extraction)

    • 把实体间的关系从文本中提取出来
      [图片上传失败...(image-df8184-1534511439797)]

  • 实体统一(Entity Resolution)

    • 有些实体写法不一样,但指向同一个实体

    • 合并实体,减少种类,降低图谱稀疏性

  • 指代消解(Coreference Resolution)

    • 分清文中出现的代词到底指向哪个实体
      [图片上传失败...(image-772b6-1534511439797)]

四、知识图谱的存储

基于RDF的存储

  • 以三元组的方式来存储数据

  • 不包含属性信息

  • 数据易发布、易共享

  • 多用于学术界场景

  • 推荐使用:Jena

基于图数据库的存储

  • 以属性图为基本的表示形式

  • 节点和关系可以带有属性

  • 高效的图查询和搜索

  • 多用于工业界场景

  • 推荐使用:Neo4j

五、金融知识图谱的搭建

搭建的核心:

  1. 对业务的理解

  2. 知识图谱本身的设计

搭建步骤:

  1. 定义具体的业务问题

  2. 数据的收集和预处理

  3. 知识图谱的设计

  4. 把数据存入知识图谱

  5. 上层应用的开发,以及系统的评估

1. 定义具体的业务问题

哪种业务问题适合用知识图谱?

  • 有强烈的可视化需求

  • 经常涉及到关系的深度搜索

  • 对关系查询效率有实时性要求

  • 数据多样化,解决数据孤岛问题

  • 有能力、有成本搭建系统

哪种业务问题适合用传统数据库?

  • 对可视化需求不高

  • 很少涉及关系的深度搜索

  • 关系查询效率要求不高

  • 数据缺乏多样性

  • 暂时没有人力或成本不够

案例需要解决的业务问题

  • P2P网贷环境下的反欺诈风控

2. 数据的收集 & 预处理

确定数据源:

  1. 用户的基本信息

    • 大多存储在业务表里,可直接提取使用: 如姓名、年龄、学历等

    • 个别字段需要进一步处理: 同一实体如用不同名称填写,则需要对齐

  2. 用户行为数据

    • 需要通过简单的处理,提取有效的信息: 如:“用户在某个页面停留时长”

  3. 运营商数据

  4. 网络上的公开信息

    • 需要信息抽取相关技术

3. 知识图谱的设计

常见问题
需要哪些实体、关系和属性?
哪些属性可以做为实体,哪些实体可以作为属性?
哪些信息不需要放在知识图谱中?
设计知识图谱BAFE原则
Business-业务原则
从业务逻辑出发

  • 观察知识图谱可以推导出业务逻辑

  • 设计时想好未来业务可能的变化

Analytics-分析原则
与关系分析无关的实体不放进图谱
Efficiency-效率原则

  • 常用信息放进知识图谱

  • 对分析没有太多作用的不放进图谱

  • 访问效率低的不放进图谱

Redundancy-冗余原则
重复性信息、高频信息可放入传统数据库

4. 把数据存入知识图谱

10亿节点以下规模的图谱
使用Neo4j
超过10亿节点的庞大数据量

  • 选择支持准分布式的系统(OrientDB, JanusGraph)

  • 通过效率、冗余原则把信息存放在传统数据库中,减少知识图谱信息量

5. 上层应用的开发,以及系统的评估

基于规则的方法论

不一致性验证

  • 通过规则找出潜在的矛盾点

  • 如:李明、李飞注明同样的公司电话,但两人公司数据不一致

不一致性验证

基于规则提取特征

  • 特征一般基于深度的搜索

  • 如:申请人二度关系里有多少个实体触碰了黑名单?

[图片上传失败...(image-13d414-1534511439797)]

基于模式的判断

  • 适用于找出团体欺诈

  • 核心在于通过一些模式找到有可能存在风险的团体或者子图(sub-graph),然后对这部分子图做进一步的分析

  • 如:三个实体共享很多信息,可看做为团体并进一步分析

多点共享信息
基于概率的方法

社区挖掘:从数据图中找出一些社区,进行进一步分析
标签传播:核心在于节点之间信息的传递
基于概率的方法的缺点:需要足够多的数据

基于动态网络的分析
  • 聚焦时间变化与风险之间的关联

  • 如:从T到T+1时刻的图谱结构变化,暗示着潜在风险

    图谱结构变化

六、知识图谱在其他行业的应用

教育行业

依据交互、评测、互动数据,理解学生当前的知识体系
根据逻辑进行个性化教育、因材施教

证券行业

最为常见:“一个事件发生了,对哪些公司产生什么样的影响?”
如:公司1高管的负面事件,对其他公司的影响

高管负面事件
(0)

相关推荐

  • 终于有人把知识图谱讲明白了

    导读:知识图谱的概念诞生于2012年,由Google公司首先提出.知识图谱的提出是为了准确地阐述人.事.物之间的关系,最早应用于搜索引擎.知识图谱是为了描述文本语义,在自然界建立实体关系的知识数据库. ...

  • 知识图谱构建技术一览

    知识图谱构建技术一览 一.什么是知识图谱 二.知识图谱的分层架构 三.知识图谱构架技术 (一)数据获取(Data Acquisition) (二)信息抽取(Information Extraction ...

  • 知新温故,从知识图谱到图数据库

    说到人工智能技术,首先会联想到深度学习.机器学习技术:谈到人工智能应用,很可能会马上想起语音助理.自动驾驶等等.实际上,人工智能要在行业中得到应用的先决条件是首先要对行业建立起认知,只有理解了行业和场 ...

  • 基于数据中台的图谱构建

    引言 随着移动互联网和数字化转型渗透到各行各业,万物互联成为可能,这种互联不仅产生了爆炸式的数据,也恰好形成了分析关系的有效原料.基于图谱的分析技术逐步成熟,使得互联网时代个体之间的关系分析成为数字化 ...

  • 【知识图谱】获取到知识后,如何进行存储和便捷的检索?

    互联网时代,人类在与自然和社会的交互中生产了异常庞大的数据,这些数据中包含了大量描述自然界和人类社会客观规律有用信息.如何将这些信息有效组织起来,进行结构化的存储,就是知识图谱的内容. 知识图谱的难点 ...

  • 名老中医医案 知识图谱

    随着信息时代的来临,知识呈现出爆炸式增长的现象,计算机处理技术水平和存储能力也得到了迅速提高,且实现了越来越便捷的信息分析.检索,甚至可视化等先进的功能,使得近年来出现了以知识单元为前提.可以快速获取 ...

  • 何捷:知识图谱——精准定位教学的“GPS”

    2012年,谷歌(Google)正式提出了知识图谱的概念,并宣布以此为基础构建下一代智能化搜索引擎.我们所理解的知识图谱是人工智能领域的一个重要分支,其来源于智能化的图书情报和信息处理技术,即将文献中 ...

  • 【直播课】知识图谱第三期直播-关系抽取及分类

    前言 最近几年知识图谱作为人工智能领域很热门的一项技术,已经在不少领域都取得了不少成功的落地案例.不过知识图谱作为人工智能的一个底层技术,确实不如图像,语音等技术一样让人能很直观的感受到它的存在.于是 ...

  • ENRIE:知识图谱与BERT相结合,为语言模型赋能助力

    来自:朴素人工智能 感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前沿技术,红框中为已介绍的文章,绿框中为本期介绍的模型,欢迎大家留言讨论交流. E ...

  • 构建体系化医学知识图谱 提高医学人文素养

    深圳图书馆健康分馆位于深圳市疾控中心,由预防医学历史展厅和标本展厅组成,将强烈艺术感染力和趣味互动性融为一体,拉近公众与医学之间的距离.与此同时,作为全国公共卫生领域首家叙事医学机构所在地,该场馆将定 ...

  • 知识图谱的5G追溯

    [引子]"治学先治史",了解研究领域的历史背景和对于了解未来可能的途径至关重要,关于知识图谱也不例外.周末劳逸结合,本文编译自Claudio Gutierrez和Juan f. S ...

  • 从语义网到知识图谱

    [引子] "海内存知己,天涯若比邻", 这是石头兄弟推荐给我的一篇关于语义网的综述性文章,刊载于<美国计算机学会通讯>第64卷第2期--"A Review o ...

  • 行业规模的知识图谱——经验和挑战

    [引子] 本文是石头兄弟推荐的一篇关于知识图谱综述性文章,老码对去年ACM上的这篇"Industry-Scale Knowledge Graphs: Lessons and Challeng ...