大数据治理之路—数据模型篇
本文以证券期货行业数据模型(Securities Data ObjectModel,简称SDOM)为指导依据,介绍如何通过网易模型设计中心(EasyDesign)进行行业模型的规范性建设。本文为第一篇,后续系列文章将会结合金融行业的相关规范,网易在数据治理方面的方法论,以及网易有数提供的相应工具详细介绍如何开展金融行业数据治理工作。
文末系列文章简介:
a.数据模型篇
b.数据质量篇
c.数据安全篇
d.数据资产篇
e.数据标准篇
f.数据开发篇
g.数据服务篇
h.数据应用篇
ps:下载资料,文末戳阅读原文,回复:数据治理
前言
金融行业作为信息化程度最高的行业之一,IT系统产生的数据已经成为行业最核心的资产。但由于金融机构的数流转复杂,每一条数据的形成和运用都需要在多个企业或机构间进行数据的交换,一笔交易需要至少3-6家主体机构才能完成运行流转。同时,IT系统间数据交换和数据处理的频率非常高,大多数金融交易品种日均交易量在3.5亿笔左右。
(各机构间数据流图)
随着金融改革提速,利率市场化和人民币国际化进程加速,同业竞争日趋激烈,跨界竞争此起彼伏;客户金融需求快速变化,监管机构更趋严格,这都给金融行业经营机构带来严峻挑战。在数据层面,大量机构缺乏清洗的数据架构、数据流图以及数据与业务之间的关系;普遍存在数据模型混乱,数据整体质量不高,开发团队迫于现实压力往往以实现功能为主,对非功能需求不太在意,导致数据模型质量不高,普遍存在先污染后治理现象。
因此本系列文章将以金融行业数据治理相关标准为指导依据, 结合网易大数据团队在数据治理方面的经验,将通过系列文章的方式来详细介绍如何通过网易有数大数据平台开展数据治理工作。
背景介绍
在数据治理领域,国际上从2004年起就开始大量研究,2016年由国际数据管理协会(DAMA)在《DAMA数据管理知识体系指南中》将数据治理进行了10大管理职能的定义。同时,国际标准化组织(ISO)在数据治理方面制定了相关标准:《信息技术-IT治理-数据治理》(ISO/IED 38505-1);2018年,由我国专家主导研制的数据治理领域第二个重要的国际标准ISO/IEC TR3505-2正式发布。近年来随着越来越多的国际和国内通用标准的完善,以此为理论指导的大批行业数据治理相关标准逐渐发布,并开始在行业内进行推广。
对于数据模型来讲,在金融行业长期以来缺乏相关行业通用模型标准;多年来,数据模型相关标准主要由IT厂家各自主导。如IBM的FSDM模型(Financial Services Data Model),在FSDM中IBM对金融数据域划分为九大主题域:关系人、合约、条件、产品、地点、分类、业务方向、事件、资源项目;以及由Teradata主导的FS-LDM(Financal Services LogicalData Model),FS-LDM对金融行业划分为十大主题域:当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道。
2019年底,中国证券监督管理委员会发布《证券期货业数据模型 第1部分:抽象模型设计方法》,标准中除了对抽象模型进行定义外,还针对7个子行业的逻辑模型有个详细定义,如《基金公司逻辑模型》、《证券公司逻辑模型》、《证券交易所逻辑模型》、《监管机构逻辑模型》等,自此数据模型有了行业标准。
模型建设-理论篇
模型建设分以下四个步骤:
Step 1:提取行业规则,输出行业顶层流图
根据SDOM的规范,以证券期货行业为例,各机构间的顶层数据流转如下图所示:
Step 2:梳理抽象模型
抽象模型是按照自顶向下的方法进行梳理,以“交易”,“监管”,“披露”为主线,通过对资本市场各类业务活动进行遍历,对关键业务流程和数据要素进行识别而形成如下“1+3+N”的总体架构。
Step3:设计逻辑模型
根据SDOM的规范,各主题之间的关系如下:
Step 4:模型评估
模型的稳定性,可扩展性,标准性等是一个长期验证和优化的过程,需要在实际业务处理过程中不断反复迭代,不断优化。但模型本身是可以通过量化的方式进行评估,以指导模型设计人员不断对模型进行完善。
模型建设-实践篇
根据上一章节介绍的模型建设步骤,整个模型建设分为4个步骤:
步骤1、2在SDOM中已经有详细规范,接下来我们站在巨人的肩膀上,介绍如何使用网易模型设计工具进行步骤3、4中涉及到的模型设计和模型评估。以下将从4个过程8个步骤详细介绍:
(Ⅰ) 主题域的规范设计
主题域的设计除了需要遵循SDOM中的规范外,还需要考虑以下几点:
主题域的划分
主题域的命名规范
主题域的负责人,审批人设置
主题域下的子主题域的设计及命名规范
如下图所示,在网易模型设计中心(EasyDesign)中:
主题域设计:根据SDOM规范定义8个主题域;
主题域命名规范设计:根据行业英文名称及词根规范,定义各主题域的英文命名规范;
主题域审批流程设计:设置各主题域的负责人,审批人,方便后续流程审批;
业务过程设计:以融资融券业务投资者买入为例,我们需要根据业务流程进行梳理,并根据梳理的业务过程在网易模型设计中心中进行统一管理,如下图所示:
(Ⅱ) 标准字典集的配置
标准字典集配置:以SDOM已经梳理的行业标准词根为依据,在网易模型设计中心字典集中进行统一配置管理。
(Ⅲ)逻辑分层及表规范设计
数据分层便于我们清晰的了解数据组织结构,方便对数据的定位和理解;同时规范化的数据分层可以大大减少重复开发,可以利用数据分层将一个复杂任务分解成多个步骤来完成,每一层解决特定的问题,使复杂问题简单化。
逻辑分层规范设计:借助网易模型设计中心的分层配置可以帮助我们实现清晰的数仓分层架构,如下图:
表命名规范设计:良好的表命名规范有助于清楚的了解表的含义,同时也方便其他开发人员能够快速定位到需要的表。如下图所示,通过网易表设计规则管理,可以灵活的定义表的命名规范进行统一定义管理。
(Ⅳ) 模型评估
模型的好坏直接影响到数据的准确性,全面性和完整性。通过数据有效对模型的合理性进行监控是模型评估的有效手段之一,网易结合自身多年的模型建设经验从模型复用度,跨层依赖率等多重指标对模型的质量进行监控和有效评估。
模型评估:如下图所示,通过上述指标的有效监控可以很好帮助数据团队去客户评估数据模型的好坏,以便不断对模型进行迭代、优化。
结束语
根据国际数据管理协会(DAMA International)对数据治理的定义,“数据治理被视为一个过程而非一项事务”。近年来,随着行业数据治理需求的增加,越来越多的IT厂家,互联网厂家以及一批以数据治理为核心业务的新型厂家开始参与到市场中来,这对整个金融来说是极大利好,点击阅读原文即可查看更多数据治理干货。但正如DAMA所定义的,数据治理工作对企业是一项长期的工作,因此在数据治理一定需要多方参与配合。
参考文献:
《证券期货业数据模型建设的理论与实践》
《证券期货业数据模型 第3部分:证券公司逻辑模型》
《证券期货业数据模型 第1部分:抽象模型设计方法》
《证券期货业数据分类分级指引》
《GBT 35964-2018 证券及相关金融工具 金融工具分类(CFI编码)》