数据治理-主数据
没有被管理的数据很难实现价值转换,很难被称之为数据资产。
在业务数据化、数据资产化再到数据价值指导业务发展的路上,合理的数据分类,再有针对的进行管理、运营是必不可少的。
常见的分类维度,可以把数据资产分为:数据和描述数据的数据,也就是元数据,再高阶的分类还可以分为描述元数据的数据,也就是元元数据。
如果只针对数据内容,可以分为:基础数据和衍生数据
这里的基础数据更贴近于业务源端,在业务中产生。
衍生数据就是基于不同的应用场景、分析维度进行加工、重组,为用户提供特定的数据需求。
这其中的区别类似于原生小麦和面粉、面包的区别。
外部数据的作用个人理解是小麦的化肥、面包的发酵粉。
本质上小麦和面包没有变, 却从不同角度帮助了麦农的丰收、面包师加工。是参考和辅助的作用。
切回主题,什么是主数据?
主数据其实是我们对基础数据更近一步分类的其中一类。
我们把基础数据分为:主数据、参考数据、交易数据和关系数据
交易数据很好理解,是在业务交易中产生,数据产生即确定,基本不会变化,有明确的时间戳和流水号。
交易数据描述了主数据的变化过程。
主数据在信通院发布的《主数据管理实践白皮书1.0》中的定义是:
“指满足跨部门业务协同需要的、反应核心业务实体状态属性的组织机构的基础信息。主数据相对交易数据而言,属性相对稳定,准确度要求更高,唯一识别。”
在国家标准《数据管理能力成熟度评估模型》中的定义是:
“主数据是组织中需要跨系统、跨部门进行共享的核心业务实体数据”
在IBM《Master Data Manangement: Rapid Deployment Package for MDM》中认为“主数据是有关客户、供应商、产品和账户的企业关键信息,表示【跟踪事物状态】的数据。”
《DMBOK1.0》中主数据的定义是:
“主数据是关于业务实体的数据,这些实体为业务交易提供关联环境。业务规则通常规定了主数据格式和允许取值范围。主数据是关于关键业务实体的权威的、最准确的数据,可用于建立交易数据的管理环境。”
结合定义与实践结合,可以看到主数据有几个特点
- 变化缓慢
主数据与交易数据不同,是随时间缓慢变化,属性相对稳定。
比如客户的证件类型、证件号码、证件的有效时间, 可能变么?
可能!
只要客户提交变更申请,就变了。
提交变更的过程数据,就是交易。
- 共享
这也是主数据最重要的特点,同样的数据会被多个系统、业务部门使用,这类数据跨系统、部门协同使用。
也就是各个部门在业务流程中都会需要的“最大公约数据”
- 权威
这个特点是数据得以共享使用的基础。
要求必须有较高的数据质量、准确、唯一
才不会在被使用过程中,遭到质疑
才能让主数据在跨流程、系统、部门共享使用过程中发挥最大价值。
- 主数据交易数据的维度信息
我们在看待交易数据时,如果只有“时间” 、“金额”、“交易类型” 的话,只能在数据中读出“2020年1月27日 ,转账10,000,000元。”
但是交易记录中如果有客户编号的话, 就可以关联客户信息表,知道更多的信息,如:
客户类型:“对公客户” 、客户名称:“XXXX公司” 、证件类型:“统一社会信用代码”、证件号码:“9161013159222113X8”
这样可以在交易数据中读出:“2020年1月27日,XXXX公司,是我行的对公客户,统一社会信用代码是“9161013159222113X8” 向武汉市政府 转账10,000,000元”
进而可以通过交易数据进行统计:
“我行当日“对公客户”转账金额是多少?”
“我行客户“XXXX公司” 近一个月转账多少?” 等等统计信息
这里的“客户名称”、“客户类型”就是统计交易情况的维度信息,也就是主数据。
例子中的“客户编号” ,它并无实际含义,但是起到了将主数据和交易数据串联起来的作用,是关系数据。
“客户类型”的取值除了“对公客户”外还有“个人客户”,“客户类型”的代码取值就是参考数据,同样是参考数据的还有“证件类型”的代码取值。
主数据管理,主要解决哪些问题?
结合主数据的特点,个人理解,主数据管理过程主要解决以下问题:
1.难共享
- 数据多头管理,存在信息孤岛,数据取值不一致。
- 数据来源多样,没有统一数据标准,跨系统、跨部门理解不一致。
2.不权威
- 数据质量低下,难以达到使用需求,技术人员疲于维护、业务人员不愿使用。
- 处理效率低下,数据流转链条过长,没有统一标准支撑、分散管理,导致数据管理困难,难以快速响应应用需求。
主数据管理的一般步骤是什么?
管理动作与项目定位、战略目标、时间要求都有很大关系。
但是一般情况下我理解有以下步骤:
1.识别
这里的识别分四部分内容,是管理动作能够有效执行的基础。
- 识别主数据
不是所有数据都是主数据,也不是所有信息都需要在管理初期就要纳入管理。
错误的将没有共享需求的数据或是交易数据纳入主数据管理范畴,会导致管理过程难推进、管理结果四不像。
同样要避免的还有管理初期大而全的思路
常见的策略就是管理初期制定短、中、长期规划,确定前期管理目标,以目标为导向,“小步快跑” 梳理并评估纳入管理的主数据信息范围,高效易推进
- 识别参考数据
识别主数据的同时,还要理清纳入管理主数据信息对应的代码取值范围也就是公共代码表
- 识别谁管理
确定了主数据范围的同时,还要确定在业务流转过程中,这些主数据信息对应的管理职责。
例如源端系统哪些部门录入的、哪些角色更新的、哪些角色负责了数据的存储、归档等。
识别谁管理的步骤,本质上也是在明确管理责任边界,避免数据内容存在责任盲区的三不管或是多头管理的都能管。
- 识别谁使用
同样需要识别的还有这些数据被哪些部门或系统共享使用了,有哪些应用场景,有哪些数据完整性、准确性、时效性要求。
例如有些部门使用数据要求是数据产生即使用,时效性较高。
有些部门要求数据必须完整、准确,如果数据缺失或失真,就会造成监管风险等。
这些应用端对不同数据内容的准确、完整、及时性需求,就对数据的录入和管理端提出了相应的要求。
如不能满足,则会极大降低数据可用性,或衍生出相应管理风险。
综上,在识别的过程中,需要确定纳入管理范围的主数据,并将数据全生命周期与公司的组织架构相结合,明确数据的分布情况、管理责任边界和使用要求。
2.定标准
定“主数据标准” 的本质还是数据标准
以使用部门的质量要求为切入,同时明确责任盲区和多头管理的主责部门,逐一评审主数据标准定义和规则以及代码取值等。
定标准的过程中,还包括对于标准持续管理的保障机制,例如管理办法、标准定义流程、组织职责等。
3.IT系统实现
以主数据标准为规范要求,构建主数据系统或对现有系统进行改造
- 新建主数据系统
与业务流程结合,建立主数据管理系统,信息统一维护、统一分发。
- 原有系统改造
承接“识别”过程中,梳理的主数据跨系统分布情况,以管理责任边界、质量要求为需求导入,对现有系统中主数据内容进行落标改造,并通过优化数据流转链条,在业务系统后端,对数据进行组合、加工,梳理数据多头来源的取值策略,统一维护、统一共享使用。
而后以数据标准为指导,制定存量数据清洗计划、数据模版和规范等。
保证历史主数据信息的完整、准确。
主数据管理保障机制
主数据管理过程中,圈定了管理范畴、主数据标准以及IT系统支撑策略,但是保证主数据管理过程的持续推进。还需确定主数据管理的保障机制。包括:
1.主数据管理文化
主数据管理过程中各部门管理层和执行层的参与度高低直接影响了管理结果
构建数据管理文化,宣贯数据管理价值,避免与业务管理过程脱节,导致数据标准落地难、主数据系统运行难。
2.主数据管理办法
主数据管理过程需要公司级管理办法的相应支撑,通过明确管理过程中的组织职责,贯以考核要求,来进一步规范管理过程的严肃性。
3.主数据管理流程
通过管理办法指导,明确主数据管理过程中的详细职责分工,规范主数据的识别流程、主数据标准管理流程(制定、更新、废止)、主数据管理考核流程等
4.主数据管理模版
定义主数据标准制定模版、历史主数据清洗模版、主数据质量检核规则维护模版、主数据管理需求申请表等。
总结
如果把“主数据”和“管理”分开。
个人理解还是2/8 原则,管理的比重更大。
以数据文化、合理的组织职责为支撑,确定管理思路,才能在主数据识别、定标、落标的过程中更加顺畅。
从而保证主数据内容的高质量权威共享。