点、线、面、体,5分钟解读数据质量

数据质量是数据治理领域的基础性课题,既是治理的目标,也是治理的抓手。同时,数据质量的提升,表与里,标与本,制度建设和群体共识,激励机制和系统平台,关系面很大,撸起袖子后如何着手,需要思考。
今天,我们争取花5分钟时间,从点、线、面、体四个角度,谈谈数据质量这个老话题的新思维:
  • 点,以问题为导向抓数据质量发力点;

  • 线,以数据生命周期为线索抓数据质量持续改进;

  • 面,以数据架构切面抓重点数据质量;

  • 体,以数据治理制度构建长效质量管控机制。

图1 数据质量问题的点、线、面、体

01

点:质量问题的发力点

质量问题错综复杂,想要处理好质量问题,最好能够从几个突破口着手,就商业银行而言,数据质量问题出现的场景有几种:
1.监管报送场景
在监管检查时,通过数据质量检查规则,往往会发现数据不准确、不完整等问题。例如,在核验过程中发现客户评级信息为空的问题,说明客户信息系统及内部评级系统缺少对客户财务数据完整性的核验。若企业有完善的数据质量管控体系,即可提前预警或减少此类问题的出现。
2.数据分析场景
在经营管理过程中,往往需要通过数据分析提供支持和参考。举例来说,业务部门需要通过报表或指标查看经营情况,在指标开发过程中可能会出现标准不统一、指标口径不一致的问题;在面向客户营销时,可能因数据质量低下导致营销不准确,转化率无法达到期望的问题;在风险控制方面,风险是多方面的,包括信贷风险、市场风险、运营风险等,高质量数据是降低风险、减少企业损失的保障。
3.内、外审场景
从数据治理的角度来讲,内、外审部门定期对企业进行审计,除数据质量检查规则外,企业需要意识到政策和流程的必要性,即企业需具备由完善的数据质量管控体系提供的数据质量检查政策、程序及考核评价体系。

02

线:数据生命周期中质量问题的原因分析

除上述举例外,实际很多场景都可能出现数据质量问题,遍历梳理整个银行系统的数据流转过程,就会发现数据的生命周期分为需求、创建、抽取、转换、加载、存储、应用和维护八个阶段,在各个阶段数据质量问题的成因也各不相同,将其归纳成以下几类:
1.需求沟通产生的数据质量问题
一是业务部门未形成统一规范的业务规则手册,导致无法有效运用于数字化落标。二是系统建设未充分覆盖监管机构统计口径与银行总分账统计口径间的差异,导致报表数据与实际情况没有形成逻辑一致性。三是业务部门与开发部门需求对接发生了理解偏差,业务规则未正确转化成取数规则。
2.源发性产生的数据质量问题
由于业务源系统的数据库种类不同,主流的关系型数据库有Oracle,SQL SERVER,DB2,SYBASE等,或新老数据库迁移,数据从以上各类不同的生产系统数据库表和文件中抽取到数据仓库,天然就存在数据异构问题。
3.采集录入产生的数据质量问题
业务部门没有严格遵守数据采集录入规范,其中包括:未完整录入、录入无效数据、采集录入数据造假。
4.数据交换和ETL过程中产生的数据质量问题
一是数据仓库或应用层与源系统之间采用直接数据库连接方式抽取和交换数据,系统架构耦合性过高导致空间不足、锁表等异常。二是传输交换系统和网络不可靠产生的数据丢包异常。三是抽取过程中出现接口参数编码问题、配置信息错误以及锁库锁表形成的数据质量问题。四是转换环节可能发生SQL脚本错误、表空间不足、字段类型转换出错、NULL数据插入非NULL字段形成的数据质量问题。五是调度机制和算法存在问题,导致取数时点错误,源数据在整合成报表数据时发生计算错误。
5.数据应用层中产生的数据质量问题
经过ETL服务器进行清洗加工处理后,大部分数据应是规范和符合标准的,但是在应用层也可能由于业务规则的定义错误和查询方式异常导致数据最后展示的结果不正确。
6.补录维护流程中产生的数据质量问题
开发部门元数据管理不规范,导致表间关系、库间关系在发生质量问题后无法有效溯源。后期在监管报送等紧急情况下,随意进行人工调整,如在报文层随意补录、调整报表数据,导致越补越乱、越改越错。
7.其他原因产生的数据质量问题
如缺乏对业务人员和运维人员的必要技能培训和合规宣导,或管理部门没有起到应尽的督导责任、未做好数据备份和存储、开发项目管理不规范、缺乏必要的维护文档和技术支持,也会导致对数据质量产生间接影响。

03

面:数据质量问题的四个管控域

针对以上各个阶段质量问题的成因,商业银行可在四个领域搭建对应的管控体系。
图2 数据质量问题四大管控域
1.管理域:浇灌培养数据质量管控体系的土壤
首先是要从企业战略角度不断完善企业数据模型规划,把数据质量管控融入银行数据治理工作中;二是将数据人才的队伍作为质量管控的战略性资源,明确业务到技术各个培养路线的分支和路线,并有效嵌入质量管控的流程中;三是分析数据质量情况的变化趋势和原因,量化运用入全行数据质量绩效考核体系里;四是对严重影响安全生产事件和监管统计数量的违规行为进行数据问责,做到“谁的问题谁负责”。
2.制度域:规范划分部门质量管控的职能职责
一是明确数据质量问题在各个阶段的归口管理部门,避免质量问题发生时业务部门、开发部门相互推诿,在制度层面落实数据确权。二是在操作层面统一规范化数据相关人员的工作实施,强化数据的标准化生产,在数据的各个生命周期环节保证质量。
3.流程域:贯通联动业务开发的质量管控协作
在质量问题发生的不同阶段明确相关部门要去做什么和怎么做,同时通过流程实现数据质量的痕迹化管理,将数据质量工作从阶段性治理逐渐转变成常态化机制,推动数据质量管控的贯彻执行。
4.技术域:支撑和实现数字化动态的管控系统
以主数据锚定数据架构链路管理,解决数源冲突和矛盾;数据模型在数字化环境准确映射业务规则,并起到“入仓入湖”质量守门员的作用;元数据作为数据的数据,让数据管理部门和开发部门可以通过血缘分析追溯定位质量问题的源发点;最后通过质量校验规则辅以质量检查完成最后管控闭环。

04

体:数据质量管控体系

可以发现在数据管理过程中,我们以质量问题的发生场景为点、数据全生命周期链路为线、四大管控域为面,提炼形成了数据质量管控体系。自此,数据质量的管理不再盲目零散,而是从宏观的高度出发,有体系、有支撑地进行数据质量管控。
图3 数据质量管控体系

05

总结

商业银行数据质量问题情况复杂,目前相当一部分还依赖人工进行排查,在不断完善管理流程、制度建设的基础上,未来应加大数据挖掘、机器学习等技术在数据清洗、排查质量孤立点等方面的挖掘应用,改变一直追着“质量问题”灭火救火的被动局面。未来,将会有越来越多的非结构数据出现,数据质量管控将逐渐从“有没有,对不对”的初级阶段向“好不好”的方向前进,数据质量管控与数据分析的界限也将会模糊化。保障和提升数据质量最终将和科技赋能、数据价值创造融为一体。

参考文献

[1] 华为数据之道[M].北京:机械工业出版社.

[2] 杨青云等.数据仓库中数据质量控制研究.计算机工程与应用 2003.

[3]崔江婧.基于WEB的数据质量核查系统的设计与实现[D].北京:北京交通大学,2011.

撰稿:郭枭翼、李丹妮
小编:李丹妮

· 拓展阅读

1.巴塞尔协议风险管理视角下数据管理要求的解读
2.如何进行企业级数据需求管理
3.如何实施数据资产盘点
4.一张表格对比解读《金融业数据能力建设指引》
5.当我们谈数据治理,我们谈些什么

数据治理周周谈

争取将数据治理

讲明白,说清楚,有价值

既然来了,点个在看再走吧~
(0)

相关推荐