企业数据质量管理的核心要素和技术路线(PPT)

来源:公众号数据学堂
数据质量管理是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
我们常说数据资产管理,在将数据作为资产的前提下,企业的运营需要准确的、完整的、及时的、高价值、高质量的数据。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展。

数据是企业数字化转型的核心要素,企业的决策者根据数据背后所反映出来的现象或趋势。分析并洞察出其背后有价值的信息,进而在决策和行动中,赢得先机,做出正确的判断。

本文整理自《企业数据质量管理的核心要素和技术原则》,关注本公众号,后台回复“数据质量”,即可下载21页PPT全文。

数据能发挥价值的大小依赖于其数据的质量的高低,高质量的数据是企业业务能力的基础。在企业数字化转型的进程中,数据的质量成为了一个制约因素。在企业实际运营管理过程中,数据质量问题产生的原因有很多,总结起来主要在技术、信息、流程、管理4个方面都会产生数据质量问题。

如果企业想在技术方面要提高数据质量水平,那么数据的梳理、数据规范以及数据生命周期是三个关键的要素。

先说下数据梳理,数据梳理是指将共同特征数据进行分组,数据梳理有利于数据的管理。数据梳理可以确定企业数据的分离,根据数据的不同分类,可以选择不同的提升数据质量的处理方法。

一般来说,数据梳理核心的一环是对企业内的元数据进行梳理,对元数据的梳理能厘清企业数据现状和明晰核心基础数据,是数据梳理的核心工作内容,被一些企业形象的比喻成“摸家底工程”。

数据规范的定义为数据集中实体的抽象表达的描述,也就是说数据规范是高质量数据的保障。我们常见的有数据标准和数据模型:

  • 数据标准是为了使企业内外部使用和交换的数据是一致且准确的,经协商一致制定并由相关主管机构批准,共同使用和重复使用的一种规范性文件。包括数据的业务属性、技术属性和管理属性。
  • 数据模型是获取和定义企业信息需求和数据需求的一种方法,它表述了全企业范围内的数据整合的主蓝图,是系统开发项目的关键输入,也是项目数据需求分析和数据建模工作的基线。

数据标准是从企业数据模型中剥离出重要的业务实体,在设计系统(项目)模型时,一定要贯彻遵循数据标准规范,实现对模型设计是否符合企业数据模型规范的监控和评审,这是提高企业数据质量的必经路径。

一个数据一般有业务属性、技术属性和管理属性组成,例如:数据项的业务定义、业务规则、质量规则为该数据的业务属性;数据项的名称、编码、类型、长度等为该数据的技术属性;数据的存储位置、管理部门、管理人员为该数据的管理属性。而数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。

数据标准管理的目标是为业务、技术和管理提供服务和支持:

  • 业务方面:通过对实体数据的标准化定义,解决数据不一致、不完整、不准确等问题,消除数据的二义性,使得数据在企业有一个全局的定义,减少了各部门、各系统的沟通成本,提升企业业务处理的效率;标准统一的数据指标体系,让业务人员也能够轻松获取数据,并能够自助式的进行数据分析,为基于数据的业务创新提供可能。
  • 技术方面:统一、标准的数据及数据结构是企业信息共享的基础;标准的数据模型和标准数据元为新建系统提供支撑,提升应用系统的开发实施效率;数据标准化清晰定义数据质量规则、数据的来源和去向、校验规则,提升数据质量。
  • 管理方面:通过数据的标准化定义,明确数据的责任主体,为数据安全、数据质量提供保障;统一、标准的数据指标体系为各主题的数据分析提供支持,提升数据处理和分析效率,提供业务指标的事前提示、事中预警、事后提醒,实现数据驱动管理,让领导能够第一时间获取决策信息。

数据质量水平受数据生命周期各阶段影响,因此我们要对数据生命周期的每个环节进行监控把关,知道在每个环节数据发生了什么变化,才能采取相应的手段来处理质量问题。

这里举一个客户信息维护的案例:

  • 数据现状:客户信息在不同部门流转时,各部门都有维护客户信息的权利,使用的系统不统一,数据标准、校验规则、编码规则等都不一致,导致后续在进行数据分析时,无法明确唯一的客户来源信息,增加了数据校核成本。
  • 解决方案:根据数据生命周期管理思路,需要在管理和流程上明确数据维护的责任主体,在源头处切入质量监控节点,对关键元数据进行统一,将能有效的解决该问题。

这里提出企业数据质量管理的四大技术原则:从需求开始控制数据质量、在集成点检查数据质量、持续积累检核规则、自动化质量评分。

要想真正解决数据质量问题,应该从需求开始,将数据质量的服务集成到需求分析人员、模型设计人员与开发人员的工作环境中,让业务人员在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。

在企业数据治理活动中,对于数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。比如在数据采集过程、集成分发过程、汇总分析过程等都需要做检查。

对于企业内部数据而言,可以通过业务梳理直接获得质量检核规则。但对于企业外部数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。

企业数据质量还需要建立评判机制,系统能够自动对企业数据评分,通过评分结果,提出整改方案,促进数据质量提升。同样的,外部数据的质量管理也需要建立一定的评估模型,确保这些数据能真正成为企业数据资产,而不是垃圾数据,并能帮助企业提升运营效益

下面分享一个银行企业的数据质量实践案例,这是一个新建系统从需求到投产的场景案例,数据质量管控和切入共包含5个步骤:

  • 基于系统建设的业务需求,分析数据标准规范,建立需求和标准的映射。从企业角度通过映射标准了解到需求是解决那个数据主题域的业务问题。数据标准的映射也统一了业务术语,实现了源头出控制质量的目的。
  • 参考企业数据模型,依据本次业务需求设计出系统(项目)模型,系统模型的核心数据模型来源于企业数据模型。企业数据模型的参考从模型层面避免了,字段类型,字段长度,字段命名不统一,不一致的问题。
  • 上述两步骤完成了数据生命周期的规划阶段,也按数据管理要素二思路落实企业数据模型。步骤三实现了本次系统建设的元数据管理,附加实现了核查系统元数据是否符合企业数据模型规范,是否符合数据标准规范的工作。
  • 对涉及数据集成整合的场景,要对数据生命周期中数据传输的几个环节进行数据质量监控和检核,也就是在集成点处进行监控。在此阶段设计到数据质量规则制定的工作内容。实现传输过程中数据质量的把关。
  • 若本次系统建设导致其他系统发生变更时,需要协同变更,是否发生变更时基于数据梳理实现元数据自动化管理所带来的直接保证。
(0)

相关推荐