什么是数据和数据质量
1. 什么是数据?
2. 什么是数据质量?
真实性:即数据是客观世界的真实反映;
及时性:即数据是随着变化及时更新的;
相关性:即数据是数据消费者关注和需要的;
可得性 - 当需要数据时能够获取到;
及时性 - 当需要时,数据获得且是及时更新的;
完整性 - 数据是完整没有遗漏的;
安全性 - 数据是安全的,避免非授权的访问和操控;
可理解性 - 数据是可理解和解释的;
正确性 - 数据是现实世界的真实反映。
3. 什么是数据质量管理?
完整性,是指数据信息是否完整,是否存在缺失情况。
规范性,是指记录是否符合规范,是否按照规定的格式存储(例如标准编码规则)。
一致性,是指数据是否符合逻辑,数据内单项或多项数据间存在逻辑关系。
准确性,用于度量哪些数据和信息是不正确的,或者数据是超期的。
时效性,数据从产生到可以查看的时间间隔,也叫数据的延时时长。
唯一性,用于度量哪些数据是重复数据或者数据的哪些属性是重复的。
合理性,是从业务逻辑角度判断数据是否正确。评估方面可参照规范性、一致性做法。
冗余性,是指多层次数据中,中是否存在不必要的数据冗余。
获取性,是指数据是否易于获取、易于理解和易于使用。
信息因素:产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质(如:数据源规格不统一)得不到保证和变化频度不恰当等。
技术因素:主要是指由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。
流程因素:是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节。
管理因素:是指由于人员素质及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷。