信息质量特征:信息定义质量和信息内容质量
信息定义质量
简介
本文是信息质量特征系列文章中的第一篇,该系列文章主要描述了信息质量的三个重要特征。
信息的质量是由使用信息以完成其工作的用户决定的。Armand Feigenbaum一再强调:“用户说质量是什么,质量就是什么”。“质量是要由客户决定的,而不是工程师决定的,也不是市场部门决定的,更不是管理者决定的。质量取决于用户对产品或者服务的实际期望,它是根据客户的需求进行衡量的——不论是定义的或者没定义的,受关注的或者不怎么受关注的,技术实现的或者完全凭靠主观判断的——其目的都是要表现市场竞争中不断变化的目标。”
对信息来讲,这意味着“信息质量应该由知识型员工来决定,而不是由系统开发人员来决定,也不是由业务联络人来决定,也不是由信息技术管理者或者信息产品管理者来决定。信息质量取决于知识型员工要用信息做哪些实际工作,并且要根据知识型员工的需求来衡量数据质量----不论是定义的或者没定义的,受关注的或者不怎么受关注的,技术实现的完全靠主观判断的——其目标都是要表现复杂的商业环境中不断变化的目标。”
信息质量的组成
信息质量有三个基本组成部分,每一个组成部分都有其独特的质量特征,一定要对此加以理解、衡量并且不断优化,这样才能解决信息质量问题。
1、信息定义质量
像信息生产者一样,知识型员工也必须要懂得如何衡量信息,否则他们就不能正确的做好自己的工作。信息生产者一定要知道业务规则、有效值以及各式,只有这样他们才能保证所生产信息的准确性。
信息/数据的定义并不仅仅是写几个文档。信息定义对数据来说,和制造业产品规格对制造业产品的作用一样。一个错误的定义或业务规格说明,将会阻碍信息产品的质量。
2、信息内容质量
那些“产生”或者“更新”数据的业务流程产生的是信息的原材料,这些流程必须要正确的“产生”或者“更新”数据才能保证信息内容质量,比如保证信息的完整性、有效性、准确性、时效性等等。
3、信息交付质量
当数据被收取、格式化、集合整理并与其他数据结合起来,然后交付给知识型员工的时候,它可作为完成的“信息产品”。交付质量特征包括可访问性、实时性、直观性以及客观性等特性。
这里我们应关心的是数据的信息内容质量特征是否包含在数据库中或者提交给知识型员工。
信息定义——“信息产品的规格说明”
根据美国传统词典的解释:产品的规格说明是一种“对细节,尤其是对材料、维度、制造时设计的工作强度、安装或制造等方面进行详细的说明”。
同样地,信息资源数据(或者说元数据)也有一个集合,它构成了信息产品规格说明。信息产品规格说明(IPS)包括结构化数据的数据名,定义,有效值的取值范围,业务规则以及格式标准等等,如产品名称或地址。一定要对IPS中涉及的所有方面和特征的质量严格把关。
信息产品规格的质量特征
要保证“待生产的信息产品详细而准确的信息”需要七个质量特征:
信息标准质量
组织的信息标准是能指导“信息产品规格说明”生产的“规范的指导方针”。如果这个标准有错误或者未被遵守,那么组织信息产品的数据名、定义以及业务规则等规格说明都将会有所缺失或定义失败。信息质量标准的特征包括:
标准是企业关注的重点。标准可以由所有共享数据的人应用于所有的信息资源。
标准应该由业务相关人员规定。信息标准应该由所有共享信息的业务领域相关负责人过目并经过认可后方能生效。
应用标准的缩写。如果缩写的单词用在要知识型员工看的数据名中,那么它应该是企业范围内通用的唯一的、官方的业务缩略词,而且缩略词要经过业务代表或者业务信息管理人员的批准方能使用。
单一的对象类型。信息模型的开发包括将现实世界中的对象和事件定义成实体类型,这些对象和事件应该是企业必须了解的事实。标准的目的就是要让一个实体类型代表“一类”事物或该类事物的“子类”事物。
正确的对象关系。标准要能正确地区分实体类型之间的关系,据此正确地反应现实世界中对象或事件间的关系。
单一的事实类型。标准要能识别现实世界的对象和事件的事实(或者说属性),因为业务部门只有知道这些才能更有效的运作并完成任务。
举个违反该标准的例子,一家保险公司,用性别代码1和2来代表男性和女性,但性别代码的有效值同时还包括“3”、“4”和“5”,这三个数字分别代表“默认值”、“无法识别”和“模糊不清”。而保险公司的代码最终被信息质量软件赋予了“3”、“4”、“5”这几个值。因为软件并不能根据人的名字来判断性别,因此只能得出3—默认值,4—根据名字的拼写不能最终确定性别,5—这个名字可以男用也可以女用,如“Pat”或“Chris”。
所有媒介的名字均应规范化。因某一特定事实而命名的数据应被标准化,不管这个名字是用电脑屏幕显示,还是电脑报表显示,还是放在数据库中,还是作为数据单元的名字,还是用在文档中,在任何该数据的使用形式中,它都应该被标准化。
信息标准应用于新开发的系统和软件包的评估。如果制定标准后却没有被广泛遵守,那么它就不能称之为标准。
信息标准的重要性自是不言而喻。它们是命名和定义业务术语、实体类型以及属性的指导方针。
信息标准的目标是增进业务与信息系统专业人士之间的沟通,同时,提高业务和信息系统的生产效率。
信息命名质量
信息名称影射着业务术语的含义,或某事物的实际情况。不确切的命名会让人产生误解,甚至导致错误。关于信息命名的质量指导方针应该包括:
业务术语命名质量。业务术语代表的了某个概念、技术或者分类,要能够区分这个名词与企业以及行业内的意义相关的含义。通常,一个术语在不同的领域会有不同的含义,就像有些多义词在不同的语境中会有不同的含义一样。
业务术语与属性或者数据元素的名称不同,后者只能表示一种类型或者一个事实,而业务术语可能在不同的业务领域有不同的含义。同一个词的不同含义,或者一个词的近义词,都必须具体到行业内的含义。
这个规定让业务人员能够理解同一词汇在不同行业中的含义。
实体类型命名质量。实体类型名称是企业必须应该知道的事情的标签。
这个名字应该能够表示企业所关注的对象或者事件的单一分类。与业务术语命名不同,实体类型命名应该能且只能表示一个对象或者事件的分类,例如,“政党”或者“产品”,“政党”可能有两个子类别“人员”和“组织”。这些对象或者事件都用一个实体类型来表示,而且其子类型的名字应该共享某些通用特征。所有“人员”的特征都由“出生日期”、“姓名”等特征构成。这其中的很多特征都将代表他们对属性和数据元素的了解。一个单独的“人员”实体也可能会代表一个特别的角色。所有的这些分类都有一些特殊的共同特征,例如“雇员受雇日期”或者“用户的第一次光临日期”等等。
属性命名质量。属性名代表的是现实世界中对象的事实,例如“出生日期”,“姓名”等等。要保证属性名的质量,就应该让它能够表示能够描述该实体类型的某一个具体的事实类型。它一定要代表现某一对象在现实世界中的特征。
信息定义质量
业务术语、实体类型以及属性的定义都是业务交流的关键。它们对信息产品来说都很重要。如果知识工作者不了解他们所身缠的数据的含义,那又如何生产出正确的数据呢?
业务术语定义质量。一定要对业务术语进行定义,这样才能澄清概念,使其符合某一特定域的使用。如果一个术语有多种含义,那么使用该术语的域一定要对其进行特别说明。
例如业务术语“volume”,在制造业中它可能有“某个产品所占用空间”的含义。而在信息中心或图书管理中,“volume”指的是一卷书。而在电视机上,“volume”的含义则是音量的意思。
实体类型定义质量。某一个实体类型或其子类型的定义,必须要能够清晰准确的定义由该类事物或事件所代表的对象。
它们代表着现实世界的人或事的集合,因此一定要有一个定义能够区分这些对象的不同分类。例如,用户的定义必须要包含所有的被企业认定为客户的人或者组织。如果有用户的不同类别或分类,例如“零散客户”或者“大单客户”等,这样的每一个子类型都要有一个能够包含所有符合要求的但是不超过范围的用户。
不良定义:“'用户’就是'用户名单’上记录的人。”
这个定义是由我的一个学生给出的,我一直都以它作为不良定义的例子。
首先,该声明规定了数据库文件中应存放什么,而不是规定客户是什么。定义一定要定义人、组织或者是符合要求的人或者组织的特定类别。
较好定义:“'用户’是曾经购买过产品或者服务,或者是那些表达出购买意愿的人。”
属性定义质量。属性表示了企业应该知道的对象的特征。它们描述的是某个实体类型表现出来的“事实”。同属于用户类别的对象会有一些共同的属性。用户可能会以不同的形式存在,例如“潜在客户”,“活跃客户”,“曾经的客户”等等。所有的活跃客户(这是一个子类型)都有“首次光临日期”这一属性,而且应该有相对应的有效值。
属性定义应该定义现实世界对象所表现出来的特征。定义应该能且仅能表征对应类型所显现出来的事实。每个事实都应该有其特有的值。
不良定义:“'付款日期’是'付款的时间’”
首先,这个定义并不能表征“付款日期”描述的是什么实体类型。它是用**付款的吗?
第二,如果该付款是用**来付款的。那么就应该有很多与付款相关的不同日期。这些日期是用户写在支票上的吗?这个日期是组织收到**的日期吗?还是**输入系统的日期?还是最终发货的日期?这就会出现很大的争议,人们很难理解该属性的名字到底有什么具体含义。
较好定义:“'账单付款收到日期’是公司收到客户支付账单的日期。对于支票付款,该日期表示支票收到时信封上邮戳的日期,对于电子付款,该日期表示电子交易信息进入公司账户的事件。对于电子支付来说,支付收到日期和存款请求日期是一样的。”
上面的定义就能够说明支付有两个子类型,物理支付和电子支付。
业务规则说明质量
业务规则表示了可能会应用于业务活动以及业务活动信息中的政策、条例或者其他的控制。业务规则一定要正确、清晰、完整,这样相关负责人才能获取要求。软件执行与合理性检测也需要清晰完整的业务规则定义。
我的儿子初入大学生活时,学校告知了他一系列关于寝室的注意事项,包括他必须做什么,可以做什么,不能做什么等等。他可以自己带个冰箱,然后有相关“业务”说明,告诉他可以带什么类型的冰箱。
不良业务规则说明:“冰箱一定要达到以下标准:50磅、2.5立方米、2.5安培。”
这里面存在很多细节问题。“50磅”是什么意思?这表示重量一定要是50磅吗?应该不是。这可能是个上限。50磅表示的是净重50磅还是装满东西以后50磅还是可以装50磅的食品?2.5立方米表示的是内部容积还是冰箱占用的体积?2.5安培是冰箱的额定电流还是电流一定要是2.5安培的冰箱?
较好业务规格说明:“冰箱一定要达到以下标准:空冰箱不得超过50磅重;内部容积不得超过2.5立方米;最大工作电流不得超过2.5安培。”
总结
只有把握好了“信息产品规格说明”的质量,才能持续的交付高质量的信息产品。知识工作者和信息生产者必须熟读信息产品规格说明,以保证他们能正确理解数据的含义、有效期以及所需的业务规则。
信息内容质量
信息质量特征
本文是讲述重要信息质量特征系列文章的第二篇。
由于信息用户需要运用信息来完成工作,因此他们是决定信息质量有什么构成的人。Armand Feigenbaum的话证实了这一点:“用户说质量是什么,质量就是什么”。“质量是要由客户决定的,而不是工程师决定的,也不是市场部门决定的,更不是管理者决定的。质量取决于用户对产品或者服务的实际期望,它是根据客户的需求进行衡量的——不论是定义的或者没定义的,受关注的或者不怎么受关注的,技术实现的或者完全凭靠主观判断的——其目的都是要表现市场竞争中不断变化的目标。”
对信息来讲,这意味着“信息质量应该由知识型员工来决定,而不是由系统开发人员来决定,也不是由业务联络人来决定,也不是由信息技术管理者或者信息产品管理者来决定。信息质量取决于知识型员工要用信息做哪些实际工作,并且要根据知识型员工的需求来衡量数据质量——不论是定义的或者没定义的,受关注的或者不怎么受关注的,技术实现的完全靠主观判断的——其目标都是要表现复杂的商业环境中不断变化的目标。”
信息质量组成
上系列文章中已经提到过,信息质量特征中有三个基本元素:
1、信息定义质量
像信息生产者一样,知识型员工也必须要懂得如何衡量信息,否则他们就不能正确的做好自己的工作。信息生产者一定要知道业务规则、有效值以及各式,只有这样他们才能保证所生产信息的准确性。
信息定义对数据来说就如同制造业产品规格对制造业产品来说一样重要。信息质量这一“信息产品规格”对于持续生产优质数据至关重要。
2、信息内容质量
那些“产生”或者“更新”数据的业务流程产生的是信息的原材料,这些流程必须要正确的“产生”或者“更新”数据才能保证信息内容质量,比如保证信息的完整性、有效性、准确性、时效性等等。
3、信息交付质量
当数据被收取、格式化、集合整理并与其他数据结合起来,然后交付给知识型员工的时候,它可作为完成的“信息产品”。交付质量特征包括可访问性、实时性、直观性以及客观性等特性。
这里我们应关心的是数据的信息内容质量特征是否包含在数据库中或者提交给知识型员工。
信息的不同形态——“原材料”数据与“信息成品”
制造业有原材料以及成品,信息也是类似,从数据这种原材料开始加工,经历收取、格式化、集合整理并与其他数据结合等等一系列流程后产生成品,然后将成品交付使用。
制造业的公司一般都从别处购买原材料来制造产品,而组织所需要的信息原材料----数据,却一般是组织从自己内部流程获得的数据,也有些是从信息经纪人那儿购得的。
知识型员工需要多项质量特征来保证信息内容的质量。除了内容质量以及其他的一些特征,知识型员工还有一些交付质量方面的期望,接下来就将对其进行讨论。
1、信息内容的质量特征
主要的信息内容质量特征包括:
定义一致性。数据值应该与属性(事实)的定义一致。
完整性。每个流程或决策所需要的全部信息都应具备。
记录完整性。企业所需要的对现实世界的每一个对象或事件的记录都应该具备。
值完整性。每一个给定的数据元素都应该拥有所有记录所不可或缺的值。
有效性。数据的值要符合信息产品的规格说明。
值有效性。数据的值应该是个有效值或者是符合规定该数据元素有效值变化范围的值。
业务规则有效性。数据值应该符合一些特定的业务规则。
推导有效性。推导或者计算出来的数据值是依靠特定的运算公式或者推导规则得到的。如果基础数据是正确的,那么在经过正确的运算之后,就可以得到正确的数据。
准确性。数据的值是正确的。
数据源准确性。数据应当与经过证实的初始数据记录想吻合,例如出生证明、文档或者是从组织外部的团体中收到的确信可靠的源数据。
事实准确性。数据应该能够精准的反应现实世界的对象或事件。准确性则是对信息固有特性的最高要求。
精确性。数据的值要精确到某个合适的标准。比如价格要精确到分,时间要精确到秒。
唯一性。在一个数据库中,用以代表现实中给定对象或者事件的记录,有且只有一个。
源头保障。信息的源头应该:①保证它所提供的信息的质量;②建立保证档案书,用以记录其在获得、维护以及交付信息时所能提供的质量管理功能;③提供客观且可证实的信息质量衡量标准,这些标准应用一种符合质量特征的方式提供。
冗余或分布式数据的等效性。对于同一个客观对象或者事件,一个数据库中对其的表述应该与其他数据库中存储的数据相同。
冗余或分布式数据的并发性。信息传递时间或者说时延应该降低到信息在a与b之间传递时所需要的最小值,其中a代表一个已知的主数据库,而b代表另一个已知的冗余或者分布式数据库,而并发性就意味着这些不同的数据库能够产生相同的结果。
2.信息质量度量
信息质量特性要求不同的衡量技术的支持。有一些信息特性可以用软件这种电子手段衡量。其他一些特性比如准确性,则要用物理的比较方式来完成,这种方式要求将数据与现实世界中的对象或者某个事件的记录进行对比。
定义一致性。数据值要与属性的定义相符。
度量方法:电子或人工检查
如果属性是个日期,表达的事实的值属性理所当然的是日期型。同理,地址属性表达的必须是地址。代码和代码的值所表达的内容也应该与事物分类相吻合。
完整性。每个流程或决策所需要的全部信息都应具备。
记录完整性。企业所需要的对现实世界的每一个对象或事件的记录都应该具备。
度量方法:电子检测或人工检测。
要弄懂自己所不懂的事情并非易事。人们一般不容易觉察一些对象与事件的记录丢失了。没有将应该记录下来的信息或者删除了不该删除的信息等等,都会造成记录的丢失。
当处理这些难以确定的对象时,通常不得不找到较为可靠的源头来对比现有数据。
在发现数据丢失并且将丢失项加到数据库中以后,应该计算一下丢失记录百分比,这个值应该用丢失的记录数量/(丢失的记录数量+正常的记录数量)来计算。
值完整性。每一个给定的数据元素都应该拥有所有记录所不可或缺的
度量方法:电子检测。
现实世界的特征丢失了,那么在创建记录的过程中某些数据元素也就丢失了。举个例子,某个员工在职时,我们能把有关他的所有数据都记录下来,一旦他离职,那么后面的数据就丢失了。
当有效参数值变成一种强制类型时,这类属性应该具有相应的业务规则说明。
有效性。数据的值要符合信息产品的规格说明。
值有效性。数据的值应该是个有效值或者是符合规定该数据元素有效值变化范围的值。
度量方法:电子检测。
使用简单的查询语句来检测数据元素的值是否为指定的有效值之一,或者检测数字型的数值是否在指定的或合理的数值范围内。
业务规则有效性。数据的值符合规定的业务规则。
度量方法:电子检测。
用电子检测把执行业务规则和捕获数据的过程区分开来。
这些业务规则可能包括合理性检验或相关性检验,保证值符合业务规则或合理性。
NOTE:业务规则也很可能是错的。有时现实世界的数据值看似在预期值的范围之外,但实际上它却是正确的。
推导有效性。根据某个规定的计算公式或推导规则,能准确地产生数据的计算值或推导值。如果原始数据是准确的,并且能正确的执行计算的过程,那么结果就是准确的。
度量方法:电子检测。
可以通过独立地执行重建计算或分类的查询语句的方法评估推导有效性。
NOTE:首先确认方案或派生规则的准确定义。这些定义可能随着时间的变化而过时。
准确性。数据的值是正确的。
数据源准确性。数据应该与可确定的原始数据记录相吻合,并且保证其来源可靠。如出生证明、文档文件或者从组织外部接收的电子数据等。
度量方法:电子检测或人工检测。
这种检测就像把你的电子数据和外部的权威来源比较一样简单。(比如,邮政服务数据和地址之间的比较)
NOTE:关于数据源的准确性度量,你必须先弄清楚数据源到底有多准确。邮政服务数据只能保证某个地址的正确性,但不能保证这个地址上的人没有发生变化。
一定要理解所有代理源使用的局限性并将其文档化。
事实准确性。数据应该能够精准的反应现实世界的对象或事件。准确性则是对信息固有特性的最高要求。
度量方法:电子检测或人工检测。
这种检测就像把你的电子数据和外部的权威来源比较一样简单。(比如,邮政服务数据和地址之间的比较)
NOTE:关于数据源的准确性度量,你必须先弄清楚数据源到底有多准确。邮政服务数据只能保证某个地址的正确性,但不能保证这个地址上的人没有发生变化。
一定要理解所有代理源使用的局限性并将其文档化。
精确性。数据的值要精确到某个合适的标准。比如价格要精确到分,时间要精确到秒。
度量方法:电子检测或人工检测。
根据数据的性质,检测方法可能包括对精确的记录装置和更准确的度量装置进行比较,或者会包括确保数字数据,如货币汇率,能精确到合适的位数。
统计学的分析应该在科学研究、调查或者样本数据的质量评估中一直显示信息的置信度和置信区间。
唯一性。在一个数据库中,用以代表现实中给定对象或者事件的记录,有且只有一个。
度量方法:电子检测。
在度量唯一性时,我们应使用几种相关联的测试方法来判定两个记录是否是现实世界中对同一事物的重复描述。
最好的搜索算法使用模糊配对,并允许存在交换错误、典型的拼写错、姓名或字词的缩写、同义词,等等。
源头保障。信息的源头应该:①保证它所提供的信息的质量;②建立保证档案书,用以记录其在获得、维护以及交付信息时所能提供的质量管理功能;③提供客观且可证实的信息质量衡量标准,这些标准应用一种符合质量特征的方式提供。
度量方法:电子检测或人工检测。
NOTE:有些人把“可靠性”称为信息质量特征。这种主观的度量会随着时间改变。一个较好的度量特征是从信息源处获得书面的质量保证。凭证就是一个可信任的认证机构是不是能认证源的信息质量过程。另一种检验的方法是客观地通过信息质量对各种重要的特征进行度量。
冗余或分布式数据的等效性。对于同一个客观对象或者事件,一个数据库中对其的表述应该与其他数据库中存储的数据相同。
度量方法:电子检测或人工检测。
如果一个数据库和另一个数据库之间存在最小的转换,并且数据库保持常见的主标识符,度量该特征就很简单。
如果存在转换,那就必须定义用来比较一个数据中的有效参数值和其他数据库中可比较的代表数值的测试方法。
如果数据库不能共享主标识符,那么必须先尝试着执行重复匹配来鉴别两个数据库中的等效记录。只有通过对一个数据源元素和另一个数据元素进行比较才能检查两个数据库中的值是否具有相同涵义。
冗余或分布式数据的并发性。信息传递时间或者说时延应该降低到信息在a与b之间传递时所需要的最小值,其中a代表一个已知的主数据库,而b代表另一个已知的冗余或者分布式数据库,而并发性就意味着这些不同的数据库能够产生相同的结果。
度量方法:电子检测。
通常,度量信息流的电子检测包括记录标记。
另一个方法是度量从首次在第一个数据库中建立记录到记录被完全导入到下游数据库的过程中花费的时间。
总结
知识工作者对参与到其工作中的信息有不同的质量需求。信息质量专家必须清楚这些需求并度量正确的事情。信息生产者必须了解这些需求以满足所有信息消费者的需要。