尽力说明“数据”
此篇笔者从自身经历出发,选着了“数据环境的演变”、“数据库技术”、“关于数据共享”三个方面,觉得是能够抓到数据的“干”,借以去串联、穿插数据的“叶”。
1.数据环境的演变
(1)第一类数据环境,数据文件(data files)
早期的数据处理还没有出现数据库管理系统(DBMS),系统分析员和程序员根据应用的需要,用程序语言分散地设计各种数据文件;这是一种数据组织技术简单、相对容易实现的数据环境。但随着应用程序的增加,数据文件数目剧增,会导致极高的维护费用,并会因一些极小的应用变化引起整个系统的全面修改,增加维护成本和周期,影响运行。
(2)第二类数据环境,应用数据库(application data bases)
虽然数据管理系统已经出现,但系统分析员和程序员仍是按照报表的原样“建库”,没有在数据分析和组织管理上下功夫,是分散的应用设计分散的“数据库”,并不具备数据库的品质,不能支持数据的共享。这种数据环境同文件环境一样,随着应用的扩充,应用数据库也在剧增,维护费用更高,并没有发挥出使用数据库的优越性。
(3)第三类数据环境,主题数据库(subject data bases)
这是一种经过科学规划和设计的真正意义上的数据库,其结构与使用它的处理过程都是独立的。各种面向业务主题的数据,如客户数据、产品数据、或员工数据等,通过一些共享数据库被联系和体现出来。其优点是:经过严格的数据分析,建立模型需要花费时间,但其后的维护费用很低。最终会加快应用系统的开发,使用户直接与数据库交互使用数据。建立这种数据环境,彻底改变原有传统的系统分析方法和数据处理与组织管理方法,是企业信息化的基础数据环境得以彻底改善与提升。但如果管理不善,这类数据环境也会蜕变为第二类(或第一类)数据环境。
(4)第四类数据环境,数据仓库(data warehouse)
这种数据环境的目的是保证信息检索和快速查询的需要,以支持高层管理和辅助决策,而不是传统意义上的大量的事物管理。称这种数据环境为数据仓库,它是面向主题的、单一的、完整的和一致的数据存储。数据从多种数据源获取,经过加工成为最终用户在一定程度上可理解的形式。可以认为数据仓库是主题数据库的集成,是深加工的信息。
数据环境治理前后的变化如下图所示:
(5)数据仓库与Hadoop大数据平台
广义上来说,Hadoop大数据平台也可以看做是新一代的数据仓库系统,它具有很多现代数据仓库的特征,也被企业所广泛使用。因为MPP架构的可扩展性,基于MPP的数据仓库系统有时也被划分到大数据平台类产品。
但是数据仓库和Hadoop大数据平台还有很多明显的不同。针对不同的使用场景发挥的作用和给用户带来的体验也不尽相同。用户可以根据下表简单判断什么场景更适合什么样的产品。
数据仓库和Hadoop平台互为补充,立足于满足客户在不同使用场景下的业务需求。公有云数据仓库服DWS能够无缝地接入到公有云Hadoop平台MRS服务上,支持SQL-over-Hadoop的这个特性,提供跨平台,跨服务的数据共享。让用户充分享受Hadoop带来的开放、便捷、创新的同时,继续使用熟悉的数据(仓)库管理和使用自己的海量数据。继续使用传统的数据仓库的上层应用,特别是商业智能BI的应用。
2.两种数据库技术
数据库技术涉及计算机技术发展的大半历程,是基础性技术,也是软件业的基石。数据库技术脱胎于软件业,将数据储存独立于代码,改变了此前数据处理软件的架构(参考第一、第二类数据环境)。
(1)关系型数据库
数据库技术从早期的网状结构、层次结构发展到基于严密关系代数基础的关系型。关系型数据库用简单的二维表格集存储真实世界的对象及其联系,有业界统一的SQL语言,被极为广泛地用于构建各种系统和应用软件。
(2)Key-Value分布式数据库
世界互联网产生的海量数据催生了以键值(简称:Key-Value)对为基础的分布式数据库系统。目前,世界上主要的互联网公司根据各自需要研发和构建了NoSQL数据库管理系统。
(3)对比
按照数据库的数据结构组织形式来看,一般分为Key-Value型和关系型两种。其中,Key-Value型数据库的数据结构组织形式比较简单,读写性能很高,能支持海量并发读写请求,而且可扩展性强,操作接口简单,支持一些基本的读、写、修改、删除等功能,但不支持复杂的SQL功能和事务性。关系型数据库采用关系模型来组织数据,支持各种SQL功能,功能性强,支持事务性,读写性能一般,可扩展性弱。
按照数据库的部署形式来看,一般分为单机型和分布式两种。其中,单机型数据库保证强一致性和较好的可用性。分布式数据库在物理部署上遵循了分布式架构,能提供高并发的读写性能和容错,有很强的可用性和分区容错性,但由于需要进行数据同步,分布式架构的数据一致性较弱,只能保证最终一致性。
3.关于数据共享
(1)库对库的共享
按照事先协定好的的数据结构,抽取其他部门的数据,做数据分析,弊端在于被抽取部门的数据表结构改变,就会影响整个过程。
(2)归集式数据中心
行业或部门的数据推送到区域数据中心(目前各地方都在成立的大数据局),各部门、行业可以共享使用归集的数据;数据先归集,然后共享。比较以下的“主题模式”,没有形成互补互利机制,得靠行政发文进行。
(3)主题模式
**市商务局是主管**市内外贸易和对外经济合作的政府部门,拥有权威的*市商业信息,横向与*市统计、工商、税务、海关和外汇管理局等部门有着广泛的信息交流,纵向同商务部、区县商务局有着频繁的业务往来,因此可以由**市商务局牵头建设商务主题的“数字商务”系统。
数据量多的部门主导(**商务局),收集统计、工商、税务、海关和外汇管理局等部门数据,形成总集;将总集分享给统计、工商、税务、海关和外汇管理局等相对“商务主题”少的部门,形成互补互利机制。
(4)阿里数据中台
阿里内部的部门,淘宝、天猫、蚂蚁金服等部门把自己的数据共享到数据中台,当各自部门需要时,从数据中台获取;
此为民营企业的业务模式,运用于政府运作模式,一个行业或部门内可以搞,因为系统、数据的一致性;归集到类似大数据局这样的单位,难有作为(随着大数据技术的普及,尤其是成本方面,可以行业、部门内搞大数据,是一个发展趋势)。
归集到类似大数据局这样单位的益处在于:所有数据都归集,可以比对数据,产生效益;比如针对人的画像,收集住建、工商、税务等数据可以发现一个人名下有十套房,他也注册了些空壳公司等。
(5)华为数据湖
把所有部门的数据按照原始格式采集到数据湖,然后自己做分析;弊端在于不了解数据的业务属性,很难有作为;得有业务专家的帮助,才会有效益;益处同上。
如果觉得还有点意思,请分享或点击“喜欢”。