(14条消息) 中国数据质量管理现状及发展趋势
本文根据谭海华先生在【DQMIS 2020第四届数据质量管理国际峰会】现场演讲内容整理而成。
图1.1
华矩科技创始人及董事长 CEO 谭海华
演讲嘉宾介绍 - 谭海华
华矩科技创始人及董事长 CEO
中国管理科学研究院创新所大数据共享技术委员会主任及学术委员
数据质量国际峰会 DQMIS的发起人及执行负责人
数据共享联盟-数享汇创始人
国家发改委培训中心特聘大数据专家讲师
工业大数据应用技术国家工程实验室《工业企业大数据治理实践指南》编委会成员
中国保信《保险大数据》、《中国保险报》、中保⽹特约撰稿人,是中保信特聘技术专家
中国电子技术标准化研究院等创办的数据标准化与治理专家库首批成员
广州市工业和信息化委员会大数据及人⼯智能专家团首批入库专家成员
曾任职IBM,埃森哲咨询,微软,致力企业管理咨询,信息化建设,大数据治理及相关行业信息化解决方案研究和实施。
- 作为IBM资深顾问及SIC项目负责人参与实施华为IPD咨询项目
- 作为IBM资深顾问参与管理及实施国内金融业最早一批的数据仓库项目策划
- 作为埃森哲资深顾问参与管理及实施国内最早一批的大型企业数据治理项目
演讲目录
国内数据质量管理的现状
数据质量管理的历史与发展趋势
数据质量管理中的方法、技术、数据三者关系
数据质量管理的新视角
谭总:各位来宾好,各位领导、各位老师好,今天非常高兴能够在这里跟新老朋友相聚,这是我们这个峰会的第四届了,刚才也看到非常多熟悉的面孔。
本次峰会我们选用了一个主题,叫做“跨越周期,回归本质”,这个“质”也是我们数据质量的质,为什么是跨越周期呢?其实这也反映了我们过去4年的探索。
刚才我们张老师有讲到,在2017年的时候,在北大,在我们系的一个会议室里面,当时我们在探讨数据质量的一些问题,就说怎么去看待这个问题。在2018年的时候,我们看数据治理的路径是什么,怎么建设一个数据质量管理,包括数据治理。在去年,我们重点讨论的是数据质量怎么驱动业务创新。可能在去年这个话题还是有点超前,但是从今年整体的情况来讲,可以说我们的视野看的比较远一点,但还是觉得要脚踏实地,我们要回归本质,这也是我在过去这4年里面看到的情况,所以今年我们的主题是叫做“跨越周期,回归本质”。
我自己是从做代码开始成长起来的,前面几位嘉宾包括汪主席、潘老师,他们谈高瞻远瞩的框架,这是非常重要的,因为有理论依据我们才知道怎么做下去。那我今天跟各位分享的内容,主要是我们国内的数据质量管理实践面临的问题以及具体的一些技术落地工作。
首先谈谈国内的数据质量管理现状,主要结合华矩科技这几年来与多达40多个企业的互动记录跟大家分享。今年我们为什么会讲现状,这个现状可能不一定是我们的市场分析报告,而是我们看到的很实在的问题。这些问题我相信也是很多数据治理部门负责人经常碰到的情况,我们在做数据治理,虽然我们都有很好的蓝图,但是我们要落地的时候,这些问题无处不在。
不管是我们从数据应用上看到的问题,还是我们真正看到的数据质量的问题,或是我们反追管理时发现的问题,这些都是我们在数据治理往下走的时候不得不面对的,这个情况我不会展开但是我非常欢迎大家可以跟我交流你们遇到的问题,这里面比如标准与规范的问题,多头发布,多头应用的问题,还有我们的录入不规范,包括来源不精准等等问题,我相信这些问题大都会见到。
另外是大家在做数据治理时候的一些常规性看到的问题,前面潘老师有一个很好的方法论,不管是自下而上、自上而下,我相信我们都会遵循一个很好的标准去做。
在我们往下去做的时候,我们要建立很多东西,但是怎么去管理?我们跟很多客户朋友去交流的时候,我们做了很多数据治理框架搭建的工作,但是往往我们的CIO、CEO就会问了,究竟数据治理的价值在哪里。也就是我们数据治理的ROI是怎么去分析的,怎么去体现数据治理的价值,尤其是专注做大数据的人,包括我们企业里面数据部的同事,这是需要你们去回答的,究竟我们的工作价值在哪里,能不能衡量出来,这是我看到的情况。
图1.2
这些都是我们在工作里面碰到的一些问题,跟大家去分享,我不逐一去过了,但是这里面有几个很明显的,包括我们DAMA数据治理体系,其实上面对于怎么做都讲的很清楚了,但是我们在做的过程中还是会面临一些问题,比如说组织架构权力不清楚,这是第一步没办法迈过的坎,因为当这个企业里面看到这个数据质量的时候,首先是追责,究竟是谁来负责,这个问题不解决的话就没办法走下去。毕竟不是说只搭一个框架,这是要真实去问责的,问谁的责,应该怎么做,这是我们会碰到的问题。
还有一个是行动计划的碎片化,等一下我们会看到一个案例,它的行动计划碎片化产生的结果,这里有一个统筹观的问题,我们怎么统筹,在我们所有的建设里面,它是环环相扣,但是怎么能够同步并行?这是我们看到的一个问题。
还包括全局观的概念,我们做数据治理的全局观在哪里,我们数字化转型的定位在哪里。也就是说数据治理本身也有相对的目标,有相对阶段的目标。刚才杨部长提到的,我觉得他有一个词还蛮精准的,说“合适就好”。你看到就是说我们是要完备性,在你做这件事情的完备性“合适就好”,我觉得我们要有这样一个观念。
这也是我们看到的一些典型的问题,就是我们任务分解的合理性。大家都知道我们在方法论里面是有相对比较完整的思路,刚才汪主席那个表,我觉得分解的已经比较细了,但是在我们真实的工作里面,我们还是会面临分解的合理性问题,怎么样是更合理的,这个合理性决定了我们做的顺不顺畅。
另外有一点,我觉得很深的一个体会,即怎么样建立你的起点,我相信我们每一个企业或者说每一个数据治理项目都不是无中生有的,它肯定是有一个现状,你的起点决定了你的方向。我在后面会讲到我们对起点的理解。
还有一个是说我们在看这些情况的时候,我们要用动态的观点看待企业的数据治理工作,这点非常重要。杨部长也讲到,为什么在经济学里面没有办法很精准地把数据作为生产要素,因为它确实太复杂了,因为数据有增量的,它不是静止的,它是动态的。比如我是从广州来,这次来北京才发现我们的北京健康码是一天有效,我第二天再去看,没有了,要重新登记,为什么?数据的特点就是这样子,你当时是有效的不代表你明天是有效的,你必须要有动态的观点去看待数据的问题。
另外一个问题,现在我们很多不是基于准确的、量化的数据质量的一个诊断结果去做的判断。我觉得这个原理大家不陌生,假如说你对自己都不了解的话,你怎么往下走,当然这里用的是一个诊断的概念,我相信各位都有看病的体验,第一步首先是了解你自己,了解你本人,了解你的身体,了解你的状况,再来谈你应该用什么方案。
刚才提到了几个观点,一个是动态的观点,第二个是你必须要了解自己,你才能知道你的起点在哪里,在这个起点下面你才能知道你应该往哪个方向走,这就是我们的观点。
回到这里,还有一个现状,也是我们这次的会议为什么讲回归本质。前面提到我们在建设数据治理的时候有很多种路径,大家对这个步骤不会有太多的疑义,但是首先咨询导向得是对的,像我们去医院导诊很重要,究竟我看哪个科,这个是很重要的。
图1.3
A类:有些做完管理咨询之后就工具选型了,第三步就是实施落地。
B类:我做完管理咨询了,先别着急的选工具,先制订标准,标准是刚才讲的究竟站在哪里,现状是什么,所以有些就会说首先要先做标准规范,做完标准规范再看怎么能支撑我的管理。
C类:我在做管理咨询的时候,第二步我先做基础搭建,把主数据先做好了,接下来再看标准规范,但是这个有前有后,然后做工具选型再做实施落地。
我相信在业界这个不能说它已经穷尽了100%,有可能是80%,都离不开这三种模式。我想大家在做真正落地的时候有很多企业可能就是A类,A类他很快在第二步就感觉到痛苦,更不要说第三步。因为我们在做数据治理时毕竟它还是一个管理跟工具配合包括验证结果的一件事情,它不纯粹是一个过程,比如我们做个OA,我不是把流程跑下来就OK了,因为你的数据如果不能给你这个企业带来价值的话,企业就会认为你的投入都是白费的。我相信在做数据治理的朋友都会有这样压力的,究竟怎么讲清楚我们的价值在哪里。
左边是我们普遍认同的方法、内容和平台。我们得先有方法,方法很重要,要是方法都不知道我们就不知道从何讲起。但是第二个内容最重要我们往往却忽略了,直接就到平台了,究竟是什么样的内容,用什么样的平台,合适就好。刚才杨部长讲到,你的数据质量,你做的事情是针对你这件事情的一个完备性,所以内容这个问题也是在我们过去做了好多这种项目后,回过头来看我们怎么把内容做好,也是本次峰会的主题,我们要回归本质,因为这个才是我真正要的,才能让我们真正发挥价值的。至于我用什么样的平台,什么最合适我,包括我最终能够产生什么效果,取决于内容讲什么,具体什么是内容。
图1.4
这是一个很简单的例子。这个统一视图,我们叫Single View,大数据做数据质量最能考验的就是这个,假如说人家在你的企业系统里面搜索“李明”,有100个李明出来,就不知道这是谁。我相信在座的有很多银行的朋友、保险的朋友、大零售的朋友,对我们的Single View都有很深的体会,精准营销是我们最核心的一个应用点。
那么怎么做好这个最基础的工作?别小看左边这么简单的一个事情,右边你会面临那么多问题,你是怎么样知道你的什么标准是正确的。我跟我们的合作伙伴,也包括我们的客户,讲过一个很简单的道理,苹果手机的名字叫苹果,它也叫iPhone、苹果11或者iPhone11,在你们的公司,哪个是标准的?他们都是对的,它可以叫iPhone11,也可以叫苹果11,但究竟你选用哪个作为你的标准,这就很考验人了。
你首先要知道这个标准对你的意义在哪里,为什么要做选择,要是不得不做选择,这就要回到我们讲的标准化的问题。那么你首先要知道哪个是正确的,在正确里面还要挑哪个是最符合你们企业要的,它正确不代表是你需要的,有很多是正确的,你要选哪个。再就是怎么保证它语义的一致性问题,我怎么证明我讲的这件事跟那件事是一回事,这些都是我们做的很核心的工作,包括代码规范、异构系统集成等,大家看这虽然是小小的一件事,但是这背后,数据治理部门可能要解决很多问题,包括主数据管理问题,包括我们定义一致性的问题,这都是需要我们去做的。
图1.5
我想通过几个场景,从我们的方法论拉到我们现实的情况,我们所面对的问题,在这里面我还是简单讲一下发展趋势,因为这跟我们后面的理解有关。有关数据质量,在去年我也用了这张片子,我觉得这能够反映我们对数据质量颗粒度的一些看法,因为数据质量不是一个不可分解的东西,它的颗粒度是决定你怎么去看问题的关键,包括数据、信息、语义、业务规则等。
在谈数据质量的时候,我们会面临一个语义的理解问题,语义理解问题要是没有办法做好的话,我们很多标准做不出来。但是我们大部分时候怎么做呢?人工做。这次我知道百度有一个很好的产品,也获奖了,就是自动标注的那个。我没有细看,我觉得这个为我们未来做自动化处理规则,已经迈出了很关键的一步,我找时间还是再请教,我觉得这个主题非常好,因为它涉及到数据、信息语义和业务规则,每一个环节都构成了我们未来对数据质量的影响,这个我想等一下会看到这个概念。
图1.6
回到这个,我一直还是非常认同,在数据质量里面我们看什么,我们讲固本清源,固本清源讲什么?包括定义、分析、度量、提升,这是我们在讲数据质量时候的4个角度。什么叫定义?刚才我们提到了规范性的问题,这放在第一个,要是定义不准,标准不准,你去做数据质量,再好的技术也没用。
图1.7
我们再看另外一个角度,我们讲这个是业界的角度,我们关注数据、规则、监控、遵从、可追溯、剖析,这是来自业界的一些理解。
图1.8
这个是来自我们对一些工具的理解,这里面我把工具名称给隐掉了,我相信大家也接触很多工具,这个工具我们看什么呢?我们讲剖析、集成、匹配、规则发现、数据补充、集成架构,这些都是我们在谈数据质量的时候,在不同的角度去理解这个问题。
图1.9
我想重点讲一下这张图,其实我们在谈整个数据质量的管理,当然这里不是我的总结,是业界的知识,在60年代、80年代的时候,谁最关注数据质量?基本上是统计的领域。然后到信息时代,80年代到2000年,我们号称信息时代。再就是2000年以后,我们讲这个阶段我们在看的事情。左边有很多方法论,当然这里不全,大家去研究数据质量的时候有这些流派,你们都能看的到。时间轴上也是这么走的,ISO 9000,最新的38505,包括一些大的企业方法论。
横向的,这是我们的数据积累,整个结构跟技术的发展是有关的,就是说数据质量的管理跟技术的发展会影响我们,当然我相信未来对我们方法论的一些反哺也会对我们现在整个数据质量发展的技术,包括我们做的事情是有影响的。
上下两个板块,下面板块就是数据质量衡量的维度。最早的时候我们看的是准确性,当时的场景,包括我们的技术手段,包括我们能做什么,包括我们关心什么,这个是准确性,接着是及时性,我们考虑的深度会越来越往这个方向走。
前面我们讲数据质量的管理是以人为中心的,为什么以人为中心呢?其实就是究竟怎么能够让我的企业用在最恰当的时候,我的感知是很重要的,要是我的感知没有办法有,我就没有办法知道具体这个事情做的好还是不好,所以在前面我们会做定义测量分析提升,再往后我们会看以应用为中心,以数据为中心,以服务为中心。
再往下我们现在讨论成本与效益,我们现在做很多事情的时候离不开成本、效益,以前我们可能不讨论,但是现在必须要讨论成本,现在是大数据时代,这是非常重要的情况。
未来的发展,这里面有几个技术,一个是数据探查的技术,包括我们刚才提到的NLP的技术,非结构化跟结构化数据,我们怎么把它们集成在某些共性上进行数据处理。自动标注技术,我刚才讲到了。还有一个规则发现技术,还有我们自动化处理技术。这些技术都会影响我们在整个数据质量的方法或者实施的路径,包括我们的效果。
图1.10
以数据探查能力为例,这里面我们有三个板块。最早的板块在我们人工的时候我们会做到浅色的这部分,比如说在早期的时候我们去体检可能只是X光就OK了,因为你没有太多手段,你们X光看到什么你就做什么。但是现在有CT了,现在还有无痛治疗的方法,非常多的技术,它会让你的探查越来越深,它会对你的数据脉络越来越清楚,这个也为我们未来做数据治理带来更多的技术支持。
数据探查包括我们的数据信息,包括我们的业务规则,都是支持怎么让这些东西做的更加通透,了解我们自己是什么,了解我们数据是什么,这是决定我们下一步应该怎么做的关键。
图1.11
第二个技术是自动化处理技术,我们现在也是在做这个领域的探索,这个自动化技术我们希望整合自然语言处理,包括结构化处理,包括我们现在迭代跟完善的规则,这些规则更好地让我们在整个数据处理过程中降低我们的成本,缩短我们的时间,这是我们讲数据治理的一些考虑点。
图1.12
另外我们要提出的是你在做数据质量,包括数据治理的时候其实有三个维度,首先你有什么样的技术,你有什么样的探查能力,有什么样的理解数据的能力,决定了你数据处理的效能,包括他的效益,也反哺告诉我们在做咨询的时候,在做管理制度的时候,哪些是我们的痛点,哪些是我能够得到的,哪些是不能够得到的。
中间这个是我们的技术,怎么去处理我们的数据,能够让数据更加清晰。上面是来指导我们在咨询里如何获得量化的结论,让我们的咨询能基于一些量化的基础进行一些预测,而不是仅凭一种理解或者一种经验,我觉得这是我们现在面对的主要问题,因为数据本身就实实在在存在那里,我们应该怎么去理解数据。
图1.13
我们企业管理有几个维度,包括考核、管理、方法、路径、模型,这是我们都要做的。这是我们相对的一些优先级, 包括我们的组织机构更重要,还是我的规范更重要,还是我们的支撑平台更重要,这个取决于我们每个企业他的特点,但是这跟三者是离不开的,我们应该怎么样比较好地综合这三种元素,来决定我们整个企业建设的方法。
图1.14
最后一章,我们要考虑的是时间、成本、质量,我们后续做数据质量、数据治理的时候离不开这三个维度,因为我们要落地,我们要真正为企业赢得效益,所以时间、成本、质量是我们的三个维度。
图1.15
最后给各位关于数据治理的建议:
第一,找到自己的起点。
第二,怎么解决标准问题。因为它是我们花最多时间,也最容易产生漏洞地方。
第三,一定要考虑时间与成本。它不是一个科研的项目,是一个企业真实的效能项目。
谢谢各位。