明略数据杨威:公安行业 AI 应用离成熟还有一段距离
在行业大数据领域,这家成立于 2014 年的公司在短短几年内发展迅速,在公安、金融、交通领域,尤其是公安领域拿下了不少客户,被视为国内大数据服务型公司的典型代表之一。
我们邀请到了这家公司的技术合伙人及产品经理杨威先生,探讨 AI 在他所关注的领域中发展到了怎样的阶段。
TGO 鲲鹏会北京分会会员、明略数据技术合伙人及 MDP 产品经理 杨威
从业务上来说,整个营收有成倍的增长。
从业务的方向上来说,我们更加的聚焦,锁定了公共安全、金融、工业几个大的方向,同时在每个方向具体的细分领域里面都有一定的拓展。尤其在公共安全上面,我们拓展到了更多的细分领域里面去。金融也是一样,我们原来可能做偏营销方面的多一些,现在是风控、内控、审计等都在做。工业,原来是轨道交通,然后现在也发展到了像城市地铁这种方向上面去。
然后,我们 2017 年也是完成了我们的新的融资。2017 年整体不算是特别突出,但还是符合公司发展预期的一个阶段。
我主要负责产品技术团队,去年完成了我们明智系统的第一个版本的发布。明智系统是对我们公司产品技术路线的一次大的重构和整理,相当于我们锁定了知识图谱为主要的产品技术路线。从知识图谱的构建到知识图谱的数据库、知识图谱的可视化分析、应用交付、智能问答方面的一些产品技术的积累,都在这个明智系统里面去做的。
我们在去年 8 月份的时候有一个发布会,发布了这个系统,这个系统现在已经成为我们支撑前面提到几个方向的客户的业务场景下面的整个底层,上面的技术产品、技术支持都是靠这套系统来做的。
这个系统是交给你们的驻厂技术人员来使用的,还是直接交付给客户的?
这是一个偏底层的系统,有点像数据仓库,把数据用一种知识化结构进行连接和管理。真正解决客户业务场景的不是数据仓库,而是基于数据仓库上的应用。在实际的落地过程中,都还是需要我们的现场项目人员、业务专家和客户一起来,探讨我们怎么用这样的技术手段去解决客户实际业务场景的业务问题。
业务层在我们这边会成为行业大脑的一部分,模型、算法、应用上的东西,都在这一层。最基本的通用知识库能够做三方面:一个是搜索;第二类是做智能问答,其实国内很多做智能客服、对话机器人什么,它的底层技术也会用到;第三类就是做辅助决策,这一类是我们现在做得最多的。其实知识图谱就是一种结构化的大数据,更加规范,是计算机能够理解的一种大数据的结构。
此外还有一种是用知识图谱直接解决认知智能的问题,但是目前还没有那么成熟,是作为一个长远目标去做的。
在信息化的过程中,我们客户一般都建立了非常多的业务系统,存储了大量的数据,而一般一个人的数据会分布到很多的系统中。那么如果没有一个统一的系统让他去做这种数据的处理,比如简单的数据检索这件事情,如果他想要找某种信息,他可能要查询十几个系统去获取数据,那这个效率就非常低下。如果我们把这所有数据关联起来,构成一个知识图谱,那么检索信息就加速很多了。这是最基本的一种方式,就是我要查询一个人的某些确定的信息的时候,我可以很快的查到。
在这个基础上,我们可以将业务决策中一些固定的模式、逻辑规则等等,那就可以进一步的加速一些案件的整合过程。这个我们去年有一个实际案例,就是在微博上引起很多人关注的一个在石家庄那边有一个奥迪车主打人的事件,那个事件就是客户使用我们的系统,用了五分钟就完成了整个案件的研判过程。他整个研判逻辑还是比较复杂的,但是整个过程的速度是非常快的,他们当时很快就抓到了这个嫌疑人,然后开了发布会,平息社会的舆情。
您觉得一个理想中的人工智能引擎是什么样的?
理想中的引擎,我一般会用 BI 的例子来说。BI 这个事情就是企业经常会出报表是吧?比如说你是餐饮店的老板,你可能请一个店长帮你去做,给你出每天的运营销售的数据。那假设他给你出了一个数据,一般会出一张柱状图,每天大概收入多少钱,这是正常 BI 系统都能做到的。
那么你可能看到柱状图,假设你看到周六周日的营收很低,你可能会有疑问说为什么这个营收很低,你肯定会问那个店长,那么店长可能会跟你说,回去查了一下发现他们周六下暴雨,周日是消防检查,那可能就影响你的营业。那其实是靠人去分析、去解读数据的一个过程,占了很多业务员很长时间。报告正常的时候好像没什么问题,但是一旦要分析不正常的业务情况,这个处理是占了大部分时间的。
我们希望这种行业的人工智能,能够把企业内、外所有的数据关联到一块去,在你生成你的报表时,它就关系到了比如天气数据等等信息,在给出报表的同时也可以给出这个报表的解读,就是为什么是这个样子?这个数据里为什么有那样的问题?相当于是我不仅给你数据,还给你这个数据存在的问题,以及这个问题的答案,这样的话对业务问题的解决会非常直接。当然在不同的业务场景,肯定还是有不同的表现形式的,不限于 BI 一种。
你们在工业领域做过火车头故障预测的项目,那里面的人工智能引擎是起什么作用?
人工智能其实有两个方向,一个方向就是机器学习或者深度学习,这是现在比较火的。另一个方向比较传统,是做推理,这个是人工智能从一开始就在做的。
火车头的故障预测有两个方面,一个方面是用机器学习或者是深度学习去解决的一个问题,它需要学习一定量的数据,然后去解决问题。另一个方面我们还在故障、安监方面做的一个工作,比如我们在地铁里边会做整个地铁运营的知识图谱。它解决什么问题呢?地铁轨道交通,包括我们最近接触的电力行业,都是非常复杂的,没有人有上帝视角看到全局的情况。比如说,地铁运行过程最常见的故障——自动屏蔽门不能自动关闭了。那么这个故障的解决可能先是那个站点的一个维修人员去看一下,他通常只能解决机械故障,如果不是这个门的机械故障,他就停在这里了,那接下来这个事情就要可能要找电力人员来看是不是电有问题,然后又得找一些网络通信的人来看等等。就是说,它需要多方人员协同去看这个问题,整个故障背后的根本原因发现是很漫长的过程。
地铁故障、延迟,其实背后很多都是类似这种原因。它反映的是什么?它这种复杂问题背后的这种跨部门或者跨公司 —— 其实地铁有很多不同的公司在运营 —— 跨专业的这种问题的解决,其实是需要有一种“上帝视角”去看这个事情,那么我们用知识图谱其实是把这里面所有的信息关联到一块去了,你可以很清晰的看到一个问题产生之后,它应该归因到哪几个方面,可能是哪几个部门应该去解决这个问题。同时我们会在相应的能够数字化的采集的地方去做数据采集,比如说对电压的采集,对网络通信的采集等等,这样的话,当这些信号出现问题时候,我们可以及时的发出报警,其实是可以提前的去解决这些故障。
是的。这里面最复杂的问题就是两点,第一是数据打通,第二是业务模型和数据模型的建立。相当于我们要做的就是那个全局的人,要能够把几个业务部门的信息串联起来,然后能够形成统一的一个知识图谱,这个过程是我们所有的行业里面第一个落地的过程,是最痛苦、最难的一个过程。它不单纯是个技术问题了。
您对于现在讨论 AI 就讨论到机器学习这件事怎么看?
我们是觉得,图像识别、语音识别这些属于感知智能,机器学习、深度学习在这个领域比较流行是因为很多这方面的公司是在依靠这些技术在做。
有理解能力、有推理能力的这一类认知智能,其实最主流的还是做知识图谱相关的。我们把符号和机器学习相结合,没有说一定只沿着哪个方向走。目前我们更偏向于先做知识图谱这一块,是因为行业知识的积累是一个漫长的过程,我们在做知识图谱构建的过程,就是我们去积累行业知识的过程。每一个细分领域里的知识图谱,它其实都有一定的壁垒的,不是随便能做出来的,都是我们的技术人员和客户的业务专家一块去构建出来的。
在知识图谱应用到某一个具体的场景里面的时候,怎么去解决一些具体的问题,肯定还是会涉及到很多机器学习、深度学习的场景。比如像我们做轮胎的故障识别,会用到深度学习这方面的技术手段。
您今年比较关注的技术层面的研究成果有哪些?
我比较关心的,一方面是自然语言处理方面的,尤其是自然语言理解这方面的一些技术。然后另一方面会关心多模态的一些学习。因为我们所处的领域里面,它不像图像识别和语音识别会有渠道获取大量的标注数据。我们所处的业务领域,它的标注数据非常少的,比如说一个银行里面做风控的,真实的案例总量其实是非常少的,没有那么多可以供你去学习的。再比如说故障这件事情,其实所有的故障都是很少,因为本身这些设备出厂的时候就已经是故障率很低的,真实在运行过程中也不会积累那么多,积累几百起就已经是非常多的这种情况,那么我们怎么从这里面去快速的获取到它们的特征?这里面会用到很多小样本学习的技术手段。
我们会比较关注这方面的一些东西,包括人的学习能力 —— 人其实就是非常强的小样本学习能力,给你一个新的事物,新动物给你看几张图片,你大概就知道这个动物长这个样子。另外人有迁移学习能力,之前做过某些事情,知道了这样一个过程,所以后面再看到类似的东西的时候,我也知道是这样。
我们公司有专门去考察的一些同事,他们有一些出国的机会,就顺便参观很多这种公司。对于我们现在这个发展的阶段来说,多了解一些别人解决问题的方法,还是很有用的。另外一些技术会议,尤其是跟知识图谱相关的,我们都会关注的多一些。
我觉得不算有特别大的进展。其实深度学习这套系统出来之后,还有整个计算能力的提升,对自然语言理解是有挺大的改善的,但是离真正实用 —— 尤其在我们这个业务场景下使用 —— 还是有一些距离。其实技术的所谓成熟,跟它应用在哪些业务场景还是很相关的,有些业务场景可能确实要求没那么高,你可能用起来就会觉得比较成熟了,但是我们现在的业务场景对于结果的准确性方面要求非常高。单纯的通过机器学习的手段,目前很多比赛的数据出来已经到达了准确率大概 80% 多,那么在真实的业务场景里面,如果对话系统里面十句里面有两句错误,这个影响还挺大的,尤其它是对话式,你中间一个回答错误,可能这个事情就不知道怎么往下走,所以我们可能不太敢直接就去给客户把这些技术用到实际的业务场景里面去。
比如在公安的领域里面,对一个案件信息的关键内容提取准确率是比较容易判断的,但是我们对于整个案件的语意上面的理解是比较难做的,难以很清楚的去衡量这件事情。我们需要在客户那边构建出来非常全的一个知识图谱之后,当知识图谱本身的识别能力、推理能力具备一定基础之后,自然语言理解才有机会做到准确。
那就目前的情况来说,您怎么知道做出来之后效果好不好?
跟上层应用有关系了。比如银行里面比较关注资金流水的分析,那我们在设计数据模型的时候,对于资金流水这件事情的时序关系要去解决。公安里面可能关系研判是最常见的场景,那这个和银行里面做资金流水分析这种持续性、有大数据量的场景是不一样的。所以我们就在各种场景里面不断去打磨整个底层的产品。
您现在觉得技术实现和业务实施,这两个方面哪个挑战更大一些?
主要还是业务。很多领域发展到现在阶段,很多业务场景的探索和我们技术的探索是同时进行的。比如说银行的内审,有很多传统的审计手段,他们也在探索新的手段,然后他在构建系统的过程中,我们一直一起来探索业务上面有哪些方法去分析数据,去找出审计上的问题,同时我们怎么样用技术手段去支撑这个过程。一些比较前沿的项目,不是说上来客户就很清晰我现在要的是什么东西,你给我做一个就行了,是我们跟客户一块去建设系统的一个过程,跟以前的业务模式很不一样。
您觉得客户现在遇到的比较大的挑战是怎样的?
我觉得客户对现在大家所说的 AI 技术能够帮助他们做什么事情还处于挺迷惑的一个阶段。比如说公共安全领域,他们目前比较能够明显地感知到的就是像人脸识别这方面,图像处理这方面,他们比较能够快速感知到技术带来的收益,但是在实际过程中也遇到很多问题,单纯的人脸识别是达不到最终解决业务问题的程度。需要把 AI 技术继续和他们的业务寻找深度结合的场景。
您觉得 AI 应用到客户需求这方面,现在是处于比较早期的阶段,还是有点成熟的阶段?
我觉得离成熟还要差一段时间。
这么说,如果资源足够的话,这些问题都能解决,但是现在确实是计算资源不够,人力资源也不够,所以很多问题都需要时间和技术的进步再去慢慢去梳理,包括整个系统建设的周期也是需要时间。比如说公安的系统建设,前一两年一般都在建基础数据平台、云平台,那么这一两年可能更多的在做数据的整合,然后真正的上一些大数据相关的应用系统,但是这个还只是把之前解决问题的效率提升了,没有达到那种智能化的阶段。比如说我们想要达到的,当一个案件出现的时候,这里面相关的线索能够快速地进行推演,把潜在的一些可能性给挖掘出来,目前这个过程还是靠人去和数据做不断的交互、去做推演,这个对人的要求也是挺高的。
你们现在相当于是研发这块,知识图谱搭建有一批人,然后去执行项目有一些人。两批人平时的时间投入大概是怎么样的?
我们做得比较成熟的这种领域,比如安防领域的,其实整个流程是非常快的,我们自己内部拿到数据之后,大概也就一周到两周时间。但是拿到数据的过程,他需要客户那边做一些审批、沟通等等,这个过程有时快有时慢,取决于客户那边推动的速度。然后剩下的过程可能是围绕知识图谱上面的应用建设,比如说做营销里面是做相关的用户画像、推荐,金融里面风控、监管,包括还有公安里面的研判、犯罪模型,其实就是复用和调试的过程。
一些新的领域可能整个构建过程就比较长,从构建知识图谱的过程中,你要去理解它的业务模型和数据模型是一个什么样的关系,怎么去构建知识图谱里面的数据模型,应用的时候怎么用这些数据,都要去考虑,有时候会做好几轮的迭代,可能第一轮的建设在应用过程中不见得那么好用,可能就要推倒重来。但是做过一个之后,我们就会比较清楚怎么做了。
总体来说,我们的产品技术人员会直接参与到项目里面去,几乎每周都会跟研发部门沟通,每周有要解决的问题。我们基本上每个重点的项目在初期都会都是这样的一块协作去完成的,但已经成熟的模式就 copy 就可以了,因为我们的工具化程度还是比较高的,经过培训能够熟练操作这套东西,然后大数据技术有一定了解,一两个人就可以完成。
构建知识图谱的过程中,尤其从非结构数据里面提取数据关系的时候,会用到一些机器学习。但是主要发挥作用的话,还是在应用层发挥作用会更多一些,比如金融里面的非结构数据非常多,比如说信贷的风控,贷前、贷中、贷后都是他们关心的。一个企业可能运行的挺好的,但是他是乐视的供应商,可能哪天就出问题了。所以要根据企业的工商数据、公开的公司的财报、研报、信贷员的报告等等进行分析,就需要自然语言分析的技术。
数据的整理工作是很复杂的一个事情。把所有的数据融合到一个知识图谱里面,是一个数据治理、数据标准化、规范化的过程,工作量很大。我们的产品也是经历了两三年的迭代,才是在熟悉的领域 —— 比如公安系统 —— 一两周之内做完,然后能每天正常运转。新的领域里面,这个过程可能还会持续了半年或者更长的时间。比如我们最近接触的电力行业,电力行业其实是相对比较封闭的行业,他们的业务系统有 200 多个,一个业务系统就是几百到上千张表,整个的规模非常大。如果我们想要把电力所有的业务系统梳理成一个制度,我觉得没有几年是做不完的。
你们现在的状态是集中服务几个大客户,还是集中发展更多客户呢?
新的行业肯定是集中先服务头部客户。成熟的行业像公安领域,我们其实已经全国各个省覆盖比较多,做解决方案的 copy 基本上就可以。公司毕竟还是要盈利,如果每一个地方都不断去探索新的合作模式,那整个公司的成本还是非常高的。现在的话,成熟业务已经能够养活大家了。
杨威,TGO 鲲鹏会北京分会会员、明略数据技术合伙人及 MDP 产品经理,海量数据存储与计算、大数据平台建设、大数据技术应用方面的杰出专家,在大数据平台建设规划和大数据项目实施落地方面有着丰富的实践经验。杨威于 2008 年毕业于北京大学计算机系,从 2008 年至 2010 年在酷我音乐从事高性能后台服务研发工作,2010 年加入秒针系统后参与了广告监测平台、广告投放平台、广告交易平台以及大数据平台的架构设计与研发工作,2013 年至今在明略数据主要负责大数据项目落地与大数据产品研发,并先后主导过大型电商企业的流量监测系统、大数据平台和 Hadoop 数据仓库的建设,金融企业大数据分析平台的建设,以及电信、公安等多个领域的大数据平台规划工作。