蓝灯数据董事长周强:“大数据”结合“小数据”才能有效破案

12月1日下午,由上海大数据联盟、数据猿主办的第20期魔方大数据在上海宝华万豪酒店成功举办。本期魔方大数据以“政务大数据”为主题,邀请了技术方和产业方大咖共聚一堂,共同探讨了政务大数据落地实施的有效路径。本文是数据猿整理“蓝灯数据董事长周强”的发言实录:

编辑 | abby

官网 | www.datayuan.cn

微信公众号ID | datayuancn

12月1日下午,由上海大数据联盟、数据猿主办的第20期魔方大数据在上海宝华万豪酒店成功举办。本期魔方大数据以“政务大数据”为主题,邀请了技术方和产业方大咖共聚一堂,共同探讨了政务大数据落地实施的有效路径。

以下是数据猿整理“蓝灯数据董事长周强”的发言实录:

大家下午好,非常高兴有这样的机会和大家分享我们公司在大数据方面的经验,我们公司叫蓝灯数据科技有限公司,已于2015年在新三板挂牌上市。

我们将自己定义为大数据领域中人的行为分析的专家,可以从三方面理解这个定义:

一、我们在大数据领域做什么?我们做的是大数据领域微观对象的关联关系。

二,我们做什么类型?我们做关联关系。

三,我们做的是大数据和小数据的混合体。

我今天发言的主题叫《AI时代的警务大数据》。

我喜欢称“大数据”为海量数据,因为海量数据只是数据的结构和种类,大数据则需要对图像数据、文本数据、音频数据结构化后进行对比。

目前我们对大数据我们产生一个误区即大数据越大越好,其实不然,80%到90%的数据未必能够产生真正有效的价值,在海量数据中真正有价值的数据可能只占到20%到30%。

我们在公安安全领域里面,更关注大数据和小数据的结合,两者之间有什么关系呢?大数据的核心是预测,例如投机学算法、人工智能算法。小数据的主要特点是微观、精准。

我们这个行业是总结数据,然后发掘潜在关系的。犯罪嫌疑人总是想尽一切办法隐藏、掩盖犯罪行为,我们做的事情就是通过数据的碰撞、梳理、比对、算法分析以后发现真相、发现关系。

在分析一个具体案件的时候,我们的分析手段有两种。

第一,从海量数据入手。比如高速公路上的卡口信息、上网信息、海量的基站信息等。

第二,结合微观数据。微观数据就是和一个特定对象有关的数据,这些数据可能是通过执法手段获得的,比如微信、朋友圈、通讯录、银行交易信息等这些小数据。这些小数据是在海量数据中寻找的,用特定对象的信息去寻找潜在的、隐藏的同谋以及受害人。比如做反电信诈骗案的时候,就通过海量的交易信息去寻找受害对象。

警务大数据是我们做的更加专业的领域。我们在警务大数据方面的思路用传统的方法叫做数据分析研判。我们有一套独特的分析模型,分析模型来自两方面,传统算法理论和社会网络关系理论,更多的是来自一些经验模型,我们叫做特征指标值模型。

以盗窃为例,盗窃其实是很专业的领域,分行业和种类,有些是技术开锁,有些是暴力盗窃,有些人白天爬高楼盗窃,有些人白天观察,晚上盗窃。在做盗窃模型时,种类是不一样的,每一种盗窃类型或者犯罪类型都有自己的特征模型。

春节前后技术开锁型的盗窃范围行为比较多,这种行为有怎样的特征呢?

第一,有地域特色。专门做技术开锁,用万能钥匙或者特别的钥匙开门的团伙,一般都来自某一个地区。

第二,他们有住宿习惯。盗窃前没钱,他们可能住一些小旅馆,50块、80块一天,盗窃成功后就可能住五星级酒店。还有入驻时间,正常人中午或者下午入住,第二天早晨退房。有盗窃行为的人可能是半夜或者是凌晨入住,这种情况我们就叫反常入住、反时差入驻。我们通过这样的分析建立特征模型,通过我们自己独特的分析体系来判断这段时间这个区域有没有出现这种行为的人,预测是不是会有物品盗窃。

我们是对数据进行收集,我们本身不产生数据。对数据进行分析主要取决于我们的模型,这种模型建立好之后可以产生预警作用或者特定人员核查的作用。

虽然有同类型的公司或者平台也在做,但我们的Itap产品是目前国内实战能力最强的。我们在这个领域做案件分析服务已经有15年了,我们的团队有15到20年的经验,收集了全国各地的犯罪模型,将其搭在上面。

每个省都有每个省的数据,公安机关的内部布置我们叫做平台节点,这些节点和节点之间我们叫做情报分享。情报分享不是去调用这些数据而是通过数据上面的模型去运算这些数据,然后反馈结果。我们在新疆做一些反恐分析的时候,就把一些恐怖分子或者疆独分子的信息在平台上进行分享,提供及时的情报分析。

数据分析不可避免会遇到可视化,我们的可视化区别于传统的BI做图形、报表、柱状图、热点图等。我们的可视化更专注于关系图,我们把热点图做宏观层面的可视化还有各种方式的微观层面的可视化展现。现在市场上有很多这样的开源软件,更多的是工具型的,我们通过线条,数据和数据之间的关系进行关联转线。

我刚刚讲了一个关键词叫微观对象,在我们的系统平台上微观对象是一个人,或者是任意一样东西,一个手机号、银行卡、一部车、一个车牌号、一个银行账户等,我们建立的不是人和人之间的关系,我们建立的是所有微观关系,可能是人和车的关系、车和手机的关系、手机和卡的关系、手机号码和微信号的关系,通过建立层层关系去发掘内部隐含的秘密或者事情的真相。

我们尽量做的让人看起来好看、直观,但从我们的角度来讲,我们在这个上面做了一些关系链接后,每一条路径的计算要能够一条线建立起来,或者这条线背后要有一定的算法支撑。大家对社会关系网络理论或者社会统计学比较熟悉的话,就会知道关系里面有几种度量指标,那么每一项指标怎么计算呢?

我们算的是这些关系路径的总合,通过路径总和来计算出每一个对象在一个圈子里面或者在一群关系里面的位置,通过这些指标的大小、差异,就是这几项指标值的分布确定这个人或者这个物体、这个对象在圈子的位置,我们曾经把这样的算法用在传销团伙的观察。在犯罪侦破里面,有的时候办案人员会去“养”这样的案件,在“养”的时候我们搜集了这些信息做分析,就是观察这个团队的动态发展变化。

例如,我们通过通话次数、通话频率、主叫次数、被叫次数等就可以分析和判断某个人在这个团伙或组织里面属于什么样的位置,预测未来这些人会怎么发展。国外将这方面的应用用在一些体育训练里面,上次我在美国看到他们用在足球训练上。一个场上有11个人,每个球员身上都装有一个传感器,在球上也装一个传感器,最后把这些人传球的次数、跑动的频率、跑动的时长、跑动的位置的数据拿出来做分析,分析中锋是不是起到了中锋的作用,前卫是不是起到了前卫的作用。

我们做可视化的时候,也有一些问题,可视化只是一个展现的方式,如果不结合一些关系模型的话,看到的就只是一张好看的图。一张热点图或者一张热度图背后一定会有各种各样的模型支撑。

寻找出关系以后下一步怎么做呢?传统的方法是同级比较分析,我们做碰撞、比对、关联、挖掘。数据查询、数据挖掘、数据关联、数据碰撞,这些都在超大表上面,因为我们背后用的数据库混合了各种各样的数据库,传统的数据库、图形数据库、文本数据库,数据已经放到了各种各样的地方。这些数据通过标签、索引等,进行碰撞、对比。我们的分析模型有从人到案的也有从案到人的。从人到案,通过分析人的数据去寻找我们未能发现的案件,另一种是发现了具体的案件,找出谁是具体的犯罪分子或者犯罪嫌疑人,这是两种分析模型,就是两种对比分析,我们把这样一个模式变成人到数据、数据到案件、案件到人的一个闭环体系。

平台的核心是模型的建立,我们将2000多个战法分到各种领域里面建立了将近2000多种模型来预警。青海省今年1月份部署了我们的平台,半年时间用特征预警模型帮助青海省公安厅查获了100多个犯罪分子。像旷世、云图这些提供图像算法、人脸识别基础技术的人脸识别公司跟我们的平台结合以后,我们把一个图形身份化,就是IP化,把图转换成身份信息、手机号信息,解构之后跟传统的数据放在一起进行比对。

信息一方面通过越来越多的数字化的手段获取,另外也有人力情报。有一个APP,被大家开玩笑的称为“朝阳群众”,我们在新疆上线了一个类似“朝阳群众”的APP,有将近50万的使用量。我们让社区群众使用这些APP,通过这样的APP掌握一些维稳线索,叫人力情报。如果举报一条有价值的线索,这条线索就会到后台,后台会分析,分析了以后就会给举报人奖励,受奖励的吸引,每天在线人数有将近20万。

在智能应用里面,现在人工智能很热,有各种各样的东西。人工智能也好、未来的新技术也好,我们是这些技术的积极应用者和场景设计者,去找好的技术,我们一起配合,用到自己的方案里面。

以上是在国家安全、公共安全领域里面我们所做的一些工作,谢谢大家。

(0)

相关推荐