【金铃干货】李杨:从数据整合到数据智能
2020年12月4日,由零点有数主办的以“面对难题,高举数据智能解法的大旗!”为主题的中国数据智能应用峰会暨2020第十届数据智能应用典范金铃奖颁奖盛典顺利召开,全国观众超250万人次通过多媒体平台同步观礼。
大会特别邀请了中原消费金融大数据平台架构师李杨,以《从数据整合到数据智能》为主题作精彩分享。
下文整理自李杨先生的演讲实录:
“从数据整合到数据智能”是中原消费金融近些年在数据道路上的实践,中原消费金融成立于2016年12月,在2017年4月立项数据项目,2017年6月正式启动该项目,并于2017年11月左右上线,在这一年内主要基于离线数据进行整合。
回顾第一年的历程,我们认为企业在数据项目启动时要趁早,最初有能力但没有去做,未来将会付出更多成本。数据整合的意义主要分为两个方面,第一个是基于经营策略的支撑,指的是在BI层面的经营分析和战略发展,另一个是基于用户层面还原用户的真实需求,用户通过产品进行触达,所收集到的用户数据是极少的。如何通过少量的数据还原用户本身的性格,以及使用该产品的场景和情况,判断用户是真心喜欢该产品还是朋友推荐等其它因素,这些都可以通过AI层面的分析去还原。
通过近些年的发展,我们建立起一套数据架构,在底层的基础设施层面有离线仓库、实时仓库、图计算、流计算以及搜索引擎等,基于基础设施的基础数据上构建出离线指标、实时指标、数据提示以及机器学习平台、部署平台等。在数据处理加工后,快速地支撑数据应用和数据服务,数据应用有可视化的大品类展现的应用、基于移动端的可视化展示应用、自助分析、用户画像以及数据交换等,在这个基础上构筑出一个统一的认证以及接入统一的产品层。在这几个层次上,先进行离线整合有助于离线OLAP分析和自助分析,再到实时整合去提供实时、准实时的服务。
离线数据整合的使用者会对数据时效性提出挑战,我们希望当日看到的数据是实时数据,这些数据通过离线或实时的方式整合后可以进行很多应用,包括可视化BI分析、AI分析以及一些变量加工来反哺业务系统。在数据应用的积累可能会发现很多同类型需求,如何把同类型需求应用往更高层次转换成服务,不针对某个具体的需求开发,而是针对同一类型的需求开发,就是在数据服务层面上的探索点,现在可以提供有实时接口的RPC服务、存储服务、数据交换以及流式计算服务等。
我们在发展数据应用的阶段已经开启数据智能化的探索,比如早期在OCR领域将OCR证件识别层面嵌入到APP产品里,帮助客户快速录入证件,达到提升用户体验的效果;在人像识别、声纹识别以及TTS LP领域也辅助了在线客服、在线智能机器人这些层面。通过这些领域的探索,可以有效地帮助客户提升产品使用度并提升服务提供者的办公效率。
数据智能探索的一个重点是反欺诈领域,对于我们而言,有很大的精力和重点是在防黑产,这些黑产对于很多人是小概率事件,但在互联网金融领域必须重点防范。原因是互联网金融没有能扛得住团伙欺诈的,如果有一万个人欺诈,每个人骗走一万块钱,这会是一个亿的真金白银,只有把黑产拒之门外,才有更多的精力和资源为真正有需要的客户提供普惠金融服务。通过判断发现,他们有共同的特征,比如会在同一个地方连接同一个GPS或在相似背景使用同一个设备。那么能否通过技术手段把数据特征关联起来,这也是图计算的重点研究领域。并非所有关联的客户都不是好客户,也会有中介,但并非每一个中介都有欺诈嫌疑,也包含好中介。能否在智能领域进行背景识别,识别的不是主体目标,而是去除主体目标的背景,结合这种背景识别技术,把相似度比较高的人员以及周边相关联的位置、设备等其它要素关联起来,有效地辅助反欺诈人员进行反欺诈甄别,这就是反欺诈领域相关的智能探索。