机器学习引领智慧金融,变革万亿规模实时支付风控模式

随着我国银行业全面开放和深化改革,互联网金融的不断发展以及电子银行、手机银行交易系统的全面铺开,与这些全新业务模式相伴而生的欺诈风险也在频繁发生。各类跨业务、跨条线的欺诈风险更是层出不穷。

作者 | 亚信数据

官网 | www.datayuan.cn

微信公众号ID | datayuancn

本文为数据猿推出的“金融科技价值—数据驱动金融商业裂变”大型主题策划活动第一部分的文章/案例/产品征集部分;感谢 亚信数据 的投稿

随着我国银行业全面开放和深化改革,互联网金融的不断发展以及电子银行、手机银行交易系统的全面铺开,伴随这些全新业务模式而生的欺诈风险也在频繁发生。各类跨业务、跨条线的欺诈风险更是层出不穷。这些欺诈问题,对银行社会声誉以及用户财产安全都造成严重威胁。随着大数据、云计算等技术的发展,也给金融领域各类新形态欺诈问题的解决带来了新思路。

1、支付风控问题与现状

金融行业经营是风险,只不过它往往以货币或者钱的形态表现出来。金融的本质就是对于风险的管理,其中比较重要的风险包括:市场风险、信用风险、操作风险、法律政策风险等等。金融业发展的历程也是对于风险管理不断明确深化的过程,著名的巴赛尔框架就是对金融风险管理方法和最佳实践的系统性的总结。框架中对金融行业方方面面的风险管理,都进行了一定程度的规范和量化。我国的银行金融业也在央行的要求下,正在全面深化和落实巴塞尔风险管理框架。

随着整个银行支付网络的电子化、全球化、移动化发展,支付中的欺诈风险也在不断提高。请设想如下情景:我们有一位中国的持卡人,他的太太早上在网上用他的这张信用卡,支付了他家庭当月的电费。他们的孩子在美国求学,课余时间用这张信用卡的副卡在平板电脑上购买了一款游戏。而这位中国的持卡人是位商务人士,他正在澳洲出差,中午他在澳洲的一家饭店的POS机上用信用卡支付了午餐费用。面对这样丰富的全球化支付场景,银行面临着一方面要尽量保护持卡人的账户资产不受损失,另一方面还要让整个支付流程顺畅进行,这样一个两难的挑战。

技术挑战与金融大数据

如何能精确判定哪些支付行为是合法的、哪些是金融欺诈行为,一直是个充满挑战的技术问题。众所周知的信用卡盗刷犯罪,就是非常高发的一种金融欺诈形式,这类犯罪每年给持卡人和银行造成的损失都非常大。欺诈行为是人类的发展过程一直存在的问题,而且欺诈者也对其金融欺诈的模式进行不断演进。反欺诈检测这个工作难做,大致有以下三方面的原因:

首先,消费者和欺诈者这两方面的行为模式都变化很快。随着互联网和电子商务各种创新业务模式的发展,每天都有各种新的消费形式和消费渠道涌现。消费者正常的消费行为已经很难被简单描述出来。与此同时,欺诈者也会根据这些新的发展,不断改变调整自己的行为模式,已到达逃避检查和规避法律制裁的目的。

其次,确切而完整的欺诈案件数据相比浩如烟海的正常消费数据来说非常少。这也有两方面的原因,一方面,之前我国银行对反欺诈工作的重要性可能认识不足,而且也没有很好的系统来辅助支持这些欺诈案件信息的完整入库;另一方面,很多人受到了欺诈行为的侵害而本身却毫不知情。受害者可能是收到信用卡对账单时,才知道有盗刷的交易存在。这也就造成了银行方面很难及时发现一些新的欺诈问题的苗头。

我们还应该看到,想要真正完整确认一起欺诈案件,往往还是需要专业人员进行细致的线下调查,很多时候还需要和公安部门进行配合,这样的成本往往很高。综上这几点原因,如何有效进行反欺诈检测是一个复杂的、系统性的、富有挑战性的问题。

与此同时,我们也要看到,在现代的支付环境下,金融欺诈检测问题本质是一个大数据的问题。支付网络的节点数往往是千万甚至亿级别的,整个支付流程所触达的分布式系统更是数不胜数。每一个节点和系统都会不停地产生大量的数据。

以一个比较著名的第三方支付平台Paypal为例,每年Paypal平台要处理50亿笔支付请求,每秒钟峰值达到300笔。全球有250万个开发者,在利用Paypal平台提供自身应用所需要的支付功能。Paypal的数据平台所储存的数据也到达42个PB。这样的庞大数据量和支付场景实时性要求,显然需要强有力的大数据平台软件和硬件的支持。

2、数据驱动的支付欺诈检测

数据驱动模式想要成功要有三个必要的因素:

l )要强而有力地进行特征工程,提取和欺诈行为相关的特征因子,并辅以有效的机器学习算法和统计模型。

2) 要有高性能和高可延展性的大数据软硬件平台,以便在大数据环境下实现相关计算和模型算法。

3) 要有一个优秀的团队,团队的组成包括数据科学家、大数据工程师、已经熟悉反欺诈实务的分析员和业务专家,大家共同配合才能做好这个事情。

除了上述三点之外,数据驱动方式最重要的因素显然就是要有大量的数据,以支撑机器学习模型机建立的需要。

银行产业数据的特点

在亚信提出的产业互联的大背景下,每个行业都有其独特而不可取代的核心数据,像银行这样关系国计民生的命脉行业更是如此。具体来说,银行要掌握以下四大类核心信息:

首先,银行非常了解他的客户,特别是有贷款业务的客户,银行往往进行过非常详细缜密的背景调查,其所掌握的客户信息非常完整。

其次,银行掌握整个金融网路中每一个账户的动态,任何账户之间的资金流转都在银行严格的监理之下进行。

第三,银行掌握客户的每一个交互操作,从账户余额查询到账户密码的更改、各种权限的设置,银行都会一一记录掌握。

最后也是最重要的,银行了解每一个支付交易的支付场景,大到数额客观的客户投资,小到手机充值缴费,银行了解每一笔支付的情景和详细的上下文信息。这些银行的核心信息,为广泛提取风险行为特征提供了坚实的基础。

图1:风控模型系统架构

机器学习风控模型的系统架构

图1展示了机器学习建模的系统架构和信息流程。图左半部分是实时模型决策部分。它主要包含了特征服务,模型服务,和决策引擎三个部分。特征服务提取实时交易报文中的关键信息,产生实时的风险特征。

模型服务中包含已经训练好的反欺诈预测模型,模型会使用特征服务提供的实时特征,以及离线分析系统利用历史信息所提取的离线风险特征。这些离线特征是利用长时间周期数据计算而成的,往往包含用户长期的行为信息。模型服务会对每一笔交易都做出欺诈风险预测。模型服务的预测结果会输出到决策引擎,决策引擎会进行进一步的量化评分,以便触发相应的风控动作,这一部分我会在后面更详细的加以介绍。

在看到图的右半部分,实时信息通过分布式的日志系统和大数据流处理平台被积累到离线的数据平台上,当然这些实时信息也会被用于实时监测以了解整个系统运行的情况分析和建模系统利用离线数据平台中的数据,进行特征的提取和模型的迭代训练。模型迭代的频率一般是每天一次。除了利用新获取的信息训练模型之外,模型迭代过程中的重要一步就是要对模型进行历史数据的回测。通过数据了解模型的准确度,掌握可能得问题,以便进一步的调优。这个过程需要用历史数据大量的进行仿真回测,只有满足系统性能要求的模型才会被推送到实时的生产系统中进行使用。

图2:机器学习建模流程

图2描述了利用机器学习进行建模的一般流程。首先,我们要对现有数据进行梳理和清洗。然后利用各种适当的统计计算方法,大量广泛的提取和预测目标相关的特征信息。之后,再利用系统性的方法来对提取的特征进行进一步的筛选。经过这样一个过程之后,准备好的数据特征就可以输出到适当的机器学习算法中去进行模型训练。训练模型的时候,根据数据测试的效果,还要对一些先验性的模型参数进行调整,使模型的预测性能到达最优。最后,经过调优的模型就可以用到生产系统去进行使用。当然,如果有新的数据或者新的特征提取思路,我们可以快速重复和迭代整个过程,不断改进现有的模型。

数据探索与特征工程

数据处理流程中重要的第一步是对现有数据进行清洗和梳理。现实中的数据往往不是完美的,而且不同类型的数据也有其自身特有的特征。比如,很多现实数库中的记录并不完整或者不准确,会出现漏填、错填的情况,清洗时要选择合适方法进行适当的补全或者更正。很多数据集本身是倾斜而不均匀的,比如在反欺诈中,好样本的数量要远远多于坏样本,经济发达地区的交易记录要远多于欠发达地区,这些因素在数据清洗时都要做适当的处理和调整。

另外,很多类别性的离散数据也不能直接被机器学习的模型所使用,要先进行一定的转换。数据梳理过程还包括结合大数据平台数据处理的特性,设计合理的数据结构和算法来支持数据的快速存储和调用。比如为了计算账户的行为特征,这就需要我们把大量无需的交易数据按账户号聚合,按交易时间排序。总之,数据的清洗和梳理工作为之后的特征提取和模型训练打下坚实的基础。

结合到反欺诈检测这个具体情景,我把所用到的特征按其包含信息的层级有微观到宏观分为三大类:

粒度最细的是交易级别的特征,这些特征是需要在交易和支付发生的那个时间才能采集到的,比如交易的类别,支付的手段,交易的金额等等。这些信息非常重要是构成高层次特征的原子信息。

再上一层的是账户级别的特征,比如账户的交易频率,账户的交易一般发生的时间段,等等。对于这些特征信息,我们往往需要回溯历史,比如一周,一个月,甚至几个月才能准确获取。

最宏观的特征是支付网络级别的特征,如果我们把每一个账户看做一个节点,每一笔交易看做连接节点的边,那么我们就可以构建一个涵盖所有账户所有交易的支付网络。

有了这个宏观的网络视图,我们可以清晰的看到是否在短时间内有很多的账户向同一个账户来进行付款,如果有那么我们很可能要更进一步了解这个中心账户是否有正当的理由来支持这样的行为特征。每一个级别的特征都会给反欺诈模型提供相应维度的信息,以便进行风险的综合预测。

特征与模型选择

随着大数据和各类开源技术的发展,我们已经有了很多很强大的大数据的机器学习工具。选择好适当的工具可以极大的提高工作的效率。在欺诈检测的模型的建立过程中,我们选取了深度学习模型作为其中的一个主要算法。深度学习的概念源于人工神经网络的研究。它模仿人脑的结构机制来解释和学习数据。结构上他是由一层层的神经元网路组合而成。深度学习通过组合层次递进的方式,用低层特征形成更加抽象的高层表示来提取和发现数据的内在联系。近年来随着并行计算技术的发展和一些理论上的重要突破,在很多的应用场景下,深度学习的效果相比传统的机器学习算法有了非常大的提升,在视频、图像、音频的理解和学习上有着非常广泛的应用。

深度学习的优点也是很明显的,首先由于层次化的模型结构,使得模型本身带有特征提取和特征选择的功能特性,这一优势特性可以大大降低对于人工提取特征的依赖度,模型自身可以对基础信息进行非线性的组合筛选,得到不能直观想象但是有效的特征因子。另外,训练好的深度学习模型往往可以表达为一系列的矩阵的运算,这使得他在生产系统中的运算效率极高,可以满足很多实时系统的计算效率要求。

很多的机器学习算法都提供充足的参数空间,支持训练任意复杂度的模型,以深度学习算法为例,我们可以自由的决定模型的深度也就是神经元网路的层数,每层的神经元数量,以及每个神经元的触发函数等等。但需要注意的是模型过于简单或者过于复杂都难以取得理想的预测准确度,然而这些模型参数的配置往往是先验的,需要根据训练出的模型在实际数据集上的性能判定优劣。所以我们需要尝试不同的参数组合,最终找到在一定的数据集特征下最优的参数配置。

我们再次快速的回顾一下整个数据驱动建立欺诈检测预测模型的流程。从左到右,我们从原始数据的清洗和梳理开始,到大量广泛的提取相关特征并有效的进行筛选,在确定了机器学习算法后,我们就可以利用梳理好的特征数据进行模型训练、参数选择、性能回测等工作,最后得到可以用于生产系统的预测模型。

3、实时支付欺诈检测系统

亚信数据硅谷人工智能研发中心团队为实时金融欺诈提供了一整套完整的系统解决方案。之前着重介绍的基于机器学习风控模型只是其中的一个子系统。整个系统的实时部分设计完全基于大数据流处理平台和高性能的实时数据库,保证了高并发低延迟的实时响应能力。系统也提供全生命周期的金融欺诈检测和防控功能,除了欺诈检测模型,这套系统还会进一步的进行风险的量化评分,以便触发相应的风险控制策略。这也是之前讲到的决策引擎的主要算法逻辑。

风险量化评分考虑到欺诈风险和交易金额两个因素,欺诈风险越大,交易所涉及的金额越多,风险评分就会越高。根据风控模型实时计算的交易风险评分,系统自动采取对应的策略。主要策略包括:交易放行、警告、短信提醒、加强验证、人工坐席核实,直至自动交易阻断。客户短信验证,客服坐席核实的结果也都会及时反馈到大数据分析系统的数据库中,以供模型更新使用,使整个系统中的信息形成闭环。也使模型可以快速迭代更新,大大提高模型预测准确度。

总结一下,实时金融欺诈检测系统主要提供了4个方面的能力:首先,引入数据驱动的风控模型,以机器学习为基础,科学设定反欺诈规则,实现从数据到业务语言以及机器代码的转化。其次,实现了包括电子、手机、网银等多渠道的全面数据接入,提供完善的欺诈案件记录和处置的功能,填补事中风险管控工作的空白。第三,系统提供了优化的交易风险处置,通过量化风险,触发不同级别的防控策略,优化系统效果和用户体验。最后,可以提供全面的报表和分析功能,实时监控全局的风险情况,以便掌握信息。

-作者简介 -

於今

澳大利亚新南威尔士大学计算机博士学位,亚信数据CTO,全面负责公司产品战略、产品架构设计、人工智能核心算法打造和新产品孵化等工作;曾先后服务于中国最大的在线旅游社交平台马蜂窝,担任技术副总裁兼首席架构师,以及在全球第二大广告交易公司OpenX担任技术副总裁兼首席架构师;於今也曾是一位创业家,分别创立过专注于社交大数据开发的Portaura公司和专注于电子商务搜索引擎的Martsoft公司。

常剑

亚信数据硅谷人工智能研发中心主任,宾夕法尼亚大学 (University Of Pennsylvania)计算机博士,清华大学本科。博士期间进行了大规模分布式系统的安全与信任问题的研究,专注于大数据和机器学习技术的研发工作。领导技术团队与中信银行成立业内第一个金融科技创新实验室,进行支付欺诈防控,智能投顾等新产品的研发,在医疗领域进行人工智能在各场景落地的探索研究。

作为整体活动的第二部分,2017年10月25日,数据猿还将在北京举办千人规模的“2017金融科技价值——数据驱动金融商业裂变”峰会并将在现场举行文章、案例、产品的颁奖典礼

(0)

相关推荐