读书笔记:大数据与反欺诈
一、什么是大数据?
“大数据”概念最早由维克托:迈尔舍恩伯格和肯尼斯.库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。
大数据的4V特点:海量的数据规模( Volume )、快速的数据流转和动态的数据体系( Velocity )、多样的数据类型( Variety )、巨大的数据价值( Value )。
二、什么是欺诈问题?
对于银行业来说,网上银行、手机电商、自助、POS、柜面等渠道经常遭遇钓鱼网站、木马病毒、电信诈骗的攻击,给客户资金安全带来严重影响。随着银行互联网化,银行在开展网络支付、直销理财、电商、供应链金融、消费信贷、P2P等创新业务,更是面临严峻挑战。
对于支付业来说,支付的互联网,,给金融客户交易体验带来极大便利性的同时,也同样面临着银行卡盗刷、洗钱、虚假交易、套现、薅羊毛等问题。以及监管机构的各项规定的下发,给支付风险管控更是带来严峻挑战。跨境电商业务,境外卡无密支付、欺诈问题涉及全球。
对于P2P、众筹、消费信贷领域,互联网金融的核心是风险管控能力,借款人冒用身份、老赖、多平台借款、黑中介、企业经营异常、贷后无法跟踪等问题。监管也明确指出加强风控管控。
以上这些欺诈可概括为两大类型,一是申请欺诈,二是交易欺诈。
第一类欺诈,申请欺诈:以欺诈为目的,申请个人信贷账户以骗取银行资金的行为。可细分为虚假身份申请和虚假资料申请两类。其中,虚假身份,指窃取他人身份证件(身份证、军官证、护照等),或伪造虚假身份证件,申请互联网金融服务的欺诈行为。虚假资料,指身份证件真实、有效,但工作单位信息(包括工作单位、工作单位地址、办公电话等)和住宅信息(包括住宅地址、住宅电话等)全部与实际情况不符的虚假申请欺诈。
大数据与反申请欺诈
大数据在反欺诈方面主要是通过收集:(1)身份信息。姓名、身份证号、手机号、银行卡号,、地址、婚姻、学历。(2)信用信息。历史贷款申请信息、还款记录、逾期记录。(3)社交信息。通讯录信息、社交平台数据。(4)消费信息。银行卡消费水平、消费能力、高风险行为。(5)合作机构数据。虚假地址、虚假单位、虚假电话。
反申请欺诈技术
利用模糊匹配章法:中文(简/繁体)、英文模糊匹配算法。
反欺诈规则引擎:按照区域欺诈特征,定制多维度规则集,实现快速计算。
侦测模型:逻辑回归模型和关联分析和聚类分析技术的集团欺诈侦测。
第二类欺诈,交易欺诈。交易欺诈一般指第三方欺诈,即所发生的交易非本人意愿的交易。通常是不法分子利用各种渠道盗取信息,进行金融作案。
反交易欺诈核心技术:神经网络模型。反欺诈领域普遍使用神经网络模型技术,该技术模拟人脑功能的基本特征,适合处理需同时考虑许多因素和条件的非线性问题。
神经网络模型核心信息:客户交易特征行为档案。客户交易特征行为档案用来记录客户的消费行为和交易模式,是交易反欺诈的核心信息。特征行为档案从各个维度刻划客户的交易行为,并且随着客户的交易活动实时更新,从而用来侦测当前交易和客户自身行为模式异同。欺诈分子可以盗用客户信息,但是无法复制客户的交易行为模式。