用户画像方法小结
用户画像,英文为Customer Profiling或Persona,核心在于标签化,目的在于得出结论,业务决策。
一、实践经验
管理层想要用户画像,个人感觉主要有两方面的业务原因:
1、风控,特别是基于历史数据中,带来最大盈利的用户,放款后发展越来越好的用户的特点,进行数据挖掘。
2、产品设计,如何更加场景化,增加产品的吸引力。
其他诸如拒绝回捞、精准营销等都是顺手的事情了。
逼格很高,数据丰富,领导宏图大志,希望画像越丰富、越细致越好。工程浩大,但实际业务人员却觉得没啥用,无法直接支持运营,又看得人头晕目眩,沦为数据的简单提取和统计加工。这里总结一下失败的原因,也算没有白干。
1、回头来看,至少应当先做一些简单的、必须的数据项,根据业务的需要再逐步增加,节省物力人力,对于增加内容也有的放矢(很可能是来自业务的实际需求)。
建议前期包括的数据:人口基本属性、历史信用属性,我司历史申请还款记录,要以强相关信息、定性数据(标签化、抽象化)为主。目标是协助业务筛选出感兴趣的客户,定量数据不利于业务直接适用,也由此看出穆迪这类公司为什么会输出企业评级而不是企业信用分。
2、问题定义与问题不可解。
首先,应当具体的场景具体去选择合适的用户标签,不存在一个通用的用户画像。先有业务场景,再有字段需求,如利用银联数据+自身数据+信用卡数据,发现信用卡消费超过其月收入的用户,推荐其进行消费分期。
其次,如放款后的客户,多次续贷并且企业发展越来越好,个人认为是比较难通过内部的一些数据描绘出来的,本身就是一个无法转换为数据问题的业务问题,不可解。
最后,我们的用户标签是很粗浅的、稀疏的,最大的价值就是方便一点、集中一点,想要对业务有更大的价值,应当提取的是隐形的标签(业务无法直接获取的),比如用户的贷款目的、用户资金偏好(适用于授信后客户拒绝接受场景)、产品的使用频次等,当然这需要使用一些模型(简单的规则模型也行)和算法得到。
二、案例研究
1、电商案例
用户样本筛选,目的是区隔用户,可以将复杂的后台数据(业务不可得或需消耗大量精力获得)转换为简单、可理解的业务标签(用户描述)。
用户画像的数据模型,可以概括为下面的公式:用户标识+ 时间 + 行为类型 +接触点(网址+内容),某用户因为在什么时间、地点、做了什么事,打上XX标签(如母婴、红酒等)。
用户标签的权重可能随时间的增加而衰减,定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:标签权重=衰减因子×行为权重×网址子权重。
2、标签体系案例
构建标签体系
主流的标签体系都是层次化的,首先标签分为几个大类,每个大类下进行逐层细分。
基于原始数据首先构建的是事实标签,事实标签可以从数据库直接获取(如注册信息),或通过简单的统计得到。这类标签构建难度低、实际含义明确,且部分标签可用作后续标签挖掘的基础特征(如产品购买次数可用来作为用户购物偏好的输入特征数据)。
模型标签是标签体系的核心,也是用户画像工作量最大的部分,大多数用户标签的核心都是模型标签,需要用到机器学习和自然语言处理技术。
最后构造的是高级标签,高级标签是基于事实标签和模型标签进行统计建模得出的,它的构造多与实际的业务指标紧密联系。只有完成基础标签的构建,才能够构造高级标签。构建高级标签使用的模型,可以是简单的数据统计,也可以是复杂的机器学习模型。
具体标签构建
以三类标签为例,三类标签的特性、使用的技术均存在差异。人口属性标签,比较稳定,一旦建立很长一段时间基本不用更新,标签体系也比较固定;兴趣属性标签,随时间变化很快,有很强的时效性,标签体系也不固定;地理属性标签,时效性跨度很大,如GPS轨迹标签需要做到实时更新,而常住地标签一般可以几个月不用更新。
很多产品(如QQ、facebook等)会引导用户填写基本信息,包括年龄、性别、收入等人口属性,但完整填写个人信息的用户只占很少一部分。一般会用填写了信息的这部分用户作为样本,把用户的行为数据作为特征训练模型,对无标签的用户进行人口属性的预测。这种模型把用户的标签传给和他行为相似的用户,可以认为是对人群进行了标签扩散,因此常被称为标签扩散模型。
通过分析,我们发现男性和女性,对于影片的偏好是有差别的,因此使用观看的影片列表来预测用户性别有一定的可行性。此外我们还可以考虑用户的观看时间、浏览器、观看时长等,为了简化,这里只使用用户观看的影片特征。对于预测性别这样的二分类模型,如果行为的区分度较好,一般准确率和覆盖率都可以达到70%左右。
兴趣画像是互联网领域使用最广泛的画像,主要是从用户海量行为日志中进行核心信息的抽取、标签化和统计,因此在构建用户兴趣画像之前,需要先对用户有行为的内容进行内容建模。内容建模需要注意粒度,过细的粒度会导致标签没有泛化能力和使用价值,过粗的粒度会导致没有区分度。
新闻数据本身是非结构化的,使用文本主题聚类完成主题标签的构建,形成对新闻内容从粗到细的“分类-主题-关键词”三层标签体系内容建模(如LDA之类的)。在完成内容建模以后,我们就可以根据用户点击,计算用户对分类、主题、关键词的兴趣,得到用户兴趣标签的权重。
这表示用户对每个词的兴趣表示词在这篇新闻中的权重。该公式有两个问题:一个是用户的兴趣累加是线性的,数值会非常大,老的兴趣权重会特别高;一个是用户的兴趣有很强的时效性,昨天的点击要比一个月之前的点击重要的多,线性叠加无法突出近期兴趣。
地理位置画像常驻地的挖掘,基于用户IP地址的解析,对用户IP出现的城市进行统计就可以得到常驻城市标签,不仅可以用来统计各个地域的用户分布,还可以根据用户在各个城市之间的出行轨迹识别出差人群、旅游人群等。GPS数据一般从手机端收集,但很多手机APP没有获取用户 GPS信息的权限。
用户画像效果评估
兴趣画像的人为评估比较困难,常用评估方法是设计小流量的A/B-test进行验证,可以筛选一部分标签用户,给这部分用户进行和标签相关的推送,看标签用户对相关内容是否有更好的反馈,例如如果这批用户的点击率和阅读时长明显高于平均水平,就说明标签是有效的。
用户画像的评估指标主要是指准确率、覆盖率、时效性指标。标签还需要有一定的可解释性(便于理解)和可扩展性(便于维护,后续标签的添加)。
标签的覆盖率指的是被打上标签的用户占全量用户的比例,与准确率是一对矛盾的指标,可以拆解为两个指标来评估,标签覆盖的用户比例(覆盖的广度)、覆盖用户的人均标签数(覆盖的密度)。覆盖率既可以对单一标签计算,也可以对某一类标签计算,还可以对全量标签计算,均有意义。
用户画像的使用
一般需要一个可视化平台,对标签进行查看和检索。此外,我们还可以使用不同维度的标签,进行高级的组合分析,产出高质量的分析报告。
3、用户实时风格偏好建模
建模标签明确,用户偏好的商品风格,建模流程如下图:
标签产出的建模流程如下图,使用基于user-商品原始统计为基础的topic model解决方案(PLSA、LDA、人工review topic下的词)。
在此基础上,增加性别、年龄段、购买力(收藏、购买、点击商品的简单统计+协同过滤)等预测类标签,增加维度进行更加准确的个性化推荐。
本案例作者也进行了新品投放方面的应用,值得借鉴,我的理解其实就正反两面,好的客户找到对应的特殊标签,分析来源渠道、广告响应等,有了数据再进一步迭代提高预测准确度;坏的客户就切断渠道,做规则拒单。
4、消金逾期客户画像
基本相当于数据分析,从不同维度去观察客户的占比、逾期率、首逾率、不良率。
以征信认证逾期为例,可以看到分布及逾期情况是否与业务预期一致,如存在差异则需及时调整贷前风控策略。本平台借款额度低、期限短,一般人不会为了这种贷款去打印人行征信,如果提供了人行征信,客户多头借贷、中介包装风险较高,建议着重审核,数据表现也与业务理解一致。
5、客户画像中常用的AI算法
主要是NLP,分词、实体识别和词性标注同属序列标注问题,是基础工作。主题模型(Topic Model,LDA等,取代传统的聚类方法)、TF-IDF、Word2Vec(Embedding方法,可为每个词学习到一个稠密向量)等,得到了如标签(关键词、分类)、主题、嵌入向量(都可以理解为特征)。如果把用户对物品的行为,消费或者没有消费看成是一个分类问题,用户用实际行动帮我们标注了若干数据,那么挑选出他实际感兴趣的特性就是特征选择的问题。
TF-IDF ,词频(Term Frequency),逆文本频率指数(Inverse Document Frequency),TF表述的核心思想是,在1条文本中反复出现的词更重要。而IDF的思想是,在所有文本都出现的词是不重要的,IDF用于修正TF所表示的计算结果。
TF-IDF用于生产用户的偏好标签,可计算得到某个词语(标签)对用户的权重,并找到相似的用户。同时可进一步引入行为类型(订单未支付、已支付未退款、已支付已退款等状态)、行为次数和时间衰减(牛顿冷却定律)的权重,调整标签权重。
三、经验与建议
想清楚客户画像的应用场景(做好顶层设计,才能有效控制投入资源,否则是无底洞)、支撑客户画像的数据源(数据的可得性、数据的标准化、数据统计口径的统一等)、效果评估与业务应用价值的闭环。