用户画像方法小结

用户画像,英文为Customer Profiling或Persona,核心在于标签化,目的在于得出结论,业务决策。

一、实践经验

管理层想要用户画像,个人感觉主要有两方面的业务原因:

1、风控,特别是基于历史数据中,带来最大盈利的用户,放款后发展越来越好的用户的特点,进行数据挖掘。

2、产品设计,如何更加场景化,增加产品的吸引力。

其他诸如拒绝回捞、精准营销等都是顺手的事情了。

逼格很高,数据丰富,领导宏图大志,希望画像越丰富、越细致越好。工程浩大,但实际业务人员却觉得没啥用,无法直接支持运营,又看得人头晕目眩,沦为数据的简单提取和统计加工。这里总结一下失败的原因,也算没有白干。

1、回头来看,至少应当先做一些简单的、必须的数据项,根据业务的需要再逐步增加,节省物力人力,对于增加内容也有的放矢(很可能是来自业务的实际需求)。

建议前期包括的数据:人口基本属性、历史信用属性,我司历史申请还款记录,要以强相关信息、定性数据(标签化、抽象化)为主。目标是协助业务筛选出感兴趣的客户,定量数据不利于业务直接适用,也由此看出穆迪这类公司为什么会输出企业评级而不是企业信用分。

2、问题定义与问题不可解。

首先,应当具体的场景具体去选择合适的用户标签,不存在一个通用的用户画像。先有业务场景,再有字段需求,如利用银联数据+自身数据+信用卡数据,发现信用卡消费超过其月收入的用户,推荐其进行消费分期。

其次,如放款后的客户,多次续贷并且企业发展越来越好,个人认为是比较难通过内部的一些数据描绘出来的,本身就是一个无法转换为数据问题的业务问题,不可解。

最后,我们的用户标签是很粗浅的、稀疏的,最大的价值就是方便一点、集中一点,想要对业务有更大的价值,应当提取的是隐形的标签(业务无法直接获取的),比如用户的贷款目的、用户资金偏好(适用于授信后客户拒绝接受场景)、产品的使用频次等,当然这需要使用一些模型(简单的规则模型也行)和算法得到。

二、案例研究

1、电商案例

用户样本筛选,目的是区隔用户,可以将复杂的后台数据(业务不可得或需消耗大量精力获得)转换为简单、可理解的业务标签(用户描述)。

用户画像的数据模型,可以概括为下面的公式:用户标识+ 时间 + 行为类型 +接触点(网址+内容),某用户因为在什么时间、地点、做了什么事,打上XX标签(如母婴、红酒等)。

用户标签的权重可能随时间的增加而衰减,定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:标签权重=衰减因子×行为权重×网址子权重。

2、标签体系案例

构建标签体系

主流的标签体系都是层次化的,首先标签分为几个大类,每个大类下进行逐层细分。

基于原始数据首先构建的是事实标签,事实标签可以从数据库直接获取(如注册信息),或通过简单的统计得到。这类标签构建难度低、实际含义明确,且部分标签可用作后续标签挖掘的基础特征(如产品购买次数可用来作为用户购物偏好的输入特征数据)。

模型标签是标签体系的核心,也是用户画像工作量最大的部分,大多数用户标签的核心都是模型标签,需要用到机器学习和自然语言处理技术。

最后构造的是高级标签,高级标签是基于事实标签和模型标签进行统计建模得出的,它的构造多与实际的业务指标紧密联系。只有完成基础标签的构建,才能够构造高级标签。构建高级标签使用的模型,可以是简单的数据统计,也可以是复杂的机器学习模型。

具体标签构建

以三类标签为例,三类标签的特性、使用的技术均存在差异。人口属性标签,比较稳定,一旦建立很长一段时间基本不用更新,标签体系也比较固定;兴趣属性标签,随时间变化很快,有很强的时效性,标签体系也不固定;地理属性标签,时效性跨度很大,如GPS轨迹标签需要做到实时更新,而常住地标签一般可以几个月不用更新。

很多产品(如QQ、facebook等)会引导用户填写基本信息,包括年龄、性别、收入等人口属性,但完整填写个人信息的用户只占很少一部分。一般会用填写了信息的这部分用户作为样本,把用户的行为数据作为特征训练模型,对无标签的用户进行人口属性的预测。这种模型把用户的标签传给和他行为相似的用户,可以认为是对人群进行了标签扩散,因此常被称为标签扩散模型。

通过分析,我们发现男性和女性,对于影片的偏好是有差别的,因此使用观看的影片列表来预测用户性别有一定的可行性。此外我们还可以考虑用户的观看时间、浏览器、观看时长等,为了简化,这里只使用用户观看的影片特征。对于预测性别这样的二分类模型,如果行为的区分度较好,一般准确率和覆盖率都可以达到70%左右。

兴趣画像是互联网领域使用最广泛的画像,主要是从用户海量行为日志中进行核心信息的抽取、标签化和统计,因此在构建用户兴趣画像之前,需要先对用户有行为的内容进行内容建模。内容建模需要注意粒度,过细的粒度会导致标签没有泛化能力和使用价值,过粗的粒度会导致没有区分度。

新闻数据本身是非结构化的,使用文本主题聚类完成主题标签的构建,形成对新闻内容从粗到细的“分类-主题-关键词”三层标签体系内容建模(如LDA之类的)。在完成内容建模以后,我们就可以根据用户点击,计算用户对分类、主题、关键词的兴趣,得到用户兴趣标签的权重。

这表示用户对每个词的兴趣表示词在这篇新闻中的权重。该公式有两个问题:一个是用户的兴趣累加是线性的,数值会非常大,老的兴趣权重会特别高;一个是用户的兴趣有很强的时效性,昨天的点击要比一个月之前的点击重要的多,线性叠加无法突出近期兴趣。

地理位置画像常驻地的挖掘,基于用户IP地址的解析,对用户IP出现的城市进行统计就可以得到常驻城市标签,不仅可以用来统计各个地域的用户分布,还可以根据用户在各个城市之间的出行轨迹识别出差人群、旅游人群等。GPS数据一般从手机端收集,但很多手机APP没有获取用户 GPS信息的权限。

用户画像效果评估

兴趣画像的人为评估比较困难,常用评估方法是设计小流量的A/B-test进行验证,可以筛选一部分标签用户,给这部分用户进行和标签相关的推送,看标签用户对相关内容是否有更好的反馈,例如如果这批用户的点击率和阅读时长明显高于平均水平,就说明标签是有效的。

用户画像的评估指标主要是指准确率、覆盖率、时效性指标。标签还需要有一定的可解释性(便于理解)和可扩展性(便于维护,后续标签的添加)。

是用户画像最核心的指标,一个准确率非常低的标签是没有应用价值的。评估一般有两种方法:一种是在标注数据集里留一部分测试数据;另一种是在全量用户中抽一批用户,人工标注评估准确率。由于初始的标注数据集的分布和全量用户分布相比可能有一定偏差,故后一种方法的数据更可信。准确率一般是对每个标签分别评估,多个标签放在一起评估准确率是没有意义的。

标签的覆盖率指的是被打上标签的用户占全量用户的比例,与准确率是一对矛盾的指标,可以拆解为两个指标来评估,标签覆盖的用户比例(覆盖的广度)、覆盖用户的人均标签数(覆盖的密度)。覆盖率既可以对单一标签计算,也可以对某一类标签计算,还可以对全量标签计算,均有意义。

时效性,如兴趣标签、出现轨迹标签等,一周之前的就没有意义了,如性别、年龄等,可以有一年到几年的有效期。对于不同的标签,需要建立合理的更新机制,以保证标签时间上的有效性。

用户画像的使用

一般需要一个可视化平台,对标签进行查看和检索。此外,我们还可以使用不同维度的标签,进行高级的组合分析,产出高质量的分析报告。

3、用户实时风格偏好建模

建模标签明确,用户偏好的商品风格,建模流程如下图:

标签产出的建模流程如下图,使用基于user-商品原始统计为基础的topic model解决方案(PLSA、LDA、人工review topic下的词)。

在此基础上,增加性别、年龄段、购买力(收藏、购买、点击商品的简单统计+协同过滤)等预测类标签,增加维度进行更加准确的个性化推荐。

本案例作者也进行了新品投放方面的应用,值得借鉴,我的理解其实就正反两面,好的客户找到对应的特殊标签,分析来源渠道、广告响应等,有了数据再进一步迭代提高预测准确度;坏的客户就切断渠道,做规则拒单。

4、消金逾期客户画像

基本相当于数据分析,从不同维度去观察客户的占比、逾期率、首逾率、不良率。

以征信认证逾期为例,可以看到分布及逾期情况是否与业务预期一致,如存在差异则需及时调整贷前风控策略。本平台借款额度低、期限短,一般人不会为了这种贷款去打印人行征信,如果提供了人行征信,客户多头借贷、中介包装风险较高,建议着重审核,数据表现也与业务理解一致。

5、客户画像中常用的AI算法

主要是NLP,分词、实体识别和词性标注同属序列标注问题,是基础工作。主题模型(Topic Model,LDA等,取代传统的聚类方法)、TF-IDF、Word2Vec(Embedding方法,可为每个词学习到一个稠密向量)等,得到了如标签(关键词、分类)、主题、嵌入向量(都可以理解为特征)。如果把用户对物品的行为,消费或者没有消费看成是一个分类问题,用户用实际行动帮我们标注了若干数据,那么挑选出他实际感兴趣的特性就是特征选择的问题。

TF-IDF ,词频(Term Frequency),逆文本频率指数(Inverse Document Frequency),TF表述的核心思想是,在1条文本中反复出现的词更重要。而IDF的思想是,在所有文本都出现的词是不重要的,IDF用于修正TF所表示的计算结果。

TF-IDF用于生产用户的偏好标签,可计算得到某个词语(标签)对用户的权重,并找到相似的用户。同时可进一步引入行为类型(订单未支付、已支付未退款、已支付已退款等状态)、行为次数和时间衰减(牛顿冷却定律)的权重,调整标签权重。

三、经验与建议

想清楚客户画像的应用场景(做好顶层设计,才能有效控制投入资源,否则是无底洞)、支撑客户画像的数据源(数据的可得性、数据的标准化、数据统计口径的统一等)、效果评估与业务应用价值的闭环。

(0)

相关推荐

  • 如何将场景化营销运用到用户运营当中

    场景这个词大家进行一定不会陌生,做活动要讲究场景,做O2O也要场景,比如到店是一种场景,到家也是一种场景,那很多时候需要我们去理解这个社会场景,其实这更多指的是一种概念,但到真正需要用的时候却有些迷茫 ...

  • 如何更好更快地做客户画像的分析?

    无论您做什么行业都要面对你的客户到底,您的客户是在哪里长得什么样子,所以就需要我们去分析我们的客户画像.今天跟大家来详细说说如何做用户画像的分析. 1.数据收集 数据收集是对于客户画像分析的一个十分重 ...

  • 数据驱动下的私域内容&流量运营

    数据驱动下的私域内容&流量运营

  • 构建用户画像系统解决方案

    构建用户画像系统解决方案

  • 建立用户画像的标签体系

    可以获取到的数据分两类,一类是业务系统数据,一类是用户访问网站.APP产生的行为数据. 不同的企业做用户画像有不同的战略目的,广告公司做用户画像是为精准广告服务,电商做用户画像是为用户购买更多商品,内 ...

  • 智能质检应用实例—从建模到生产应用

    9月24-25日,由中国信息协会主办,中国信息协会客户联络中心分会和中国电子北海产业园联合主办,才博(中国)客户管理机构承办的第四届中国客户服务节在广西北海成功举办.大会为期两天,以"弘扬服 ...

  • MVP方法与实践:如何创建人物角色(用户画像)?

    当我们为用户的目标.行为和观点加入更多细节后,每个类型的用户群就会发展成为一个人物角色.我们再赋予他们名字.照片.人口统计等特征的信息.场景以及更多资料后,每个人物角色就会变得栩栩如生.人物角色让人觉 ...

  • 数据分析方法之用户画像分析

    众所周知数据分析的时候,想要得到有价值的结论,需要掌握好的分析方法.数据分析方法有很多,用户画像分析就是常用的方法之一. 用户画像搭建的架构如下: 数据层:首先是数据层,用户画像的基础是首先要去获取完 ...

  • 干货请收好:终于有人把用户画像的流程、方法讲明白了

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 作者:马海平 于俊 吕昕 向海 来源:大数据(ID:hzdashuju) 本文摘编自<Spark ...

  • 构建用户画像的流程与方法 | 人人都是产品经理

    编辑导读:用户画像是指根据用户的基本属性.用户偏好.生活习惯.用户行为等信息而抽象出来的标签化用户模型.本文从什么是用户画像.用户画像的作用以及如何做用户画像展现了详细的说明,希望能给你带来启发. 前 ...

  • 什么是用户画像分析?用户画像意义、创建方法、维度、挑战(总结笔记)

    用户画像分析是反映企业核心客户群的想象中的个人形象.用户画像分析的写法就像个人是真实存在的一样,但同时,它们也反映了一群人的共同属性.它们是半虚构的,因为它们不是一个具体的个体,但它们的特征应该是从对 ...

  • B端用户画像分析步骤详解(附分析维度、方法)

    B端虽然面向于企业,但真正使用B端产品的仍然是人,处在企业生产各个阶段.各个职位上的人,就是我们的B端用户.而B端用户画像,顾名思义就是为B端用户打上海量数据的标签.通过这些海量的数据标签,企业完成了 ...

  • 用户画像: 信息抽取方法概览

    用户画像: 信息抽取方法概览

  • 有了用户画像,为什么我还是读不懂用户?

    诸葛君说:用户画像这个概念已经出现了很多年,但为什么我有了用户画像还是读不懂用户啊?如果你指望通过几个标签就读懂一个人,那就呵呵了,不是用户画像没有用,而是只有在特定场景中才能发现用户的特定需求. 一 ...

  • 用户画像、用户标签和用户分群有什么区别和联系呢?

    最近总有人在后台问诸葛君,用户画像.用户标签和用户分群有什么区别和联系呢? 我们先把用户画像,用户标签,用户分群这几个名词的意思搞清楚. 用户标签 首先标签是给我们的个体用户进行属性判定的附属值,通常 ...