当我们讨论因果推断时,我们在讨论什么?(下)

收录于话题    #因果推断 #数据科学

在上一篇文章中#当我们讨论因果推断时,我们在讨论什么(上)#,我们介绍了因果关系是什么以及为什么要了解因果关系,想必你已经接受了自己(暂时)不是超人的事实,知道自己现在无法观测到反事实/what-if。但好消息是,你依然能获取某些因果关系!更好的消息是,获取的成本并不太高!那么,如何得到因果关系呢?

01

如何得到因果关系?

——A/B实验:Gold Standard of Causal Inference

是时候,让因果推断的利器登场了!

如果我们不关注个体粒度的因果关系,只关注整体的平均因果效应,那A/B实验就可以完美地满足我们的需求!日常业务中,我们需要解决的也基本都是这类问题。

那么,为什么随机分流的A/B实验可以跨越数据缺失的障碍呢?

一句话回答:因为随机可以保证两组用户的潜在结果一致。

随机试验的实质在于分配机制(即用户分流)与潜在结果无关。现实中,影响每个人潜在结果的因素数不胜数,其中很多还观测不到。但我们不需要再为此担心了,因为随机分组本身保证了用户分组和潜在结果无关。换言之,实验组/对照组是可交换的,这样每组的潜在结果可以认为是整体的潜在因果,因此可以直接对比得出因果效应(假设样本量接近无限,忽略抽样方差)。

你看,这就是各家互联网公司都特别重视A/B实验的原因。

比起其他方法,A/B实验让我们有机会把握因果效应,从而帮助做出业务决策。虽然到处都说“数据驱动”,但不是有数据就能驱动!A/B实验获取的结果数据才能更好地驱动业务。不然,数据驱动的决策也可能是很糟糕的决策。

如果你对A/B实验意犹未尽,可点击下方来自字节技术大拿的分享内容,更多阅读:

《A/B测试不是万能的,但不会一定不行》

02

如何从数据中观察因果关系?

——以辛普森为例

随机实验虽好,但不是所有场景都可行,比如想衡量吸烟对肺癌的影响,但不能强制一部分去吸烟。这时候该怎么办?我们有可能从观测数据中推断出因果关系吗?

一句话回答:可能,但并不容易

  • 假设/业务理解的重要性

因果推断的前提是比较同样或者说可比较的对象。在随机试验中,这一点是通过随机分流实现的;但在观测数据里没有随机这个过程,要用别的办法。

这时最重要的是从已有的知识出发,得出可信的假设,即哪些因素会影响到我们关心的X和Y;再根据这些假设建立因果模型,以推断因果关系。比如冰淇淋销售量和游泳溺水的人数相关,如果我们确定同时影响两者的变量只有温度,那就可以比较同样温度下两者是否仍然相关,由此得出因果关系。

在实际工作中,这些假设就是我们对业务的理解,这是好的数据分析工作的前提。

在字节商业化DS内部,我们经常说这句话:“要用业务来解释数据,而不是用数据来解释数据。”

  • 辛普森悖论:同样的数据为何会得出相反的结论?

接下来,是绕不开的辛普森悖论环节——为什么同样的数据有可能得出截然相反的结论呢?

下图的数据展示了不同性别的病人在吃药和不吃药后,分别有多少人获得康复。

考虑性别的药物研究结果

现在你是医生。你需要根据以上的数据,得出病人是否应该吃药的结论。这时你应该分性别来看数据,还是应该直接看最后一行的汇总数据呢?

也许你的直觉告诉你,需要看分性别的数据。你得出了应该吃药的结论,因为无论男/女,吃药的病人康复率都高于不吃药组,这时汇总的数据只是吃药组/不吃药组性别比例不一致所带来的干扰。

现在让我们稍微改变一下条件。还是同样的数据,只是把原本的性别分类变成了血压分类。表格的纵列展示的是病人吃药/不吃药后测量的血压情况。

考虑血压的药物研究结果

现在你该看分组数据还是汇合数据呢?你会改变你之前的判断吗?答案是这次该看汇合数据,得出不该吃药的结论。

明明是同样的数据,为什么却得出了不一样的结论?

什么时候应该看总体,什么时候又要分维度看数据呢?这就涉及到我们应该如何从数据中识别因果关系,如何应用我们对业务的理解来得到准确的结论。

  • DAG:把假设可视化呈现

Directed Acyclic Graph (有向无环图)是把假设可视化呈现的一种工具。它能帮助我们判断什么情况下可以识别因果关系,以及如何识别因果关系。

以分析机票价格和售出率的关系为例:

(左上的a图)设Y是价格,Z是售出率,X是影响需求的其他变量(比如是否假日)。简单起见,我们认为除了X没有其他变量同时影响Y和Z,这种情况下要计算Y-Z之间的因果关系,就需要控制X,即在X固定的情况下看Y-Z之间的相关性。

DAG是假设的可视化。它使得假设更清晰,推理过程更明确。如果没有假设,我们无法直接从数据得出应该控制哪些变量。

就像前文提到的那样(还记得可怜的托勒密吗),产出同一份数据的过程可能性多种多样,不同的数据生成过程要求控制不同的变量来得到因果关系。因此如果只从数据出发,我们不可能知道哪一种做法是对的。

  • 用DAG看辛普森悖论

让我们再回到刚才的吃药问题。在第一份数据中,性别其实是一个混杂变量(吃药不会影响性别,但性别会影响是否吃药和是否康复)。这时,我们应该分性别看数据。

而在第二份数据中,血压是药物发生作用的中介变量(吃药可能导致血压变化,从而影响是否康复)。所以这时要判断吃药对康复的影响,就应该看整体数据,而不应该分血压看数据。

在更多的实际问题中,因果关系可能没有这么简单明确。比如Google做过一项关于性别薪酬不平等的研究,他们的结论是在同样的职位上,女性的薪酬更高一些。

这样的结论合理吗?如果我们认为性别会影响获得管理职位的可能性,那限制同职位来比较的做法就是不对的。

03

影响我们得到正确因果关系的大敌

——两种Bias

  • 混杂偏差(Confounding Bias):Common Causes

混杂偏差很常见,也比较容易被发现。这种偏差主要出现在有些变量不容易或不能被观察到的场景中。

比如通过分析那些通过广告下载游戏的人群,我们发现近期有过多次下载转化的用户在单个游戏中的留存低于只转化一次的人群。那是否意味着对已下载游戏的用户不出其他游戏广告,就能提升这些用户在游戏里的留存呢?

有可能,但不一定

因为有过多次下载游戏的用户和只有一次的用户在用户特征上不一样,而这会影响留存。只看观测数据还不足以帮助我们判断这个策略的效果,因为不能直接找出可比较的用户。

但我们还有随机实验可以帮我们回答这个问题,类似的现象还有对广告有过负反馈行为的用户活跃和留存更高,但这不意味着负反馈行为可以提高用户活跃。

  • 选择偏差(Selection Bias):Conditioning on Common Effects

曾经是高考作文题(暴露年龄!)的幸存者偏差,就是选择偏差的一种。

下面是两个案例。

案例一:简历越好,能力越差?

假设在招聘中,是否通过面试取决于简历和能力。两者都不行的话会被刷掉,两者都很好的公司又付不起工资,因此也不会录用。那么最终通过面试被雇佣的人是经过选择后的一小部分,这部分人里简历和能力的负相关就是选择偏差导致的,不足以指导决策。

案例二:颜值越高,智商越低?

下图里 X代表颜值Y代表智商,Z代表是否结婚:我们假设智商+ 颜值 大于某个数字的人会选择结婚的话,那虽然在整个人群里,颜值和智商没什么相关性,但分是否结婚来看数据,就会发现颜值和智商的负相关,背后的逻辑和上一个案例一样。

生活中的选择偏差随处可见,比如新奇的科学发现大概率不能被重复,比如演技与颜值的负相关。

在广告系统里,我们看到的后验数据会受到各种因素的影响,因此一定不要忘记选择偏差的影响

举一个广告业务场景的例子,广告的出价(比如多少钱一个下载)和转化率(点击过广告的用户有多少下载了)的关系,在看到的数据里可能是负相关的,但这不是因为出价和转化率间有因果关系,而是能跑出来的计划要么是出价够高要么转化率够高,只有这样的广告才可能胜出投放出来。

我们常说后验数据有偏,也是在说投放出来的数据不是全部数据。这对我们的数据分析是很大的挑战,因为我们无法知道没投出来的后验数据。

小结

本文主要介绍了获取因果关系的常用方法和常见偏差。除了随机实验外,利用DAG可以从观测数据推断因果关系。当然,除了DAG这种因果图的方法之外,统计学和计量经济学还发展出了断点回归/双重差分/工具变量/倾向值匹配等多种工具,我们会在之后的文章中一一介绍。

需要再次提醒的是,从观测数据推断因果关系的可靠性依赖于假设的合理性!因此,在实际使用中推断出的因果效应可能存在较大偏差。比如FB一个衡量广告有效性的研究表明,从观测数据推断的因果效应和随机试验的结果存在较大的偏差(如下图所示),在字节的场景下我们也观测到了类似的现象。

图片来源: facebook

恭喜你读完本文,让我们来做一个小练习,请回顾一下有关因果关系,你是否已经理解以下的这些知识点了呢?

  • 相关关系适合预测,不适合指导决策;

  • 因果关系依赖what if;

  • 随机实验是因果推断的黄金准则;

  • 从观测数据推断因果关系依赖假设/业务理解;

  • DAG是一种可视化呈现假设的方法,且有一套规则来估计因果效应;

  • 混杂偏差和选择偏差是最常见的两种偏差。

(0)

相关推荐