深度诠释现实世界中的概率思维

某种程度上说,这个世界是概率锚定的世界。

生活中,处处是概率。

本文通过阐述概率思维来讲解如何理解生活中的概率事件。概率思维,是一种对世界的思考方式。通过本文讲解,让大家成为有能力处理不确定性的概率思想家,在应对不确定性问题时能够灵活运用概率,成为生活的主宰。

运用概率思维:避免侥幸心理

我们举一个现实的例子,刚过元旦时,有新闻报道,多地有有人开车玩漂移落水而致亡,“山西宁武男子冰面开车玩漂移,除了他和表弟被救出外,其女友和两个表妹都被困溺亡”,我们从概率的视角来分析一下这个事件。看看用概率思维,怎么避免生活中的类似事件。

首先,冰面有重物时开裂这个可能性有多大?先随便给个估计值30%,或者40%,注意了在我们试验之前,这些都是不靠谱的,特别想秀一把去玩的人宁愿相信其是10%,此时侥幸心理已经控制了他的思维。从概率上说,这些值都是没有先验(概率),或者说先验非常不靠谱的,关于先验,可以参考另一篇文章。靠谱的做法:1、开车上冰面之前,先在冰面上不同地点用工具开试验,看看冰面的强度;2、如果是汽车2吨左右,情况会有什么不同,开裂概率是否会上升?

其次,我们看视频,当天在冰面上不只他一辆车在玩漂移,也就是说,该男子肯定是看到这几天陆陆续续有人在玩漂移,所以他认为该冰面是安全的。从概率角度,这个是大错特错的。这个次数(人次)不是足够的多,后面我们会讲到,概率中基数(次数)是很重要的,比如你一年逛街3次,2次去的西单,就说你最喜欢去西单逛街的概率是67%,是没有价值的。

所以,在没有事前做试验,并且仅仅是几个人玩而已,这个概率是无法估计的,换句话说,不确定性非常大,应用不确定性的概率事件,最好的就是抛弃侥幸心理,也就是别玩!

运用概率思维:留出余地

上面讲到的例子,可能教科书没有权威给出,在一些例子,官方,比如气象局、医生、教科书,等等,已经给出的一些判断数字,也要有概率思维,避免盲从,留出余地。

张三发现她表妹怀孕了。医生给她一个4月23日的预产期。预产期的计算方法是在怀孕日期后加上40周。这是否意味着她的孩子将于4月23日出生?张三可以安全地预订4月24日的机票,以便在离开之前见到他的新侄女/侄子吗?很明显,当医生说4月23日的时候,其实对确切的日期有一些疑问。但是,有多少怀疑呢?如果婴儿提前两天来,或者晚一个星期来,这会是非常令人惊讶的吗?根据各种研究,只有大约4%的妇女在她们的预产期生产。为了确保50%的几率见证特定的怀孕,张三应该留出余地,那就是给自己留出在到期日前后一个15天左右的窗口。

概率最恰当的解释

对于概率,大部分人感觉是概率大了,发生可能性高,敢于“冒险”一试,概率小了,就不做了,这没有问题,但这不是解释概率的方法,也不是运用概率的思维,因为概率小了,就不一定不发生,概率大了,就不一定发生,最好的方式是以不同的方式应对。

关于下雨的问题是,我们看到每天都有可能下雨。天气预报说'今天有70%的可能下雨',这意味着什么?如果不下雨,预报员是不是错了?不一定。至少有两种方法来看待它。一种方法是,假设你是一个上帝,可以重播今天的10000次,而不改变任何重要的每一次。在这种情况下,天气预报员说,大约7000个重播将有雨,而3000个不会。另一种解释方法是,天气预报员愿意为不下雨的几率以3:7下注,而在下雨的几率以7:3下注。X:Y的赔率意味着,每赌一个Y元,如果你赢了,你就可以获得X元的利润。因此,预报员愿意以70块打赌下雨,如果下雨,将获的100块(盈利30)。同样地,他愿意赌30块,如果不下雨,那么获得100(利润70)。

不要忽略概率背后的基数

以下是《卫报》公布的有关英国本科生的数据:

很容易看出,女性学习教育的人数比男性多,男性学习工程的人数比女性多。咱们请考虑以下问题:

1. 一个叫索纳姆(Sonam)的人(假设这是一个在男女出现几率相等的名字)出现在兽医科学部和建筑、建筑和规划学院联合举办的毕业典礼上。索纳姆更可能是男性还是女性?

2. 你无意中听到有人正在学习商业和行政学或数学科学 – 但你不知道哪一个。 根据这些信息,这个人更可能是男性还是女性?

提出第一个问题,Sonam性别在各个学校中是男性还是女性的概率是:

索纳姆不可能在这两个地方都学习,所以如果我们按照我们之前的技术来处理互斥或者,我们可以加上概率。 但是,对于男性和女性的概率总和,这将导致数字大于1。 因此,我们将不得不除以2,因为我们将两组不同的事件相加。 这将导致:

P(男)=0.455

P(母)=0.545

所以,我们得到的是索纳姆更有可能是个女孩。然而,这是真的吗?当我们处理两种不同的情况时,我们能把概率加起来吗?注意,当我们除以2时,我们所做的一个假设前提是:两个部门的人口规模相同。但是,这显然不是您在数据中看到的情况。如果两个部门的规模相同,这个加起来就可以了。让我们看看,通过将百分比转换为数字来了解实际发生的情况:

在看到实际的数字而不是百分比之后,我们可以清楚地看到,在这个群体中,男性的数量超过女性的数量几乎是2比1。我们的初步估计是错误的,因为我们比较了百分比而没有考虑人口的相对大小。

现在,解决问题2,你可以看到商业和行政研究的男性人数与女性人数大致相同,女性略多于男性。然而,数学科学比商业和行政研究有更大的差距,有利于男性。我们应该担心第一个问题发生了什么,并将其转换为数字:

我们再次看到,百分比比较被证明是错误的,而且这个人是女性的概率略大于这个人是男性的概率。

这个问题等同于:有两个口袋A、B分别有红球、白球,把它们混合在一起,然后拿出一个球判断是红球的概率。

所以,我们的结论就是,当基数少,或者比例不平衡时,概率体现的价值会严重缩水。

降低不确定性:由条件概率到贝叶斯定理

条件概率测量事件发生的另一事件(通过假设,推定,断言或证据)的概率。 如果感兴趣的事件是A并且事件B已知或假设已经发生,则'给定B的条件概率'或'条件B下的A的概率'通常是

写作P(A | B)。

理解条件概率的关键是,是在一定条件已经发生,并且当前事件与已经发生事件是有关联的。

条件概率的目的就是,分析当前事件的因果联系,减少不确定性因素,增加确定性因素,明确当前事件背后的确定性联系。

我们举一个例子:

假设,90前熬夜的比例是20%,90后熬夜是比例是50%,现知道一个人熬夜,那么问你他(她)是90后的概率是多少?

也就是计算P(90后|熬夜),根据条件概率,我们有:

N* P(90后) * P(熬夜|90后) / [N * P(90前) * P(熬夜|90前) + N * P(90后) * P(熬夜|90后)] 。

N是人口总数,可以消去。于是得到

P(90后|熬夜) = P(90后) * P(熬夜|90后) / [P(90前) * P(熬夜|90前) + P(90后) * P(熬夜|90后)]

上式分母其实就是 P(熬夜) ,分子其实就是联合概率P(90后, 熬夜) 。这个条件概率的意思就是:在熬夜的人里面有多少比例90后

如果把类似的事件推而广之:

P(B|A) = P(A|B) * P(B) / [P(A|B) * P(B) + P(A|~B) * P(~B) ]

也就是:

P(B|A) = P(AB) / P(A)

进而P(AB)也可变形为:

P(AB)=P(A|B)P(B)

那么有P(B|A) = P(A|B)P(B)/ P(A)

这不就是大名鼎鼎的贝叶斯定理吗??

概率论只不过是把常识用数学公式表达了出来。

--拉普拉斯

Reverend Thomas Bayes (1702-61)

贝叶斯定理尽管很简单,但是非常有哲学和思想意义。

第一、贝叶斯定理描述了什么使某些东西成为事件发生的'证据'以及证据重要性多少。这是不是有法学意味呢?它比法学精神更加精准,因为它用数学刻画了这个世界的因果关系。

第二、科学本身是贝叶斯定理的一个特例,因为你根据观察或经验修正先验概率(假设),证实你的假设(实验证据)形成、发展后验概率(结论)

其在科学、技术、生活中有着非常广泛的应用,我们后边会讲到的朴素贝叶斯算法、贝叶斯网络、高斯过程、贝叶斯优化,等机器学习算法判断统计模型,都是贝叶斯定理的重要应用。并且在计算生物学、医学、人工智能都有重要的应用。

(0)

相关推荐