条件概率,贝叶斯,朴素贝叶斯详解(吸毒者案例,吸烟者案列,抛硬币问题,文本喜好问题)
条件概率
先要从条件概率讲起,条件概率,一般记作P(A|B),意思是当B事件发生时,A事件发生的概率。其定义为
其中 P ( A ∩ B ) P ( A ∩ B ) P ( A ∩ B ) P ( A ∩ B ) P(A \cap B)P(A∩B) P(A∩B)P(A∩B)P(A∩B)意思是A和B共同发生的概率,称为联合概率。也可以写作 P(A,B) 或 P(AB)。
注意,定义中A与B之间不一定有因果或者时间序列关系。
条件概率的这个定义如何理解呢?
- 样本空间
回顾一下,样本空间是一个实验或随机试验所有可能结果的集合。例如,抛掷一枚硬币,那么样本空间就是集合{正面,反面}。如果投掷一个骰子,那么样本空间就是 {1,2,3,4,5,6}。样本空间的任何一个子集都被称为一个事件。
所以,当我们通常说某个事件的概率时,其实是默认省略了该事件的样本空间。比如说事件A的概率是P(A),其实是指,在样本空间 Ω 中,事件A的数量占Ω的比率,记作P(A)。比如说骰子掷出3点的概率是1/6,其实是说,在掷骰子所有可能结果的集合中(样本空间)中,出现事件”3点“(子集)的比率是1/6。也就是 size{3} / size{1,2,3,4,5,6} = 1/6。 - 条件意味着缩小的样本空间,是二级概率
通常说概率P(A)是针对样本空间 Ω 来说的,而条件概率中的条件,比如P(A|B),意思是事件B发生的情况下,因此非B的样本空间被这个条件排除掉了,所以这时P(A|B)已经不是针对 样本空间 Ω 了,而是针对缩小的样本空间 B。
结合上图来理解。原来样本空间是 Ω,事件B发生,意味着样本空间缩小到B的范围,即上图黄色椭圆范围内。同时事件A也发生,也就是上图中 A∩B 蓝色部分,蓝色部分对黄色椭圆的占比,就是条件概率 P(A|B)。可以写作
如果考虑到
所以
公式(2)就是通常条件概率的定义。要注意的是,如果用公式(1),就是要穷举事件(集合)"A∩B"和"B"的所有情况。如果用公式(2),要注意P(A∩B)和P(B)都是相对整个样本空间 Ω 来计算其概率P的。
贝叶斯定理(Bayes)
贝叶斯定理是统计学中非常重要的一个定理,以贝叶斯定理为基础的统计学派在统计学世界里占据着重要的地位,和概率学派从事件的随机性出发不同,贝叶斯统计学更多地是从观察者的角度出发,事件的随机性不过是观察者掌握信息不完备所造成的,观察者所掌握的信息多寡将影响观察者对于事件的认知。
从条件概率出发很容易推导出贝叶斯定理。
公式(5)可以理解为 条件概率的比值 = 先验概率的比值 = 椭圆A / 椭圆B。(先验概率指P(A)和P(B),由于不涉及其它条件,即P(A)与B无关,P(B)与A无关,所以称为先验。条件概率在这里又称为后验概率,因为P(A|B)意味着已知B事件发生之后,P(B|A)意味着已知A事件发生之后)。
公式(6)就是通常贝叶斯定理的形式。
吸毒者案例
假设吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测呈阴性(-)的概率为99%。某公司雇员有0.5%的吸毒。问检测阳性(+)时,该雇员吸毒的概率是多少?
样本空间:公司所有雇员
事件+:检测结果阳性
事件D:雇员为吸毒者
事件N:雇员为非吸毒者
根据已知条件
- P(+|D) = 0.99 吸毒者每次检测呈阳性(+)的概率为99%
- P(+|N) = 0.01 不吸毒者每次检测呈阴性(-)的概率为99%,那么检测呈阳性的概率是 1-99%=1%
- P(D) = 0.005 公司雇员有0.5%的吸毒
- P(N) = 0.995 另外99.5%的雇员不吸毒
求P(D|+) ,即 检测阳性(+)时,该雇员吸毒的概率是多少?
P ( D ∣ + ) = P ( D ) ∗ P ( + ∣ D ) P ( + ) P(D|+) = \frac{P(D) * P(+|D)}{P(+)} P(D∣+)=P(+)P(D)∗P(+∣D)
其中 P(+) 还需要计算,应用全概率公式,再用贝叶斯公式:
P ( + ) = P ( + ∩ D ) + P ( + ∩ N ) = P ( + ∣ D ) ∗ P ( D ) + P ( + ∣ N ) ∗ P ( N ) = 0.99 ∗ 0.005 + 0.01 ∗ 0.995 = 0.0149 P(+) = P(+∩D) + P(+∩N) = P(+|D) * P(D) + P(+|N) * P(N)= 0.99 * 0.005 + 0.01 * 0.995 = 0.0149 P(+)=P(+∩D)+P(+∩N)=P(+∣D)∗P(D)+P(+∣N)∗P(N)=0.99∗0.005+0.01∗0.995=0.0149
代入公式得
P ( D ∣ + ) = P ( D ) ∗ P ( + ∣ D ) P ( + ) = 0.005 ∗ 0.99 0.0149 = 0.3322 = 33.22 % P(D|+) = \frac{P(D) * P(+|D)}{P(+)} = \frac{0.005 * 0.99}{ 0.0149} = 0.3322 = 33.22\% P(D∣+)=P(+)P(D)∗P(+∣D)=0.01490.005∗0.99=0.3322=33.22%
即检测呈阳性时,只有33.22%的概率为吸毒者。
所谓P(D|+) ,就是在检测阳性(+)的范围内,吸毒者D的占比是多少。对照上面示意图来说,就是 (蓝色背景矩形面积) / (红框部分)面积。
朴素贝叶斯(Naïve Bayes)
朴素贝叶斯,它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这个假设很硬,现实生活中根本不满足,但是这项技术对于绝大部分的复杂问题仍然非常有效。
朴素贝叶斯模型由两种类型的概率组成:
- 每个类别的概率 P ( C j ) P(C_j) P(Cj);
- 每个属性的条件概率 P ( A i ∣ C j ) P(A_i|C_j) P(Ai∣Cj)。
我们回归到贝叶死的案例中来,类型概率是患病,不患病;条件概率是:患病的条件下,被检查出阳性的概率,不患病的条件下,检查出阳性的概率(误诊的概率)。要求的被检查出阳性,那么患病的概率(贝叶斯是求后验概率–知道结果,推测原因的概率,“求什么什么是类别,其它的就是属性条件”!)
为了训练朴素贝叶斯模型,我们需要先给出训练数据,以及这些数据对应的分类。那么上面这两个概率,也就是类别概率和条件概率。他们都可以从给出的训练数据中计算出来。一旦计算出来,概率模型就可以使用贝叶斯原理对新数据进行预测。
回到朴素贝叶斯本身,因为每个输入变量是独立的,因此我们可以对我们我们的贝叶斯进行一些简单的推导。
吸烟者案列
在全部人中,男性患肺癌的概率是65/100000,女性是48/1000000,即:
P ( C a n c e r ∣ M a l e ) = 65 1000000 P(Cancer|Male) = \frac{65}{1000000} P(Cancer∣Male)=100000065
P ( C a n c e r ∣ F e m a l e ) = 48 1000000 P(Cancer|Female) = \frac{48}{1000000} P(Cancer∣Female)=100000048
因此我们知道了,性别和得肺癌是不独立的。但我们现在假设吸烟是到导致肺癌的唯一因素。
我们想一下,吸烟女性中患肺癌的概率是多少?
P ( C a n c e r ∣ F e m a l e , S m o k i n g ) = P ( C a n c e r ∣ S m o k i n g ) P(Cancer|Female,Smoking) = P(Cancer|Smoking) P(Cancer∣Female,Smoking)=P(Cancer∣Smoking)
性别和患肺癌以及吸烟还有关系吗?显然是没有关系的,是相互独立的。因此吸烟女性中患肺癌的概率可以进一步化简为求吸烟中患肺癌的概率。
抛硬币问题
现在有两个硬币,一枚硬币为两面全正,一枚硬币为一面正一面反(fair)。
现在随机摸出一枚硬币,并抛两次。
定义三种事件:
A: 第一次抛掷为正面
B: 第二次抛掷为正面
C: 你选择的是fair硬币
文本喜好问题
每一行是一篇文章,a1…an表示每个位置的单词,w表示当前用户是否喜欢。
那么我们要根据单词的出现情况判断当前用户喜欢那种类型的文章,不喜欢哪种类型的文章。即:
P ( a 2 = k i n g ∣ w = 1 ) P(a_2 = king |w=1) P(a2=king∣w=1)
然而,这里一共有 2×n×|Vocabulary| 项,这…太多了吧!(2表示喜欢,不喜欢两种情况,n表示选取前多少个单词进行计算,|Vocabulary|表示所有常用的单词)
现在让我们来考虑一下,一个人对文章的喜欢和不喜欢跟单词的位置有关系吗,是不是只跟单词出现的次数有关系?
因此我们可以对上述进行优化:
P ( V k ∣ w = w i ) = n k + 1 n + ∣ V o c a b u l a r y ∣ P(V_k|w=w_i) = \frac{n_k+1}{n+|Vocabulary|} P(Vk∣w=wi)=n+∣Vocabulary∣nk+1
其中:
- V k V_k Vk表示某个特定单词,
- w i w_i wi表示用户喜欢还是不喜欢
- n k n_k nk表示当前特定单词出现的次数,+1是为了避免为0,进行了一个拉普拉斯校准
- n是选取的单词数量,+n也是因为进行了一个拉普拉斯校准,我们将每个单词出现的次数+1了,因此|Vocabulary|也要加上选取的单词数量n。
- |Vocabulary|是常用的单词数量
对比一下上面的两种情况,这一种只有2×|Vocabulary|项需要去估计!