概率论22讲:怎么提高自己的概率思维

01.全局:从局部随机性到整体确定性
把局部的随机性转变为整体的确定性,是概率论解决问题的本质
概率论不是用来预测未来,也不是对一次偶然的结果进行计算,它是更高层次的、确定性的认知
概率论的大厦像什么?我更愿意说:概率论不是一栋建筑,而是一个城市。我可以不知道城市里每一栋建筑的样子,但我确定地知道这个城市的建筑模式。
“上帝”在掷骰子
02.随机:随机性不等于不确定性
随机性不等于不确定性。概率论研究的是随机性,而不是不确定性。随机性是这个事件可能出现的结果我都知道,只是不知道下一次会出现哪个结果,而不确定性,是我连可能出现结果的选项都不知道
随机分真伪,绝对意义上的真随机存在于量子层面,现实中很难遇到;伪随机只是披着随机的外衣,它本身是有规律的;而我们现实中遇到的大部分现象,都是效果随机(感觉到它的效果是随机的),这也是概率论这门学科研究的重点。
随机是这个世界的决定性力量,了解随机,你才会懂得随机的力量,才会更好地利用随机做出正确决策(如转基因农作物)
03.概率:对世界可能性的度量
任何你关心的事情,只要设定一个条件,从可能性的角度出发,对某一个发生结果进行陈述,就可以转化成随机事件,然后度量概率。
概率是随机事件发生可能性大小的定量描述
概率是随机事件在样本空间的比率:随机事件就是样本空间的一个子集;反过来也成立,样本空间里的每一个子集,也都是一个随机事件。“随机事件”和“样本空间”就是子集和全集的关系。而子集和全集的比率,也就是随机事件占样本空间的比率,就是这个随机事件发生的概率
样本空间的完备性是一个幽灵。从某种角度来说,我们对世界的认识,就是对样本空间完备性的认识。如果样本空间不完备,我们计算的概率就会有偏差,决策就会出错。
04.独立性:随机事件的相互关系
如果一个随机事件发生的结果,不会影响另一个随机事件的概率,那它们就是互相独立的事件,反之就是非独立事件
只有明白了随机事件之间的关系,判断它们是否具有独立性,才能正确分析和度量它的概率
很多看似独立的事件,其实都是互有联系、互相影响的。评估随机事件的概率时,对独立事件的设定需要格外谨慎。
05.概率计算:定义问题比计算更重要
概率计算的三个法则:
“排列组合法则”:排列组合法则适用于结果有限,而且每种结果都是等可能性的情况——这个随机事件出现的次数除以所有可能的结果的个数
“加法法则”:针对多个随机事件,这些随机事件发生的概率加和
“乘法法则”:针对多个随机事件同时发生的概率
大部分人不会做概率题,不是因为不会计算,而是因为没有看明白题目。概率计算之所以复杂,是因为很难将现实问题准确的抽象成“对”的概率问题。准确的翻译现实问题,就是概率思维的核心,也是概率计算最复杂的地方
偷看“上帝”的安排
06.概率度量:建立整体确定性的三种方式
定义法:是一种等概率的设定,来源于自然界对称性的假设,是一种宏观尺度下的合理简化【抛硬币正面朝上和反面朝上的概率相等,都是50%;一个标准的子,抛出每个点数的概率也相等,都是 1/6。这些概率,都是我们直接定义的。】
频率法:是通过随机事件发生的频率来估算概率,要求试验或数据尽可能的多
迭代法:强调不断迭代,可以在小规模数据下,针对事件的变化和个体的差异度量概率。先利用手头少量的数据做推测,甚至是主观猜测一件事儿的概率,然后再通过收集来的新数据,不断调整对这件事概率的估算。最常用的方法就叫作“贝叶斯”
三种方法并不是泾渭分明,而是常常融合使用,一起更清晰和全面地认识这个世界。频率法可以验证定义法的正确性;迭代法也可以用定义法或者频率法来获得最初的判断;频率法和迭代法,又可以同时使用,相互验证。打个比方来说,这三种方法,就好比工具箱里的三把尺子,共同对概率进行度量。这也是概率论和很多学科不一样的地方。
07.频率法:概率是对发生频率的计算
频率法认为,概率就是对发生频率的计算,只要试验数量或者观测数据足够多,随机事件发生的频率就会接近它的概率。比如历史上的抛硬币试验

大数定律不是基于试验的归纳,而是经过了严格的数学证明,证明了用频率度量概率是合理的。
现实中使用频率法,往往无法获得无限多的数据,所以需要增加一些限制条件(精度误差和置信度),来降低需要是数据量,比如常用的是95%的置信度和2%的精度误差。
08.大数定律:局部频率不是整体概率
大数定律被称为“黄金定理”,它让我们真正能用整体的确定性来对抗局部的随机性
但现实中遇到的问题都是局部频率,局部频率不是整体概率,和真实的整体概率之间会存在差值
这个差值不需要通过补偿对局部产生作用(也就是说抛硬币连续抛出10次正面下一次是反面的概率还是50%),大数定律不需要靠补偿来实现,而是通过均值回归,用大量的正常数据淡化,削弱不正常数据的影响
【可以这样理解,整体概率就像大海,现实的情况就像一勺糖,放在水杯中你会觉得很甜,但倒进大海里,对大海的味道影响几乎没有,真实的情况和能跟整体的概率相差很远,但概率还是没有变化,而且真实情况也不会一直跟这个概率偏离,会有回归均值的趋势,可是我们永远没法知道是在什么时候回归,但如果一直不回归,我们也有理由认为这个真实情况里面可能有猫腻,比如硬币一边是否更重了】
09.数学期望:对随机事件长期价值的衡量
数学期望是对随机事件长期价值的数字化衡量,是判断一件事情值不值得做的整体定量化指标
计算数学期望要把所有的随机结果数值化,只有赋予每个结果一个具体的值,才能进行数学期望的计算
对于同一个结果,个体的数学期望也可能是不一样的,具体计算结果需要加入自己对价值的主观考量(比如人的生命)
10.方差:围绕数学期望波动程度的度量
判断两个随机事件是否相似,除了比较数学期望之外,还需要比较方差,两者共同构成了对随机事件最基本的描述
方差是描述随机结果围绕期望波动范围的指标,方差越大,波动越大,也意味着风险越大
现实生活中,我们可以通过减少方差对抗波动性【增大本金增大数据量】,也可以通过增大方差利用波动性【彩票头奖的巨额奖金吸引】
收集“上帝”的骰子
11.概率分布:认识现实世界的数学模型
随机变量所有的结果和每个结果出现的概率一一对应,就构成了概率分布,概率分布让我们拥有上帝之眼,获得对一个随机事件的整体认知
概率分布模型是我们对现实规律的抽象,正态分布,幂律分布都是这样的模型,分别代表一种概率分布的规律
如果概率分布是一个解决问题的工具箱,概率分布模型就是工具箱里的一个个工具,数学家不断丰富工具箱的工具帮助我们逼近真理
【就像《模型思维》里的思想】
12.正态分布:最简单却最重要的概率分布
均值就是期望,所以正态分布的平均值才有意义
数据集中在均值附近,极端值很少,且对均值影响很小
标准差决定胖瘦,从曲线的弯曲程度能看出随机变量的波动
【就像运动比赛的正态分布,专业选手的标准差很小,均值很大;业务选手标准差很大,均值小一点】

13.中心极限定理:正态分布是概率分布的神
合法性:中心极限定理通过严格的数学推导,证明了正态分布的正确性【中心极限定理就像青藏高原,正态分布就是喜马拉雅山】
正统性:在所有的分布中,正态分布是统计学家的首选,它建立了一套稳定的秩序,像参照系一样对所有事情施加影响
主宰性:正态分布不仅在现实世界普遍存在,所有的分布不断叠加最后也都会变成正态分布,换句话说,正态分布是世界的宿命【所有的分布,不是正态分布,就是在变成正态分布的路上】
14.幂律分布:给人带来希望的魔鬼
幂律分布唯一的数学性质就是三个字——无标度。任何尺度下截取任何一部分数据,都仍然呈现幂律分布的特征【就像风险投资一样,前10%几笔投资的收益占据90%,而前10%的前10%,又占据90%】
之所以说幂律分布是魔鬼,是因为它有三个特征:极不稳定,平均值失去意义【如平均工资】;长尾明显,各种极端事件经常发生【黑天鹅】;无法预测,让人完全束手无策
幂律分布是熵减的必经状态,是我们对抗熵增,对抗死寂,对抗死亡的希望之光。【比如在水变成冰,也就是从无序到有序的临界状态上,所有指标都呈现出幂律分布的现象】
15.泊松分布:打开统计推断的大门
泊松分布是用来描述随机事件发生次数和概率的一种分布【如50年一遇大雨】

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数:
e:自然常数,已知
k:随机事件的发生次数【如1次大暴雨,2次大暴雨】
λ:具体问题的整体概率【如50年一遇大雨,就是1/50=0.2】
具有两个重要的特征:
基础是正态分布【不断计算50年一遇大雨和大暴雨不同发生次数,曲线越来越接近正态分布】
随机事件的间隔是无记忆的【前面事件发生对后面事件的结果没影响】
泊松分布和正态分布互相验证的关系,不仅能帮助我们在数据有限的时间进行精确计算,更打开了推断统计的大门,推动了统计学的发展。泊松分布之前,概率和统计是两个不同的学科,概率研究未发生的随机事件,统计描述已发生的现实。【对于它的其他应用还是不是很理解!?】
16.假设检验(上):基于概率反证法的统计推断
假设检验是一种基于概率的反证法。如果能证明一个假说发生的概率特别小,那就推翻这个假说,接受和它相反的那个假说。这就是假设检验的基本逻辑
概率分布是假设检验的基础,是进行假设检验时必须要用到的工具。关于显著性,一般学界是有标准的,用得最多的就是 5%。只要 P 值小于 5%,就推翻 H0(零假设),相信 H1(备择假设);如果P 值大于 5%,就没办法推翻 H0。当然,也有一些领域觉得 5%这个标准太宽泛了,就设置成了 1%。甚至像物理学在发现粒子等问题上,执行的这个标准是百万分之一,要严格得多。总之,显著性水平要依领域而定,每个领域都有自己的共同体标
假设检验让我们能依靠有限的数据发现很多靠谱的结论,所以一诞生就席卷各个领域,成为很多学科研究的底层方法之一
17.假设检验(下):
假设检验要从个别推导全部,就一定会忽视极端的小概率情况,这是他从娘胎里就带的基因,没法改变【如连续中彩票】
由于P值的大小直接由样品决定,所以假设检验很容易产生系统性偏差,让人们愿意相信一些错误的结论【如发邮件预言股票涨停骗局,不同人收到的邮件的预言准确性不一样】
使用假设检验时,还要注意显著性水平的设置要和问题联动(不同领域的显著性水平标准不同,在该严格的领域就要提高标准),以及根据问题选择正确的分布(正态分布或幂律分布)
猜测“上帝”的底牌
18.条件概率:贝叶斯公式的基础
如果一个随机事件的概率会因为某个条件的发生而改变,那么在这个条件发生的情况下,随机事件发生的概率就是条件概率
很多条件概率是很隐蔽的。现实中,所有的概率本质上都是条件概率
条件概率量化了条件对随时事件的影响,但它只表示统计意义上的相关性,并不代表因果关系。
P(A│B) = P(AB)/P(B)
19.贝叶斯推理:概率是对信心的度量
贝叶斯推理:根据新信息不断调整对一个随机事件发生概率的判断【就像侦探破案的过程】
贝叶斯推理拓宽了概率这个概念的边界,在贝叶斯推理中概率是对信心的度量,是我们对某个结果相信程度的定量化表达【正如一场球赛,随着比赛的进行,胜负结果慢慢明朗起来】
贝叶斯推理有两大优势:1)起点不重要,迭代很重要,最后一定无穷逼近真理;2)信息越充分,结果越可靠
20.贝叶斯计算:定量解决逆概率问题
逆概率问题,比如酒驾,知道出事故中酒驾的占比,要求你如果酒驾会出事故的概率。
P(A│B) =P(B│A)×P(A)/P(B)
贝叶斯公式:现象B出现的情况下事件A发生的概率,等于事件A发生时现象B出现的概率,乘以事件A发生的概率,再除以现象B出现的概率(是条件概率的变型)——
P(A)是先验概率,可以任意设置,如交通事故的概率
P(B│A)和P(B)是调整因子,是客观的,必须查询真实的数据,如果找不到数据,就不能使用贝叶斯公式,否则很容易越算越错
贝叶斯计算难度不在计算本身,而是寻找调整因子的客观数据
21.主观与客观:不同的概率学派在争什么
贝叶斯公式中的先验概率可以随意设置,看起来比较主观,不像频率法那么客观,其实两者都完全正确完全有效。
只不过是对信息是否全知的预设不同,他们解决的不是同一类问题。频率法必须有明确的严格的前提约束,假设信息都是全知的,贝叶斯是动态反复的过程,每出现一个新信息都要重新进行计算,获得一个新的概率。两种方法本身都是客观的,只不过是使用过程中都活或多或少产生主观性
应用数学现在不太讨论两者的主客观问题,而是哪个好用用哪个,利用两个方法更好地解决现实问题
22.原则:怎么提高自己的概率思维
三个黄金法则:
对抗直觉,能算就算:人脑天生是一个贝叶斯大脑,直觉就是我们最快捷的概率计算器,我们要做的是遏制直觉的冲动,去寻找数据,证据,用概率公式计算
寻求条件,增大概率:如创业的成功率虽然低,但如果你拥有关键技术等条件,就能增大成功的概率
相信系统,长期主义:所谓的坚持和努力,就是寻找一个大概率的方向,然后相信系统相信长期主义,得到长期的到来
参考阅读:
《老喻人生算法》上:把自己打造成一辆赛车
《老喻人生算法》下:针对外部世界不确定性
