《深入浅出统计学》豆知识摘录1

直方图和条图的区别

条型图,用于描述分类型数据较多。

直方图,用于描述数值型数据的分组。

直方图:图上的长方形之间无间隔, 每个长方形的面积和频数成比例。

⚠️:

画图时,边界线是199和200的平均数。但最终取决于舍入的方法。

折线图:体现趋势

体现一种数值型类型数据的趋势,有预测功效

在一张图可以放置多批数据。


2平均数

平均数有多种。

  • 均值
  • 中位数
  • 众数
  • 。。。

均值 (读音:缪)

异常值: 和其他数据格格不入的极高或极低的数值

偏斜数据:当异常值将数据向左或右拉时,即产生偏斜数据。

  • 向右偏斜,数据集合的右边有偏大的异常值。导致均值被被拉向了右边。

均值的危害:

给出一个不存在于数据集中区的数值。

中位数

属于一种平均数。把数据集排序,正中的数叫做中位数(中间值)

求中位数:

如果数据集合有n个数,n是奇数,则中位数是第(n+1)/2个数

如果n是偶数,则中间2个数相加,然后除以2。得到的数就是中位数, 最后的计算公式也是(n+1)/2

作用

如果遇到异常值,用中位数更能反应数据集合。

中位数的危害:

也可能不位于数据集中区域。比如: {19,20,21,  70, 114,115,116}  ,70是中位数,但这个集合其实分成2块数据集中区。

具体问题具体分析。

众数

第三种平均数。即一组数中出现频次最高的数值。

众数可能不只一个:

上面的数据也称为:双峰数据。即这批数据有2个众数,体现2种趋势。

众数是唯一可以用于类别数据

求众数:

  1. 把数据中不同类别/数值的数分组
  2. 每个数值/类别的频数
  3. 找出出现频次最高的数,就是众数。

总结:


3 分散性和变异性的度量

这三组数据的均值,中位数,众数都是10

他们的区别体现在分散性。

全距

最大值-最小值。用于衡量数据集合的分散程度, 宽度。

缺陷:

  • 没法描述,数据的分布形态。
  • 如果数据集中有异常值,更会误导。

摆脱异常值->迷你距-> 四分位数

  • Q3-Q1的值被称为四分位距。
  • Q3是上四分位数。
  • Q1是下四分位数。

四分位距,用于度量数据分散的程度,是标准的,可复用的。

  • 不再受到异常值干扰,
  • 可以度量数据的分散程度(分散形态)。

箱线图可以表示四分位数

全距和四分位距共同的缺陷:

  • 无法知道,最大值,最小值的频次,出现的频率。
  • 所以无法更精确的度量变异性。

变异性比分散性更具体--方差

显然,图2的数值和均值的距离更近。 利用分散性看出球员的稳定程度,或者说:能够度量球员得分的“变异性”

度量各个数值和均值的平均距离,并且防止相加后正负抵消。使用。

方差  , 标准差σ(sigma)

标准差

可以整体度量数据集的分散性。描述了典型值和均值的距离。如果标准差较大,意味着数值距离均值较远。

标准分 z分

对不同数据集的数据值进行比较的一种方法。

通过这种方法,把数值视为来自同一个数据集。然后比较。

一般主观判断偏离均值3个标准差的值,就是异常值。


4 概率计算

事件:有概率的事情。

概率:0-1之间的数值,0代表不可能发生,1代表一定发生。

维恩图: 概率的图形表示。

用于检验交集,表现事件之间是互斥关系的时候,有利用分析。 =

对立/互斥事件

相交事件

如果两个事件相交,则这两个事件可能同时发生。 引出了交集和并集。

數學符號σ(sigma)

P(AUB) = P(A)+P(B)- P(A∩B)

条件概率和概率树

画概率树,可以处理/计算条件概率。

⚠️,每一级分组的所有概率之和=1.

全概率公式

P(B) = P(A∩B)  + P(A∩B)

通过全概率公式和条件概率公式,就可以推导出

贝叶斯公式:

  • P(B) = P(A∩B)  + P(A∩B)
  • P(A∩B) = P(A)*P(B|A) ,
  • P(A|B)= P(A∩B) / P(B) ,   得到贝叶斯公式:

在不知道每种概率的情况下,计算逆条件概率。

贝叶斯定理:如果有n个互斥并且穷举的事件:A1...An , 而B是另一个事件,则:

⚠️概率树或贝叶斯公式必须记住其一。

相关事件:A和B的概率互相影响。

独立事件:各个独立不影响: P(A|B) = P(A)

通过条件概率公式:P(A|B) = P(A∩B) / P(B) , 推导出乘法公式:P(A∩B) = P(A) * P(B)

⚠️互斥事件,是相关事件。因为事件A发生,B就一定不发生。 加法公式:P(A) + P(B) = 1,

事件的相关性决定是相关,还是独立:

  • 独立:用乘法公式。
  • 相关:并且事件之间互斥,则用加法公式。

例子:

提示:

  • 三人选择去哪个餐厅是独立事件。即一人的选择不会影响另一人。(他们没带手机)
  • 使用概率树,从罗恩开始。

5 离散概率分布的运用--善用期望

  • 如何利用概率分布来预测长期结果
  • 如何度量这些预测结果的确定性

数学期望

离散变量X的数学期望公式: E(X) = ∑xP(X = x)

⚠️有时候也会用u来数学期望。因为均值和期望就是一对儿双胞胎。

知道了E(X),就知道了未来长期的每次的结果。

但是E(X)不能提供有关数值分散性的任何信息。

答:考虑到E(X)其实就是一种平均数,因此使用方差。

方差

Var(X) = E(X - u)= ∑(x -u)2P(X = x)

概率分布的方差/标准差用于度量一些特定数值的概率的分散情况。

  • 方差越小,每次结果就越接近期望值。
  • 方差越大,每次结果的不确定性就越大。

线性变换

如果给定变量出现概率不变,这个变量的可能值的集合都做了aX+b的运算转换,把这个叫做线性变换。期望和方差同步用公式转换,不用重新计算新的方差和期望。

概率分布描述了一个给定变量的所有可能结果的概率。

期望是长期的平均结果E(x), u表示。

当变量X按照aX+b的形式发生变化(a,b是常数),叫做线性变换,数学期望和方差可以同步转换:

E(aX+b) = aE(X) + b

Var(aX + b) = a2Var(x)

E(X) + E(Y) = E(X + Y)

如果两个随机变量是独立变量,则

  • 相加运算:

    • E(X) + E(Y) = E(X + Y)
    • Var(X+Y) = Var(X) + Var(Y)
  • 减法运算:
    • E(X) - E(Y) = E(X - Y)
    • Var(X-Y) = Var(X) + Var(Y)  ⚠️是相加,因为变异程度加大了,所以方差也变大。

6 排列组合

排列:使用阶乘 n!

圆形排列:(n-1)!

按照类型排名:

问题:

答案:

把5匹骆驼看成一个对象,巨型骆驼。

那么赛场上就有6只动物,因此排列方式就是:

  • 6! /(3!*2!)  = 60

而10只动物的排列是10! / (3!2!5!) = 252

所以答案是60/252

排列

从一个较大对象群体中取出一定数目的对象进行排序,并得出排序方式总数目。


7 几何分布, 二项分布, 柏松分布。

几何分布 X~Geo(p)

  1. 由一系列相同的试验组成。 ⚠️,无限次试验。
  2. 每次试验由2种可能的结果,其中一种表示成功,另一种失败
  3. 每次试验成功的概率都相同,用p表示; 失败的概率也相同, 1-p表示。
  4. 试验是相互独立的。
  5. 想要知道:为了取得第一次成功需要多少次试验。

第r次成功的概率

P(X=r) = p*(1-p)r-1  

⚠️r是特定数值,这里指第4次是成功,之前的都是失败。

几何分布的不对等式

P(X > r) = (1-p)r

⚠️这里的P(X > r), 指为了取得第一次成功需要试验r次以上的概率。 前r次试验都是失败的。

由此推导出:

P(X <= r) = 1 - P(X > r)  ⚠️P(X <= r)是指为了取得第一次成功需要试验r次或r次以下的概率。两者对立的。

P(X <= r) = 1 - (1-p)

如果一个变量X的概率符合几何分布,并且单次试验的成功概率是p, 则可以写成 x ~ Geo(p)    Geometry几何(数学的分支。)

x ~ Geo(0.2)

通过将xP(X=x)的累加画出图后,发现x接近5。E(X) = 5 = 1 / 0.2

几何分布的期望:E(X) = 1/ p

方差:Var(X) = E(X2) - E2(X) = (1-p)/ p2

总结

3个概率公式,期望公式和方差公式。

  • P(X=r) = p*(1-p)r-1 
  • P(X > r) = (1-p)r
  • P(X <= r) = 1 - (1-p)
  • E(X) = 1/ p
  • Var(X) = E(X2) - E2(X) = (1-p)/ p2

二项分布

  1. 由一系列相同的n个试验组成。⚠️是有限的次数。n个。
  2. 每次试验由2种可能的结果,其中一种表示成功,另一种失败
  3. 每次试验成功的概率都相同,用p表示; 失败的概率也相同, 1-p表示。
  4. 试验是相互独立的。
  5. 求, n次试验中的r次成功的次数。

P(X = r) = nCr*pr*(1-p)n-r

nC= n! / [ r!*(n-r)! ]

X~ B(n, p)表示二项分布

期望: E(X) = np

方差: Var(X) = np(1-p)

几何分布和二项分布的区别:

试验的目的不同。

  • 几何分布,求的是第一次成功之前需要试验多少次
  • 二项分布,固定试验次数n,求成功一定次数r的概率。

泊松分布 x~Po(ℷ)

描述单位时间内随机事件发生的次数的概率分布。也是一个常见的离散型分布。

  • 单独事件在给定区间内的随机,独立发生。给定区间可以是时间或空间。
  • 已经知晓该区间的事件平均发生次数/发生率,并且为有限数值。用ℷ表示

我的理解:比如过去百年中,每10年都会发生战争,平均每十年发生4次战争。求未来10年发生r次战争的概率。r可以是0也可以是任意整数。

均值,期望和方差都是ℷ

备注:⚠️e=2.718是一个常数,用于计算复利和高等概率理论的各种应用。

和其他离散型概率分布的区别:

无需做试验,从历史得到数据。

伪装的柏松分布   X~Po(n*p)

当二项分布的n很大(大于50),并且p很小接近0,则np约等于np(1-p)。 因此类似于柏松分布的期望=方差。

所以可以用柏松分布替代二项分布。


(0)

相关推荐

  • 非参数检验综述

    作者:悦菁   审稿:石鹏   封面:吉江 基本概念 非参数检验(Nonparametric tests)是统计分析方法的重要组成部分,它与参数检验共同构成统计推断的基本内容.由于参数检验必须是在总体 ...

  • 有趣的统计学小知识——误差

    视听率调查在我国已有二十余年发展历史,借助于统计学的创立和日臻成熟,视听率调查得以借助较少的样本对一个城市.省乃至全国的受众的视听行为进行推断.可以说,在视听率调查的整个流程中,统计学的理论和方法贯穿 ...

  • 【中医知识摘录】20:中医体质理论(5)

    [中医体质学说的应用] 中医体质学说属于藏象学的内容之一,其作为中医理论的重要组成部分,重在研究正常人体的生理特殊性,揭示个体的差异规律.特征及机制. 1.说明个体对某些病因的易感性.一般而言,小儿脏 ...

  • 统计学基础知识

    本篇归纳统计学基础知识,包括一些基础理论.概念.方法等,作为数据分析的前置知识. 概述 统计学的概念 什么是统计学? 统计学是关于收集.处理.分析.解释数据并从数据中得出结论的科学 数据收集也就是取得 ...

  • 2021年中级统计师 业务知识 统计学基础知识 精讲班

    2021年中级统计师 业务知识 统计学基础知识 精讲班

  • 【统计学小知识】ROC曲线,那些必须要知道的事

    想要了解ROC曲线吗?不急,先来看看下面的小情景. [情景设置] 牛逼的我:师傅,您能对我上点心吗?!文章还没发,明年快毕业了啊... 豆逼导师:小牛啊,我是挺中意你的.. 牛逼的我:师傅,你想多了. ...

  • 豆知识 | 法语地址当中的bis是什么意思?

    Salut小伙伴们,勤劳的釉叔又肥来惹~  开始前先来做个小调查吧~ 30 bis rue de Paradis 175 ter, rue de Tolbiac 24 quater rue Volta ...

  • 豆知识 | les sept arts指的是哪“七大”呢?

    " - Et toi, toujours dans tes magazines du 7e art ? - Oh oui, le cinéma, j'adore." 这是来自某个听 ...

  • 教育知识摘录25

    一.培养学生阅读的自学能力 1.使用工具书的能力,如让学生查字典,自学生字词. 2.理解题目的能力,如读课题,想想课文会告诉我们什么. 3.概括段落大意的能力,如粗知大意,并思考段意. 4.理清作者思 ...

  • 教育知识摘录18

    一.对词语的教学方法 先让学生阅读,如有不会读的字和不会讲解的词,让他们自己从上下文的语气和全篇的意思揣摩体会,先了解其大意,然后再由教师一语道破学生,自会恍然大悟,切,不可越俎代庖. 二.在阅读教学 ...