R语言的各种统计分布函数,你应该了解的都在这!

 

正在学习R语言统计学的小伙伴,可能会被各种专有名词所困扰,小编为大家梳理了一下,话不多说,进入正题。

下图是截取自[《An Introduction to R》包含了R中所有的概率函数

 

1.简单介绍:

R中的概率函数有统一的命名格式:即前缀+分布函数名

  • d 表示密度函数(density);
  • p 表示分布函数;
  • q 表示分位数函数,能够返回特定分布的分位数(quantile);
  • r 表示随机函数,生成特定分布的随机数。

2.举个例子

正态分布的意义:理论上可以证明如果把许多小作用加起来看做一个变量,那么这个变量服从正态分布

以正态分布(函数norm)公式:

其中是均值,是标准差

调用形式:

norm(mean,sd)

随机分布函数调用:

rnorm(n,mean=0,sd=1)

  • 参数解释:
    • mean 均值
    • sd 标准差
    • 后两个参数如果不填则默认为0,1。

密度函数调用

dnorm(x,mean,sd)

  • 参数解释:

    • mean 均值
    • sd 标准差
    • 后两个参数如果不填则默认为0,1。
  • 画出正态分布概率密度函数的大致图形:

    x<-seq(-3,3,0.1)
    # 注意:plot中的x,y要有相关关系才会形成函数图。
    plot(x,dnorm(x))

分位数函数调用形式:

qnorm(p,mean,sd)

  • 参数解释:
    • p为概率值
    • mean 均值
    • sd 标准差
    • 后两个参数如果不填则默认为0,1。
    • 如qnorm(0.05)=-1.644854,即x<=这个数的累计概率(-1.644854)小于0.05

分布函数的调用:

# pnorm()默认的参数与dnorm()一样,都是标准正态分布,即平均数为0,标准差为1的正态分布
pnorm(0)
# [1] 0.5

3.sigma法则:

对于正态分布的x,x取值在(mean-3sd,mean+3sd)几乎就是极端值啦,因为pnorm(3)-pnorm(-3)=0.9973002,这个概率外的事情基本上不可能发生!

以上就是本期的主要内容,以正态分布为例子,我们学习了4个函数的使用。感兴趣的小伙伴总结一下其他的概率分布函数,举一反三,触类旁通,如果能加上一些生物信息学案例就更好了。

下面附上R语言内置数据包供大家练习使用 。

后起之秀奔涌而至,欢迎大家在《生信技能树》的舞台分享自己的心得体会!

上面是新晋小编“十年”的稿件
(0)

相关推荐

  • 预测模型第8期 | 连续变量该如何进入模型?

    连续变量纳入模型 如果变量和结果之间的关系是线性的,则可以在回归方程中包含连续变量. 如果没有,可以将其转换为二分变量或有序分类变量,然后将它们放入回归方程中.回归模型中包含连续变量时,应尽可能将原始 ...

  • 不要再问统计学了!

    大家好,我是宝器! 昨天在知乎看到一个问题:从零开始学数据分析,什么程度可以找工作,如何计划学习方案? 提问者背景是:在coursera 上面学data science 中的R programming ...

  • R语言建模收入不平等:分布函数拟合及洛伦兹曲线(Lorenz curve)

    原文链接:http://tecdat.cn/?p=20613 洛伦兹曲线来源于经济学,用于描述社会收入不均衡的现象.将收入降序排列,分别计算收入和人口的累积比例. 本文,我们研究收入和不平等.我们从一 ...

  • R语言 | 词频统计

    Python网络爬虫与文本数据分析 本章内容 导入停用词 读数据,分词 剔除停用词 导入停用词表 library(dplyr) stopwords <- readtext::readtext(& ...

  • R语言统计系列第13篇-K-M生存曲线与logrank检验

    白介素2的读书笔记,分享临床科研干货,一起见证时间的力量 [科研绘图需求点我][付费精品合集][SEER点我] [临床预测模型专辑点我][生物信息数据库挖专辑点我] [临床数据挖掘专辑点我][SEER ...

  • R语言统计系列第12篇-泊松回归

    [科研绘图点我][付费精品合集][SEER点我] 今天是各类统计方法R语言实现的第12期,我们主要介绍泊松回归. 泊松回归 计数型,如某地区某年发生肿瘤患者的人数等,常用泊松回归,假设因变量Y服从泊松 ...

  • R语言统计系列第11篇-Logistic回归

    [科研绘图点我][付费精品合集][SEER点我] 今天是各类统计方法R语言实现的第11期,我们主要介绍Logistic回归.Logistic回归属于广义线性回归,因此我们从广义线性回归讲起. 广义线性 ...

  • 【R语言统计合集】R语言统计系列10篇推文汇总目录

    [科研绘图点我][付费精品合集][SEER点我] 转眼间,我们的R语言统计系列已经经历了10期,我们从统计学最基础的统计描述讲到置换检验和自主法等内容,算是完成了统计的入门. 在这篇推文里,我一方面将 ...

  • R语言统计系列第10篇-自助法

    对于正态分布或其他已知分布的数据,有相应的假设检验与置信区间的计算方法,但是当数据抽样自未知或混合分布.样本量过小.存在离群点.基于理论分布设计合适的统计检验过于复杂且数学上难以处理等情况,就需要使用 ...

  • R语言统计系列第9篇-置换检验

    [科研绘图点我][付费精品合集][SEER点我] 对于正态分布或其他已知分布的数据,有相应的假设检验与置信区间的计算方法,但是当数据抽样自未知或混合分布.样本量过小.存在离群点.基于理论分布设计合适的 ...

  • 各类统计方法R语言实现(八)

    [科研绘图点我][付费精品合集][SEER点我] 今天是各类统计方法R语言实现的第八期,我们主要介绍选择"最佳"回归模型与深层次分析. 选择"最佳"回归模型 当 ...