本课程是高校医学统计学教授的公益、免费公开课!如假包换!我将每天推送视频和文字教程,讲授基于医学数据的各种统计分析策略。如果你能跟得上节奏,我相信在一个月后,您将会掌握医学数据分析方法。如果您真的能够坚持,发送关键词“打卡”,加入微信学习群吧。骗人?不存在的。你们能够学会医学统计学,我将视为这是一种成就。
Day 2-1: 正态性检验及其应用
隶属第二章:实验性研究定量数据的统计分析策略
本日学习任务
欢迎加入高校公益免费群全面学习医学统计学与SPSS应用(发送关键词“打卡”到公众号)
从本讲开始,我将利用8讲左右,介绍实验性研究定量数据的统计分析策略。在Day 1的视频我已经说过,统计分析测量最重要的三个决定因素是研究设计类型、数据类型和数据的分布,因此,本讲在介绍实验性研究定量数据的统计分析策略,首先解决的是定量变量的分布是否正态的问题。
将出生28天的20只大鼠随机分成两组,分别饲以高蛋白和低蛋白饲料,8周后观察其体重(g)。问两种不同饲料组别的大鼠体重正态性情况如何?数据见数据库weight.sav.
高蛋白组:133,145,112,138,99,157,126,121,139,106,115低蛋白组:118,75,106,87,94,110,102,124,130
思考
本案例由几个变量组成?研究的关键变量是什么?是什么类型的数据?
案情分析
本案例包括2个变量,一个是大鼠体重(g),另外一个是分组变量(高蛋白组和低蛋白组)。主要研究的结局指标是大鼠体重,定量数据。
统计分析策略
数据的正态性问题,可从两个层面来探讨。第一个层面是所有大鼠体重值放在一起的整体正态性,另外一个层面是高蛋白组和低蛋白组两组数据各自正态性。前者我称为单样本正态性,后者为两样本正态性。
正态性检验界面:分析—描述统计—探索
单样本正态性检验界面,选入“体重”至“因变量列表”,“图”模块进行正态性检验
① 因变量列表(dependent variable):这一选框选入检验变量、或者结局变量(是希望去探讨的目标变量)
② 图:见下图:选“含检验的正态图、茎叶图、直方图”
① 茎叶图和直方图,两者都√上。特别是直方图,可以直观地看出数据的分布形态。
② 含检验的正态图:这一选项即进行正态性检验。
单样本正态性分析结果及解释
SPSS提供两种正态性检验结果,分别是柯尔莫戈洛夫-斯米诺夫(Kolmogorow-Smironov,KS)检验,另外一个是夏皮洛-威尔克(Shapiro-wilk,SW)。中文翻译起来非常别扭,建议用英文和缩写区别二者。二者结果均有统计量(statistic),df(自由度),显著性(sig., P值)。划重点:一般样本量在2000以下时选择SW的方法,本例亦是如此。事实上,可能大部分研究正态性检验选择SW检验方法。正态性检验最重要的是看“显著性”。因此,本例结论是,P=1.000>0.05,差异没有统计学意义,还不能说明该样本的总体分布是偏态分布,可以认为该体重正态性是符合的。此外,直方图能够较直观判断数据分布特征。可以看出,体重大致属于中间多两边少的正态分布。
多样本正态性检验界面
多样本正态性与单样本正态性检验相似,但“探索”界面稍有不同。
① 因子列表(Factor variable):这一选框选入分组变量、或者原因变量。本研究分组变量为group(饲料类型),可以分为2组。
② 图:见单样本正态性检验,此处略
多样本正态性检验结果及解释
经SW检验,结果为:高蛋白组体重P=0.977,低蛋白组体重P=0.974,没有统计学意义,两组数据正态性均符合。
经常有同学问“我的数据正态性检验P<0.05,就不能用均数和标准差描述,不能用t检验和F检验了吗”。其实,也没有不那么绝对。实际统计策略方面,诸位可以将数据分布分为三类:正态分布、近似正态分布数据和严重偏态分布数据。第2类:正态分布不符合,P<0.05,但直方图还是呈现大致的中间多两边少,无严重极端值;第3类:正态分布不符合,P<0.05,数据严重偏态,或者存在明显极端异常值
第3类数据的正态图:存在严重极端值(左)、严重偏态分布(右)一般情况下,前两类仍然可以用均数及标准差描述,用t检验和F检验进行统计推断,后者须用非参数检验。我在《卫生统计学》课程介绍正态性的问题,碰到一个超过10000多的样本,其正态性检验如下:
这个数据,满足我上文讲的第二类分布。它虽然P<0.05,但是是典型的近似正态分布,在统计描述上,可以用均数及标准差描述,用t检验和F检验进行统计推断,
总结来说,判断数据正态性,需要结合直方图和正态性检验,将数据分布分为三大类,在此基础上分别选择不同的统计方法进行统计描述和统计推断。
最后,你猜猜,下面哪个图可以认为是严重偏态,哪个是近似正态分布的?
最后提醒:要学习本推文的完全对应的课程视频,请发送关键词“打卡”入群高校公益免费课程群来学习吧。
-本讲结束-
本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。