如何进行正态性检验? | 30天学会医学统计与SPSS公益课(Day2-1)

30天学会医学统计与SPSS

本课程是高校医学统计学教授的公益、免费公开课!如假包换!我将每天推送视频和文字教程,讲授基于医学数据的各种统计分析策略。如果你能跟得上节奏,我相信在一个月后,您将会掌握医学数据分析方法。
1.9分钟视频介绍:为什么推荐您学习这门课?
2.课程所需的SPSS全套视频、数据库、讲义下载
2021年如何学习医学统计学?无偿奉上我们精心制作的医学统计学全套资料
3.“高校公益免费课程新一期详细介绍:
公益课程“30天学会医学统计与SPSS”再次开课,欢迎入群学习!
如果您真的能够坚持,发送关键词“打卡”,加入微信学习群吧。骗人?不存在的。你们能够学会医学统计学,我将视为这是一种成就。

Day 2-1: 正态性检验及其应用

隶属第二章:实验性研究定量数据的统计分析策略

本日学习任务

1. 微信群内视频1段“正态性检验”(13分钟)
2. 公众号推文2篇:D2-1、D2-2
3. 微信群内测试题
4. SPSS 正态性检验实操与群内讨论
欢迎加入高校公益免费群全面学习医学统计学与SPSS应用(发送关键词“打卡”到公众号

从本讲开始,我将利用8讲左右,介绍实验性研究定量数据的统计分析策略。在Day 1的视频我已经说过,统计分析测量最重要的三个决定因素是研究设计类型、数据类型和数据的分布,因此,本讲在介绍实验性研究定量数据的统计分析策略,首先解决的是定量变量的分布是否正态的问题。

实例分析

将出生28天的20只大鼠随机分成两组,分别饲以高蛋白和低蛋白饲料,8周后观察其体重(g)。问两种不同饲料组别的大鼠体重正态性情况如何?数据见数据库weight.sav.

高蛋白组:133,145,112,138,99,157,126,121,139,106,115
低蛋白组:118,75,106,87,94,110,102,124,130

1



思考

本案例由几个变量组成?研究的关键变量是什么?是什么类型的数据?

2



案情分析

本案例包括2个变量,一个是大鼠体重(g),另外一个是分组变量(高蛋白组和低蛋白组)。主要研究的结局指标是大鼠体重,定量数据。


3



统计分析策略

数据的正态性问题,可从两个层面来探讨。第一个层面是所有大鼠体重值放在一起的整体正态性,另外一个层面是高蛋白组和低蛋白组两组数据各自正态性。前者我称为单样本正态性,后者为两样本正态性。

SPSS 操作

1

正态性检验界面:分析—描述统计—探索


2



单样本正态性检验界面,选入“体重”至“因变量列表”,“图”模块进行正态性检验

① 因变量列表(dependent variable):这一选框选入检验变量、或者结局变量(是希望去探讨的目标变量)

② 图:见下图:选“含检验的正态图、茎叶图、直方图”

① 茎叶图和直方图,两者都√上。特别是直方图,可以直观地看出数据的分布形态。

② 含检验的正态图:这一选项即进行正态性检验。


3



单样本正态性分析结果及解释

SPSS提供两种正态性检验结果,分别是柯尔莫戈洛夫-斯米诺夫(Kolmogorow-Smironov,KS)检验,另外一个是夏皮洛-威尔克(Shapiro-wilk,SW)。中文翻译起来非常别扭,建议用英文和缩写区别二者。二者结果均有统计量(statistic),df(自由度),显著性(sig., P值)。
划重点一般样本量在2000以下时选择SW的方法,本例亦是如此。事实上,可能大部分研究正态性检验选择SW检验方法。正态性检验最重要的是看“显著性”。
因此,本例结论是,P=1.000>0.05,差异没有统计学意义,还不能说明该样本的总体分布是偏态分布,可以认为该体重正态性是符合的
此外,直方图能够较直观判断数据分布特征。可以看出,体重大致属于中间多两边少的正态分布。

4



多样本正态性检验界面

多样本正态性与单样本正态性检验相似,但“探索”界面稍有不同。

① 因子列表(Factor variable):这一选框选入分组变量、或者原因变量。本研究分组变量为group(饲料类型),可以分为2组。

② 图:见单样本正态性检验,此处略


5



多样本正态性检验结果及解释

经SW检验,结果为:高蛋白组体重P=0.977,低蛋白组体重P=0.974,没有统计学意义,两组数据正态性均符合。
它们各自的直方图如:
以上为规规矩矩的正态性检验过程,看明白了吗?

正态性检验的实际应用

经常有同学问“我的数据正态性检验P<0.05,就不能用均数和标准差描述,不能用t检验和F检验了吗”。其实,也没有不那么绝对。
实际统计策略方面,诸位可以将数据分布分为三类:正态分布、近似正态分布数据和严重偏态分布数据。
第1类:正态分布符合,P>0.05;
第2类:正态分布不符合,P<0.05,但直方图还是呈现大致的中间多两边少,无严重极端值;
第3类:正态分布不符合,P<0.05,数据严重偏态,或者存在明显极端异常值
第1类(左)和第2类(右)数据的正态曲线图
第3类数据的正态图:存在严重极端值(左)、严重偏态分布(右)
一般情况下,前两类仍然可以用均数及标准差描述,用t检验和F检验进行统计推断,后者须用非参数检验。
我举个例子:

我在《卫生统计学》课程介绍正态性的问题,碰到一个超过10000多的样本,其正态性检验如下:

P<0.05,表明是偏态数据,但是其直方图如下:
这个数据,满足我上文讲的第二类分布。它虽然P<0.05,但是是典型的近似正态分布,在统计描述上,可以用均数及标准差描述,用t检验和F检验进行统计推断,

总结来说,判断数据正态性,需要结合直方图和正态性检验,将数据分布分为三大类,在此基础上分别选择不同的统计方法进行统计描述和统计推断。

最后,你猜猜,下面哪个图可以认为是严重偏态,哪个是近似正态分布的?

最后提醒:要学习本推文的完全对应的课程视频,请发送关键词“打卡”入群高校公益免费课程群来学习吧。

-本讲结束-

更多信息

本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。
1.免费下载!统计初学者的福音!《妙趣横生统计学》视频,生动有趣的统计学!
2.医学研究样本量如何计算?原创高清教程视频来了,完全免费下载!
3.绝对值得收藏!原创高清SPSS 操作视频免费下载
4.推荐!这个流行病大神制作的公共卫生研究小工具,可以计算标准化率及置信区间
5.全网最简单的SPSS教程,160页PPT学会SPSS统计分析!免费下载!
6.“如何在90分钟学会统计分析?” 来下载PPT学习吧!还有免费直播视频
特别提醒:上述资源每天限分享和下载一个。
如果您觉得文章不错,
为我们打“call”,
点击“分享”吧
(0)

相关推荐