30天学会医学统计与SPSS公益课程(Day 2-1):正态性检验

Day 2-1: 正态性检验及其应用

隶属第二章:实验性研究定量数据的统计分析策略

从本将开始,我将利用8讲左右,介绍实验性研究定量数据的统计分析策略。在Day 1的视频我已经说过,统计分析测量最重要的三个决定因素是研究设计类型、数据类型和数据的分布,因此,本讲在介绍实验性研究定量数据的统计分析策略,首先解决的是定量变量的分布是否正态的问题。

实例分析

将出生28天的20只大鼠随机分成两组,分别饲以高蛋白和低蛋白饲料,8周后观察其体重(g)。问两种不同饲料组别的大鼠体重正态性情况如何?数据见数据库weight.sav.

高蛋白组:133,145,112,138,99,157,126,121,139,106,115
低蛋白组:118,75,106,87,94,110,102,124,130

1



思考

本案例由几个变量组成?研究的关键变量是什么?是什么类型的数据?

2



案情分析

本案例包括2个变量,一个是大鼠体重(g),另外一个是分组变量(高蛋白组和低蛋白组)。主要研究的结局指标是大鼠体重,定量数据。


3



统计分析策略

数据的正态性问题,可从两个层面来探讨。第一个层面是所有大鼠体重值放在一起的整体正态性,另外一个层面是高蛋白组和低蛋白组两组数据各自正态性。前者我称为单样本正态性,后者为两样本正态性。

SPSS 操作

1

正态性检验界面:分析—描述统计—探索


2



单样本正态性检验界面,选入“体重”至“因变量列表”,“图”模块进行正态性检验

① 因变量列表(dependent variable):这一选框选入检验变量、或者结局变量(是希望去探讨的目标变量)

② 图:见下图:选“含检验的正态图、茎叶图、直方图”

① 茎叶图和直方图,两者都√上。特别是直方图,可以直观地看出数据的分布形态。

② 含检验的正态图:这一选项即进行正态性检验。


3



单样本正态性分析结果及解释

SPSS提供两种正态性检验结果,分别是柯尔莫戈洛夫-斯米诺夫(Kolmogorow-Smironov,KS)检验,另外一个是夏皮洛-威尔克(Shapiro-wilk,SW)。中文翻译起来非常别扭,建议用英文和缩写区别二者。二者结果均有统计量(statistic),df(自由度),显著性(sig., P值)。
划重点一般样本量在2000以下时选择SW的方法,本例亦是如此。事实上,可能大部分研究正态性检验选择SW检验方法。正态性检验最重要的是看“显著性”。
因此,本例结论是,P=1.000>0.05,差异没有统计学意义,还不能说明该样本的总体分布是偏态分布,可以认为该体重正态性是符合的
此外,直方图能够较直观判断数据分布特征。可以看出,体重大致属于中间多两边少的正态分布。

4



多样本正态性检验界面

多样本正态性与单样本正态性检验相似,但“探索”界面稍有不同。

① 因子列表(Factor variable):这一选框选入分组变量、或者原因变量。本研究分组变量为group(饲料类型),可以分为2组。

② 图:见单样本正态性检验,此处略


5



多样本正态性检验结果及解释

经SW检验,结果为:高蛋白组体重P=0.977,低蛋白组体重P=0.974,没有统计学意义,两组数据正态性均符合。
它们各自的直方图如:
以上为规规矩矩的正态性检验过程,看明白了吗?

正态性检验的实际应用

经常有同学问“我的数据正态性检验P<0.05,就不能用均数和标准差描述,不能用t检验和F检验了吗”。其实,也没有不那么绝对。
实际统计策略方面,诸位可以将数据分布分为三类:正态分布、近似正态分布数据和严重偏态分布数据。
第1类:正态分布符合,P>0.05;
第2类:正态分布不符合,P<0.05,但直方图还是呈现大致的中间多两边少,无严重极端值;
第3类:正态分布不符合,P<0.05,数据严重偏态,或者存在明显极端异常值
第1类(左)和第2类(右)数据的正态曲线图
第3类数据的正态图:存在严重极端值(左)、严重偏态分布(右)
一般情况下,前两类仍然可以用均数及标准差描述,用t检验和F检验进行统计推断,后者须用非参数检验。
我举个例子:

我在《卫生统计学》课程介绍正态性的问题,碰到一个超过10000多的样本,其正态性检验如下:

P<0.05,表明是偏态数据,但是其直方图如下:
这个数据,满足我上文讲的第二类分布。它虽然P<0.05,但是是典型的近似正态分布,在统计描述上,可以用均数及标准差描述,用t检验和F检验进行统计推断,

总结来说,判断数据正态性,需要结合直方图和正态性检验,将数据分布分为三大类,在此基础上分别选择不同的统计方法进行统计描述和统计推断。

-本讲结束-

(0)

相关推荐