统计分析到底该用参数检验?还是非参数检验?
《孟子·告子上》有篇著名的文章《鱼我所欲也》,这篇著名的文章有句著名的话:“鱼,我所欲也;熊掌,亦我所欲也。二者不可得兼,舍鱼而取熊掌者也。”对于理工科的科研狗来说,在对采集数据进行统计分析时,是选用参数检验方法还是非参数检验方法,是一个非常让人脑裂的问题。本文将根据本笔者粗鄙的统计学知识,讲一些有关的心得体会。
图片来自网络
对于样本数据,统计分析主要有参数检验和非参数检验两种方法:
参数检验(parameter test)全称参数假设检验,是指对样本数据的平均值、方差等参数进行的统计检验,主要包括U检验、T检验,方差分析(变量要求有方差齐性,是正态分布)。
非参数检验(Nonparametric tests)是与参数检验共同构成统计推断的基本内容。非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法,主要方法包括卡方检验、二项分布检验、K-S检验以及变量值随机性检验等方法。
参数检验和非参数检验主要的区别是:
1、参数检验是针对参数做的假设;非参数检验是针对总体分布情况做的假设,这是区分的一个重要特征;
2、根本区别在于,参数检验要利用到总体的信息(总体的分布、总体的一些参数特征,如方差),以总体分布和样本信息对总体参数做出推断;
非参数检验不需要利用总体信息,直接以样本信息对总体分布做出推断;
3、正态分布用参数检验,非正态分布用非参数检验。
那么根据从总体中抽样获得的样本及其需要验证的变量,可以选择最适合的参数或非参数的检验方法。
选择参数检验:检验回归(regression)、比较(comparison)或相关(correlation)三种关系。
参数检验通常比非参数检验有更严格的要求,并且能够从数据中做出更强的推断。它们只能用符合统计检验常见假设的数据进行。
最常见的参数检验包括回归系数检验、比较检验和相关性检验。
1.回归系数检验
回归系数检验用于检验/测试样本数据的变量之间因果关系,即自变量对因变量的影响是否显著。这种方法通常可以寻找到一个或多个连续变量对另一个变量的影响。三种回归系数检验方法使用条件及实例如下:
2.比较检验
比较检验是用来寻找群体平均数之间的差异。这种方法可以用来检验/测试定性(分类)变量对其他特征均值的影响。
在比较两组的平均值(例如男性和女性的平均身高)时,一般使用T检验。当比较两个以上组(例如儿童、青少年和成人的平均身高)的平均值时,使用方差分析和方差分析检验。
四种比较检验方法使用条件及实例如下:
3. 相关性检验
相关性检验(Correlation Test)是对变量之间是否相关以及相关的程度如何所进行的统计检验,主要用来检查/测试两个变量是否相关,而不假设因果关系。
相关性检验一般是对两个或多个具备相关性的变量进行分析,从而衡量变量的相关密切程度。相关性的变量之间需要存在一定的联系或者概率才可以进行相关性检验。
相关性检验方法使用条件及实例如下:
选择非参数检验:
非参数检验(Nonparametric tests) 针对的是总体分布不易确定,或分布呈明显偏态、方差不齐又无适当的变量转换方法以满足参数检验条件的样本数据。
需要注意的是:非参数检验的是比较分布而不是比较参数。非参数检验的方法是五花八门,名字也是千奇百怪,但是,这些方法有它们的共性。上面介绍了,就是因为对总体的分布形态不清楚或总体分布不是正态分布,所以无法用参数检验来推断总体的集中趋势和离散程度的参数。非参数检验不会对样本数据做太多的假设,当进行一个或多个常见的统计假设时,那么非参数检验是有用的。然而,从统计学上来讲,非参数检验的推论结果并不像参数检验那么有力。
三种不同的分布,右(左)偏态/负(正)偏态适合用非参数检验,正态分布适合用参数检验
非参数检验方法使用条件及替代的参数检验方法如下:
结语
《论语·八佾》里有一句话称为:“于天下之事,如指示掌中之物,言其易了。”对于样本数据在进行统计分析时,使用参数检验还是非参数检验方法,就必须对基本的统计验证方法有一些基本的了解。无论是哪种情况,只有“如指示掌中之物”,才能“言其易了”。