使用非参数统计检验进行分析的指南
1980年代末,汉斯拉伊大学(Hansraj College)经济学荣誉毕业生的平均薪酬约为每年100万印度卢比。这一数字大大高于80年代初或90年代初毕业的人们。
他们平均水平如此之高的原因是什么呢?沙鲁克·汗是印度收入最高的名人之一,1988年毕业于汉萨拉吉学院,当时他在那里攻读经济学荣誉学位。
这一点,以及还有很多的例子都会告诉我们,平均值并不是很好的可以指示出数据的中心在哪里。它可能会受到异常值的影响。在这种情况下,查看中位数是更好的选择。 它是一个很好的数据中心的指示器,因为一半数据位于中间值以下,另一半位于中间值上方。
到目前为止,一切都很好——我相信你已经看到人们早些时候提出了这一点。问题是没有人告诉你如何进行像假设检验这样的分析。
统计检验用于制定决策。为了使用中位数进行分析,我们需要使用非参数检验。非参数测试是分布独立的检验,而参数检验假设数据是正态分布的。说参数检验比非参数检验更加的臭名昭著是没有错的,但是前者没有考虑中位数,而后者则使用中位数来进行分析。
接下来我们就进入非参数检验的内容。
**注意:**本文假定你具有假设检验,参数检验,单尾检验和双尾检验的先决知识。
1.非参数测试与参数测试有何不同?
当总体参数的信息完全已知时使用参数检验,而当总体参数的信息没有或很少使用非参数检验,简单的说,参数检验假设数据是正态分布的。然而,非参数检验对数据没有任何分布。
但是参数是什么?参数不过是无法更改的总体特征。让我们看一个例子来更好地理解这一点。
一位老师使用以下公式计算了班级学生的平均成绩:
看上面给出的公式,老师在计算总分时已经考虑了所有学生的分数。假设学生的分数是准确的,并且没有遗漏的分数,你是否可以更改学生的总分数?并不可以。因此,平均分被称为总体的一个参数,因为它不能被改变。
2.什么时候可以应用非参数检验?
让我们看一些例子。
1.比赛的获胜者由名词决定,而名次是根据越过终点线来进行排名的。现在,第一个越过终点线的人排名第一,第二个越过终点线的人排名第二,依此类推。我们不知道获胜者是以多远的距离击败了另一个人,因此区别是未知的。
2.有20人接受了一个疗程的治疗,并且通过调查记录他们的症状。遵循治疗过程后,要求患者在5个类别中进行选择。调查看起来像这样:
现在,如果你仔细查看上述调查中的值可以发现,值是不可以扩展的,它是基于病人的经验来判断的。而且,评分是被分配的而不是被计算的。在这种情况下,参数检验无效。
对于名义数据,不存在任何参数检验。
3.检测极限是值通过给定的分析方法可以检测到的物质的最低数量,但是不一定要将其定量为精确值。例如,病毒载量就是你血液中的HIV含量。病毒载量可以超出检测极限,也可以更高的数量。
4.在上面的平均薪酬方案的例子中,沙鲁克的收入是一个离群值。什么是离群值?沙鲁克的收入与其他经济学专业毕业生的收入相距异常。因此,沙鲁克的收入在这里变得异常,因为它与数据中的其他值之间存在异常距离。
总而言之,非参数检验可以应用于以下情况:
- 数据不遵循任何概率分布
- 数据由顺序值或等级构成
- 数据中有异常值
- 数据具有检测极限
这里要注意的一点是,如果存在一个针对问题的参数检验,则使用非参数检验将产生非常不准确的答案。
3.使用非参数检验的优缺点
在上面的讨论中,你可能已经注意到,我提到了使用非参数测试可能有利或不利的几点,因此现在让我们共同来看一下这些点。
优点
使用非参数检验而不是参数检验的优点是
1.即使样本量很小,非参数测试也可以提供准确的结果。
2.当正态性假设被违背时,非参数检验比参数检验更加有效。
3.它们适用于所有数据类型,例如标称,序数,间隔或具有离群值的数据。
缺点
1.如果数据进行任何参数检验,那么使用非参数检验可能是一个可怕的错误。
2.非参数检验的临界值表未包含在许多计算机软件包中,因此这些测试需要更多的手工计算。
4.非参数检验的假设检验
现在你知道非参数检验对总体参数无所谓,因此它不对父级总体的均值、标准差等做出任何假设。这里的零假设是一般的,因为两个给定的总体是相等的。
进行非参数检验时应遵循的步骤:
第一步是建立假设并选择一个显著性水平
现在,让我们看看这两个是什么
假设:我的预测是Rahul会赢得比赛,另一个可能的结果是Rahul不会赢得比赛。这些都是我的假设。我的备择假设是Rahul将赢得比赛,因为我们将让备择假设等于我们想要证明的。零假设是相反的假设,通常零假设是没有差异的陈述。例如,
零假设:H0:样本均值与总体均值之间没有显著性差异
备择假设:H1:样本均值与总体均值之间存在显著性差异
显著性水平: 它是做出错误决定的可能性。在上述假设陈述中,零假设表示样本和总体均值之间没有差异。假设样本均值和总体均值之间没有差异时,拒绝零假设的风险为5%。这种拒绝零假设成立的风险或可能性称为显著性水平。
显著性水平用α表示
在非参数检验中,根据研究的兴趣,假设检验可以是单侧或双侧。
2.设置测试统计信息
要了解什么是统计量,让我们看一个例子。一位老师计算了A部分学生的平均成绩,例如36分,她使用A部分学生的平均成绩来表示B,C和D部分学生的平均成绩。这里要注意的是,老师没有使用学生在所有部分中获得的总成绩,而是使用了A部分的平均成绩。在这里,平均成绩被称为统计信息,因为老师没有使用整个数据。
在非参数检验中,将观察到的样本转换为等级,然后将等级视为检验统计量。
3.设定决策规则
决策规则只是告诉我们何时拒绝原假设的一个语句。
4.计算检验统计量
在非参数检验中,我们使用等级来计算检验统计量。
5.将检验统计量与决策规则进行比较
在这里,你将接受或拒绝基于比较的零假设。
在讨论非参数检验的类型时,我们将更深入地研究这一部分。
5.非参数测试
1.曼·惠特尼U检验(Mann Whitney U test)
也称为曼惠特尼威尔科克森(Mann Whitney Wilcoxon)和威尔科克森秩和检验(Wilcoxon rank sum test),是独立样本t检验的一种替代方法。让我们通过一个例子来理解这一点。
一个制药组织创造了一种新的药物来治疗梦游,一个月后对5名患者进行了观察。另一组5人已经服用了旧药物一个月。然后,该组织要求个人记录上个月的梦游病例数。结果是:
如果你看这张表,服用新药的一个月内发生梦游的病例比服用老药的少。
查看下面给出的图形。
现在,在这里你可以看到当一个人服用新药时,他发生梦游的几率会降低。
理解这个问题了吗?我们来看看Mann Whitney U测试是如何工作的。我们很想知道服用不同药物的两组报告的梦游病例数是否相同。假设如下:
H0:两组报告的病例数量相同
H1:两组报告的病例数不同
我选择5%的显著性水平进行测试。下一步是设置一个测试统计信息。
对于Mann Whitney U检验,检验统计量由U 表示,U是U 1 和U 2 的最小值。
$$
$$
其中r1为第一组的秩和,r2为第二组的秩和,n1为第一组的大小,n2为第二组的大小。
现在,我们将通过合并这两组来计算秩。现在的问题是
如何分配秩?
秩是非参数检验的非常重要的组成部分,因此,学习如何为样本分配秩非常重要。让我们学习如何分配秩。
1.我们将两个样本合并,并按升序排列。我分别对旧药和新药使用OD和ND来代替。
ND | ND | ND | ND | ND | OD | OD | OD | OD | OD | |
---|---|---|---|---|---|---|---|---|---|---|
样本 | 1 | 1 | 2 | 3 | 4 | 4 | 7 | 8 | 8 | 9 |
此处,最小值被赋值为1,第二个最小值被赋值为2,依此类推。
ND | ND | ND | ND | ND | OD | OD | OD | OD | OD | |
---|---|---|---|---|---|---|---|---|---|---|
样本 | 1 | 1 | 2 | 3 | 4 | 4 | 7 | 8 | 8 | 9 |
秩 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
但是请注意,数字1、4和8在组合样本中出现了多次。因此分配的秩是错误的。
样本中有联系时如何分配秩呢?
联系基本上是一个样本中出现多次的数字。排序数据后,查看样本中数字1的位置。在这里,数字1出现在第一和第二位置。在这种情况下,我们取1和2的平均值(因为数字1出现在第一和第二位置),并将平均值分配给数字1,如下所示。我们对数字4和8遵循相同的步骤。这里的数字4出现在第5位和第6位上,它们的均值为5.5,因此我们将数字5.5分配给数字4。沿这些行计算数字8的等级。
ND | ND | ND | ND | ND | OD | OD | OD | OD | OD | |
---|---|---|---|---|---|---|---|---|---|---|
样本 | 1 | 1 | 2 | 3 | 4 | 4 | 7 | 8 | 8 | 9 |
秩 | 1.5 | 1.5 | 3 | 4 | 5.5 | 5.5 | 7 | 8.5 | 8.5 | 10 |
当样本中存在联系时,我们分配平均秩,以确保每个大小为n的样本的秩和相同。因此,秩和将始终等于
n ( n + 1 ) 2 \frac{n(n+1)}{2} 2n(n+1)
2.下一步是计算组1和组2的秩和。
R 1 = 15.5
R 2 = 39.5
3.使用U 1 和U 2 的公式,计算它们的值。
U 1 = 24.5
U 2 = 0.5
现在,U = min(U 1 ,U 2 )= 0.5
注意:对于Mann Whitney U test,U的值在(0,n 1 * n 2 )范围内,其中0表示两组完全不同,n 1 * n 2 表示两组之间存在一定的关系。而且,U 1 + U 2 始终等于n 1 * n 2 。请注意,此处的U值为0.5,非常接近0。
现在,我们使用临界值表来确定临界值(用p表示), 该值是从检验的显著性水平得出的一个点 ,用于拒绝或接受无效假设。在Mann Whitney U test中,检验标准为
接受H0:U ≤ 临界值
拒接H0:U > 临界值
在这里,p = 2
U <临界值,因此,我们拒绝零假设,并得出结论,没有重要证据表明两组报告的梦游病例数目相同。
2.威尔科克森符号秩检验(Wilcoxon Sign-Rank Test)
当样本违反正态分布假设时,就可以使用该检验代替配对t检验。
一位老师在课堂上教了一个新题,并决定在第二天进行突击测验。一共有6名学生接受了测试,满分为10分,第一次测试分数如下:
注意:假定以下数据违反了正态分布的假设。
学生 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
分数 | 8 | 6 | 4 | 2 | 5 | 6 |
现在,老师决定在一周的自习课中再次参加考试。分数如下
学生 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
分数 | 6 | 8 | 8 | 9 | 4 | 10 |
让我们检查一下一周后的学生成绩是否有所提高。
学生 | 第一次测试 | 第二次测试 | 差异(第二次分数-第一次分数) |
---|---|---|---|
1 | 8 | 8 | -2 |
2 | 6 | 8 | 2 |
3 | 4 | 8 | 4 |
4 | 2 | 9 | 7 |
5 | 5 | 4 | -1 |
6 | 6 | 10 | 4 |
在上表中,在某些情况下,学生的得分比以前低,并且在某些情况下,学生4的进步相对较高。这可能是由于随机效应。我们将使用此测试分析差异是系统的还是偶然的。
下一步对差值的绝对值进行排序。请注意,只有在按升序排列数据后才能执行此操作。
差异 | 秩 |
---|---|
-1 | 1 |
2 | 2.5 |
-2 | 2.5 |
4 | 4.5 |
4 | 4.5 |
7 | 6 |
在Wilcoxon sign-rank test中,我们需要符号秩,基本上是将与差异相关的符号分配给秩,如下所示。
差异 | 秩 | 符号秩 |
---|---|---|
-1 | 1 | -1 |
2 | 2.5 | 2.5 |
-2 | 2.5 | -2.5 |
4 | 4.5 | 4.5 |
4 | 4.5 | 4.5 |
7 | 6 | 6 |
容易吧?那么现在的假设是什么?
H0:正秩和
H1:负秩和
假设可以是单侧的,也可以是双侧的,我使用单侧假设,使用5%的显著性水平。因此,α=0.05
此测试的测试统计量是W在下面定义的W 1 和W 2中的较小者:
W1:正秩和
W2:负秩和
W 1 = 17.5
W 2 = 3.5
W =min(W 1 ,W 2 )= 3.5
在这里,如果W 1 与W 2 相似,那么我们接受零假设。否则,在中,如果差异反映出学生得分的提高,则我们拒绝原假设。
W的临界值可以在表中查到。
接受或拒绝零假设的标准是
接受H0:W ≤ 临界值
拒绝H0:W>临界值
**在这里,W>临界值= 2,因此我们接受零假设并得出结论,两个检验的分数之间没有显著差异。 **
W
在这里,W>临界值= 2,因此我们接受零假设并得出结论,两个测试的标记之间没有显着差异。
3.符号检验(Sign Test)
该检验与Wilcoxon Sign-Rank Test相似,如果数据违反正态性假设,也可以用它代替配对t检验。我将使用在Wilcoxon Sign-Rank Test中使用的相同例子(假设它不遵循正态分布)来解释符号测试。
让我们再次查看数据。
学生 | 第一次测试 | 第二次测试 | 差异(第二次分数-第一次分数) | 符号 |
---|---|---|---|---|
1 | 8 | 6 | -2 | - |
2 | 6 | 8 | 2 | + |
3 | 4 | 8 | 4 | + |
4 | 2 | 9 | 7 | + |
5 | 5 | 4 | -1 | - |
6 | 6 | 10 | 4 | + |
在Sign Test中,我们没有考虑大小,因此忽略了等级。假设与以前相同。
H0:中位数差为0
H1:中位数差为正
在这里,如果我们看到相同数量的正差和负差,则零假设成立。否则,如果我们看到更多的正号,则拒绝零假设。
测试统计量:此处的测试统计量小于正负号的数量。
确定临界值,拒绝和接受原假设的标准为:
接受H0:如果+和-的符号数量≤临界值
拒绝H0:如果+和-的符号数量>临界值
在这里,+&–符号的较小数目= 2 <临界值=6。因此,我们拒绝零假设,并得出结论,没有明显的证据表明中位数差为零。
4.秩和检验(Kruskal-Wallis Test)
当你处理两个以上的独立群体时,该测试是非常有用的,它可以比较k个群体的中位数。当数据违反了正态分布的假设并且样本量太小时,此测试可以替代单因素方差分析。注意:Kruskal-Wallis Test可用于连续和有序级别的因变量。
让我们看一个例子,以增强我们对Kruskal-Wallis Test的理解。
登革热患者分为3组,并给予三种不同类型的治疗。经过3天的疗程后,患者的血小板计数如下。
治疗方法1 | 治疗方法2 | 治疗方法3 |
---|---|---|
42000 | 67000 | 78000 |
48000 | 57000 | 89000 |
57000 | 79000 | 67000 |
69000 | 80000 | |
45000 |
请注意,三种治疗的样本量不同,可以使用Kruskal-Wallis Test来解决。
处理1、2和3的样本量如下:
方法1;n 1 = 5
方法2;n 2 = 3
处理3;n 3 = 4
n = n 1 + n 2 + n 3 = 5 + 3 + 4 = 12
假设在下面给出,选择5%的显著性水平
H0:三种方法的中位数相同
H1:三种方法的中位数不同
将这些样本从最小到最大进行排序,然后将秩分给样本。
回想一下,秩和将始终等于n(n + 1)/ 2。
在这里,秩和= 78
n(n + 1)/ 2 =(12 * 13)/ 2 = 78
我们必须检查3个总体中位数之间是否存在差异,因此我们将基于秩在检验统计数据中汇总样本信息。在此,测试统计量由H表示,并由以下公式给出
H = ( 12 n ( n + 1 ) ∑ j = 1 k R j 2 n j ) − 3 ( n + 1 ) H=\left(\frac{12}{n(n+1)} \sum_{j=1}^{k} \frac{R_{j}^{2}}{n_{j}}\right)-3(n+1) H=(n(n+1)12j=1∑knjRj2)−3(n+1)
在这里 :k=比较的组数,
n=总样本大小,
nj=第j组的样本量,
Rj=第j组的秩和。
下一步就是利用临界值确定H的临界值,测试标准如下:
接受H0:H ≥ 临界值
拒绝H0:H<临界值
H的值计算出来是6.0778,临界值为5.656。因此,我们拒绝零假设,并得出结论,没有重要证据表明这三个总体中位数相同。
注意:在Kruskal-Wallis Test中,如果有3个或更多独立的比较组,每组中有5个或更多观察值,则检验统计量H近似为k-1自由度的卡方分布。因此,在这种情况下,你可以在卡方分布表中找到检验的临界值作为临界值。
5.斯皮尔曼等级相关性(Spearman Rank Correlation)
假如我去市场买了一条裙子,巧合的是,我的朋友从她附近的市场上买了同一条裙子,但她为此付出了更高的价钱。与我的朋友相比,我朋友家附近的市场更加昂贵。那么,地区会影响商品价格吗?如果确实如此,那么该地区与商品价格之间便存在联系。我们在这里使用斯皮尔曼等级相关性是因为它确定两个数据集之间是否存在相关性。
蔬菜的价格因地区而异。我们可以使用斯皮尔曼等级相关性来检查蔬菜价格和面积之间是否存在关系。这里的假设是:
H0:价格与面积无关
H1:价格与面积有关
在这里,趋势线表明蔬菜价格与面积之间呈正相关。但是,应使用斯皮尔曼等级相关性检查相关方向和强度。
斯皮尔曼等级相关性是皮尔逊相关系数的非参数替代,用Rs表示。Rs的取值范围(-1,1),其中
-1代表秩之间存在负相关关系
0代表秩之间没有相关性
1代表秩之间存在正相关性
将秩分配给样本后,使用以下公式计算S斯皮尔曼秩相关系数。
Case 1 :当数据中没有联系时
ρ = 1 − 6 ∑ d i 2 n ( n 2 − 1 ) \rho=1-\frac{6 \sum d_{i}^{2}}{n\left(n^{2}-1\right)} ρ=1−n(n2−1)6∑di2
Case 2:当数据中有联系时
ρ = 1 n ∑ i = 1 n ( ( R ( x i ) − R ( x ˉ ) ) ( R ( y i ) − R ( y ˉ ) ) ) ( 1 n ∑ i = 1 n ( R ( x i ) − R ( x ˉ ) ) 2 ) ( 1 n ∑ i = 1 n ( R ( y i ) − R ( y ˉ ) ) 2 ) \rho=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(\left(R\left(x_{i}\right)-R(\bar{x})\right)\left(R\left(y_{i}\right)-R(\bar{y})\right)\right)}{\sqrt{\left(\frac{1}{n} \sum_{i=1}^{n}\left(R\left(x_{i}\right)-R(\bar{x})\right)^{2}\right)\left(\frac{1}{n} \sum_{i=1}^{n}\left(R\left(y_{i}\right)-R(\bar{y})\right)^{2}\right)}} ρ=(n1∑i=1n(R(xi)−R(xˉ))2)(n1∑i=1n(R(yi)−R(yˉ))2) n1∑i=1n((R(xi)−R(xˉ))(R(yi)−R(yˉ)))
在这里R(x)和R(y)为秩,R(xbar)和R(ybar)为平均秩
让我们通过一个例子来理解这些公式的应用。下表包括学生的数学和科学的的分数。
零假设表示标记之间没有关系,备择假设指出标记之间有关系。选择5%的显著性水平进行测试
数学 | 56 | 75 | 45 | 71 | 62 | 64 | 58 | 80 | 76 | 61 |
---|---|---|---|---|---|---|---|---|---|---|
科学 | 66 | 70 | 40 | 60 | 65 | 56 | 59 | 77 | 67 | 63 |
现在计算秩和d,d是秩和n之间的差值,而n是样本大小=10。执行以下操作:
数学 | 56 | 75 | 45 | 71 | 62 | 64 | 58 | 80 | 76 | 61 |
---|---|---|---|---|---|---|---|---|---|---|
科学 | 66 | 70 | 40 | 60 | 65 | 56 | 59 | 77 | 67 | 63 |
等级(M) | 9 | 3 | 10 | 4 | 6 | 5 | 8 | 1 | 2 | 7 |
等级(S) | 4 | 2 | 10 | 7 | 5 | 9 | 8 | 1 | 3 | 6 |
d | 5 | 1 | 0 | 3 | 1 | 4 | 0 | 0 | 1 | 1 |
d平方(d-square) | 25 | 1 | 0 | 9 | 1 | 16 | 0 | 0 | 1 | 1 |
现在,使用该公式计算斯皮尔曼等级相关系数。因此,斯皮尔曼等级相关性为0.67,这表明在数学和科学测试中获得的学生排名之间呈正相关,这意味着你在数学中的排名越高,你在科学中的排名越高,反之亦然。
你也可以通过使用显著性水平和样本量确定临界值来检查此情况。拒绝或接受零假设的标准为:
接受H0:|rs| ≥临界值
拒绝H0:|rs|<临界值
注意:此处的自由度为n-2。
临界值为0.033,小于0.67因此我们拒绝零假设。
结束
当参数检验的假设被违反时,非参数检验将更强大,并且可以用于所有数据类型,例如标称,有序,区间以及数据具有离群值的情况。如果任何参数检验对问题是有效的,则使用非参数检验将给出非常不准确的结果。
总而言之,
Mann Whitney U Test用于检验两组独立组间的差异,分别为有序因变量和连续因变量
Wilcoxon sign rank test用于检验两个相关变量之间的差异,该差异考虑了差异的大小和方向,但是Sign检验忽略了大小,仅考虑了差异的方向。
Kruskal-Wallis Test通过使用中位数比较了两个以上独立组的结果。
Spearman Rank Correlation技术用于检查两个数据集之间是否存在关联,还可以说明关联的类型。