Kruskal-Wallis测试
什么是Kruskal-Wallis测试?
Kruskal-Wallis检验是一种统计检验,用于比较两个或多个组的连续或离散变量。这是一种非参数检验,意味着它假设数据没有特定的分布,类似于单向方差分析(ANOVA)。Kruskal Wallis检验有时被称为对等级的单向方差分析或Kruskal Wallis单向方差分析。
Kruskal-Wallis检验的假设如下:
- 零假设(H0)是总体中位数相等。
- 替代假设(H1)是总体中位数不相等,或者总体中位数不同于其他组的总体中位数。
Kruskal-Wallis测试假设
Kruskal-Wallis检验的假设详细如下:
- 假设数据为非正态分布或偏态分布。当数据服从正态分布时,应使用单因素方差分析。
- 感兴趣的变量应该有两个或更多独立的组。该测试最常用于三个或更多组的分析-如果分析两个组,应该使用曼-惠特尼U测试。
- 假设数据在组间具有相似的分布。
- 数据应该是随机选择的独立样本,因为各组之间应该没有关系。
- 每组样本应至少有5个观察值,以获得足够的样本量。
这些假设类似于Mann-Whitney U检验,因为Kruskal-Wallis检验本质上是该检验的扩展,有两个以上的独立样本。类似于Mann-Whitney U检验,Kruskal-Wallis检验是基于对数据进行排序和计算检验统计量。
何时使用Kruskal-Wallis测试
当数据正态性假设不成立时,Kruskal Wallis检验和其他非参数(或无分布)检验可用于检验假设。它们不假设数据分布的形状,这使得它们在数据集很小的时候特别有用。值得注意的是,在进行非参数统计检验时,它们往往比参数检验给出更保守的结果(更大的p值)。当感兴趣的变量是连续的时,应该使用Kruskal Wallis检验(在一个范围内取任何数字)。年龄、身高、血压)或离散的(有一个可以计算的特定值)。鞋子的尺码,去医院的次数,一个家庭的人数)。
手工Kruskal-Wallis测试
在心理学领域工作的研究人员可能对年轻人的睡眠习惯和他们的心理健康之间的关系感兴趣。他们对15名年轻人进行了一项小型调查,这些年轻人报告每晚平均睡眠时间超过8小时、6 - 8小时或少于6小时。然后他们用一个经过验证的分数来衡量自己的心理健康。表1显示了在睡眠类别中收集的原始幸福得分,以及每个类别的幸福得分中位数。
每晚的睡眠时间 |
幸福分值 |
中位数 |
> 8小时 |
42 34 57 69 55 |
55 |
6 - 8小时 |
29 66 46 68 42 |
46 |
< 6小时 |
16 32 35 66 59 |
35 |
由于我们研究的是一个离散的结果变量,三个独立的组,样本量小,并且不能在组中假设正态分布,所以Kruskal-Wallis检验适用于测试不同睡眠类别的幸福感得分是否存在差异。广泛使用的统计软件可以很容易地计算出这种统计检验,但手工也可以做到五个步骤.
第一步:提出原假设和替代假设
本例中的假设如下:
- 零假设(H0)是睡眠组的幸福得分中位数相等,或者中位数之间的差异为零。
- 另一种假设(H1)是,在至少一个睡眠组中,人口幸福得分中位数与其他一个组的人口中位数不同。
第二步:对数据进行排序和排序
接下来,我们对所有组的数据进行升序排序,并对幸福得分进行排序,如表2所示。
睡眠的类别 |
<6 |
6 - 8 |
<6 |
> 8 |
<6 |
> 8 |
6 - 8 |
6 - 8 |
> 8 |
> 8 |
<6 |
6 - 8 |
<6 |
6 - 8 |
> 8 |
分数 |
16 |
29 |
32 |
34 |
35 |
42 |
42 |
46 |
55 |
57 |
59 |
66 |
66 |
68 |
69 |
排名 |
1 |
2 |
3. |
4 |
5 |
6.5 |
6.5 |
8 |
9 |
10 |
11 |
12.5 |
12.5 |
14 |
15 |
表2
请注意,当有两个相同的分数时,分配的等级是如果它们彼此不同将分配的两个等级的平均值。
第三步:把每组的排名加起来
接下来,我们找到每个睡眠组的总排名,我们可以称之为“T”j,只需使用表2中的信息将每个组的排名相加即可:
- T1(睡眠时间少于6小时组的总排名):1 + 3 + 5 + 11 + 12.5 = 32.5
- T2(6-8小时睡眠组的总排名):2 + 6.5 + 8 + 12.5 + 14 = 43
- T3.(>组8小时睡眠的排名):4 + 6.5 + 9 + 10 + 15 = 44.5
第四步:计算H统计量
与其他统计检验一样,我们使用检验统计量评估假设,在Kruskal-Wallis检验中称为H统计量。H统计量由下式给出:
来源:科技网络188金宝搏备用
公式中,n为所有组中观测值的总数(本例中n=15), Tj是每组的秩总和(T1= 32.5, t2= 43和T3.= 44.5)和n我每组观察数(n1= 5, n2= 5和n3.= 5)。在这个公式中,值12保持不变,因为它自然地与排名组之间平方和的平均值有关。
我们应该解决的公式的第一部分是这部分:取每个组的总排名,将其平方,并将结果除以每个组的观察数,然后将这些数字相加。在公式中,j=1告诉我们和的第一个值,c是最终值(在我们的例子中c = 3,因为有3组)。可以找到求和符号的入门知识在这里.
来源:科技网络188金宝搏备用
接下来,我们可以把这个值和观测的总数代入完整的公式中来求H:
来源:科技网络188金宝搏备用
这给了我们检验统计量H=0.855。这个测试的自由度(df)是由组数减去1给出的,所以我们有2df。
第五步:获取并解释p值
最后一步是将H值与a进行比较临界卡方值并解释得到的p值。这个值来自卡方分布,这是一个理论分布的值的总体,通常用于非参数统计。在我们的例子中,df为2,显著性水平为0.05,我们得到的p值为>0.05,因为我们计算的H统计量远小于临界值5.991(使用统计软件计算的准确p值为p=0.652)。这意味着获得与我们偶然发现的H值一样大的H值的可能性是0.652。这是一个很大的p值,因此我们得出结论,没有足够的证据来拒绝零假设,即三个睡眠组的幸福得分存在任何差异。