克鲁斯卡尔-沃利斯测试
克鲁斯卡尔-沃利斯检验是什么?
克鲁斯卡尔-沃利斯检验是统计测试用来比较两个或两个以上的连续或离散变量组。它是一种非参数测试,这意味着它不承担任何特定的数据分布和类似于单向方差分析(方差分析)。克鲁斯卡尔沃利斯测试有时被称为单向方差分析排名或Kruskal沃利斯单向方差分析。
克鲁斯卡尔-沃利斯检验的假设如下:
- 零假设(H0)是人口中位数是相等的。
- 备择假设(H1)是人口中位数不相等,或人口值不同于另一个群体的人口中。
克鲁斯卡尔-沃利斯检验假设
假设克鲁斯卡尔-沃利斯检验详细如下:
- 数据是假定为非正常或偏态分布。单向方差分析时应该使用数据服从正态分布。
- 感兴趣的变量应该有两个或两个以上的独立组织。测试分析是最常用的三个或更多组,分析两组Mann-Whitney U测试应该使用。
- 数据被假定整个团体采取类似的分布。
- 数据应该随机选择独立样本,在团体应该没有关系。
- 每组样本应该有至少5观察足够的样本大小。
这些假设是相似的Mann-Whitney U测试克鲁斯卡尔-沃利斯检验,本质上是一个扩展的测试有超过两个独立样本。类似于Mann-Whitney U测试,克鲁斯卡尔-沃利斯检验是基于排名的数据和计算检验统计量。
当使用克鲁斯卡尔-沃利斯检验
Kruskal沃利斯测试和其他非参数(或传播变为免费)测试时有用的测试假说假设正常的数据并不持有。不假设数据分布的形状,这使得它们特别有用的数据集时小。重要的是要注意,当进行非参数统计检验,他们往往给一个更保守的结果(一个更大的假定值)比他们的参数。克鲁斯卡尔沃利斯测试时应该使用感兴趣的变量是连续的(任意数量范围内。年龄、身高、血压)或离散(在某个值,可以计算。鞋的大小,数量的医院,在一个家庭的人数)。
克鲁斯卡尔-沃利斯检验用手
研究员在心理学领域的睡眠习惯之间的关系可能会感兴趣的年轻人和他们的精神健康。他们进行小调查的15个年轻人报告睡眠超过8小时,6 - 8小时或不到6小时平均每晚。然后他们使用验证分数衡量他们的精神健康。表1显示了原始的幸福得分收集在熟睡的类别以及幸福感得分中值在每个类别。
小时的睡眠 |
幸福得分值 |
中位数 |
> 8小时 |
42岁,34岁,57岁的69年,55岁 |
55 |
6 - 8小时 |
29日,66年,46岁,68年,42岁 |
46 |
< 6小时 |
16、32、66、59 |
35 |
因为我们正在与一个离散的结果变量,三个独立的组,一个小样本大小,不能假定正态分布的团体,克鲁斯卡尔-沃利斯检验是合适的测试是否有差异在睡眠健康得分类别。广泛使用的统计软件可以很容易地计算这个统计测试,但是我们可以做手工五个步骤。
第一步:零和替代假说
本例中的假设如下:
- 零假设(H0)是幸福得分中值等于在睡眠组,或中位数之间的差异为零。
- 另一种假说(H1)是,至少在一个睡眠组人口健康得分中值不同于另一个群体的人口中。
第二步:排序和等级分配给数据
接下来,我们从所有组为升序排序数据和分配幸福得分排名,如表2所示。
睡眠的类别 |
< 6 |
6 - 8 |
< 6 |
> 8 |
< 6 |
> 8 |
6 - 8 |
6 - 8 |
> 8 |
> 8 |
< 6 |
6 - 8 |
< 6 |
6 - 8 |
> 8 |
分数 |
16 |
29日 |
32 |
34 |
35 |
42 |
42 |
46 |
55 |
57 |
59 |
66年 |
66年 |
68年 |
69年 |
排名 |
1 |
2 |
3 |
4 |
5 |
6.5 |
6.5 |
8 |
9 |
10 |
11 |
12.5 |
12.5 |
14 |
15 |
表2
注意,当有两个相同的分数,排名分配平均的两个队伍,他们被分配不同。
第三步:把每组的排名
接下来,我们找到的总排名在每个睡眠组,我们可以称之为“Tj”,通过简单地相加为每个组中使用的信息表2:
- T1(总排名为< 6小时睡眠组):1 + 3 + 5 + 11 + 12.5 = 32.5
- T2(总排名6 - 8小时的睡眠组):2 + 6.5 + 8 + 12.5 + 14 = 43
- T3(总排名> 8小时睡眠组):4 + 6.5 + 9 + 10 + 15 = 44.5
第四步:计算H统计
与其他统计检验我们评估假设使用检验统计量,在克鲁斯卡尔-沃利斯的情况下测试叫做H统计。H统计由以下公式给出:
信贷:技术网络188金宝搏备用
的公式,n是观测的总数在所有组(n = 15在我们的示例中),Tj是每组的总排名(T1= 32.5,T2= 43和T3= 44.5)和n我观察每组的数量(n1n = 5,2n = 5,3= 5)。这个公式的值12保持不变,因为它自然发生在关系之间的均值平方和排名小组。
公式的第一部分,我们应该解决的部分代表每个小组的排名总平方,结果除以观察每组的数量,之前把这些数字加起来。的公式,j = 1告诉我们第一个值的总和和c是最后的价值(在我们的例子中c = 3有3组)。可以找到求和符号的底漆在这里。
信贷:技术网络188金宝搏备用
接下来,我们可以把这个值和总数量的观察到完整的公式发现H:
信贷:技术网络188金宝搏备用
这给了我们的检验统计量H = 0.855。自由度(df)这个测试是由团体的数量- 1,所以我们有2 df。
第五步:获取和解释假定值
我们的最后一步是比较H值的临界卡方值和解释获得的假定值。这个值是来自卡方分布,这是一个理论的人口分布的值通常是用于非参数统计。在我们的示例中,2 df和0.05显著性水平,我们获得的假定值> 0.05,计算H统计量远小于5.991的临界值(确切的假定值计算使用统计软件p = 0.652)。这意味着获得H值的可能性一样大我们偶然发现是0.652。这是一个大的假定值,因此我们认为没有足够的证据拒绝零假设,幸福有任何差异三个睡觉的组分数。