卡方测试
卡方测试是什么?
卡方测试,通常写成χ2测试,统计假设检验用于分类变量的分析,以确定观测数据与预期不同。卡方测试是一个常用的非参数检验,这意味着他们不承担相关数据的分布(如。正态分布)。而测试依赖于卡方分布,人口的理论分布值。
卡方测试的类型
卡方测试的有两种主要类型:
- 一个卡方拟合优度检验,这是用来测试是否观察到的频率(每个类别的观测数量)的一个变量不同于我们所期望的事情。换句话说,测试确定样本分布与人口分布。
- 一个卡方测试的独立性,也称为卡方测试协会,它比较两个变量是否他们彼此不同。
这些类型的测试使用卡方检验统计量和分布,并与预期值之间的比较观察值,用于不同的目的。他们被称为皮尔逊卡方测试。还有其他各种各样的测试,使用卡方检验统计量,包括卡方检测趋势,McNemar检验法的测试(配对数据的分析),测试一个方差和似然比检验——所有这些都超出了本文的范围。
这里我们将专注于为独立卡方测试,因为它广泛应用在社会科学,统计学,计量经济学,它是用于比较分类变量的分布在一个样本的分布在另一个样本类别变量。
什么时候使用卡方测试
卡方测试协会应用于频率在两个变量的交叉表你想比较。这被称为列联表,每个行和列的组合(如。的人数在一个小的家庭有症状COVID-19)是由一个细胞表中(见表1)。这是关键变量都直言,这意味着它们可以承担有限数量的可能的值在不同的类别。分类变量的例子包括种族,存在一种疾病(yes / no),和年龄分组到乐队(例如,0 - 5年,6 - 10年、11年以上)。
|
|
有症状的 |
无症状的 |
总 |
家庭规模 |
小(1 - 3) |
30 (41.1%) |
43 (58.9%) |
73年 |
|
大(4 +成员) |
96例(66.2%) |
49 (33.8%) |
145年 |
|
总 |
126例(57.8%) |
92例(42.2%) |
218年 |
您可以使用卡方测试调查这样的两个变量之间的关系用以下假设:
- 零假设(H0)是没有这两个变量之间的联系
- 备择假设(H1)是一个任何形式的协会。
卡方测试的一个限制是它需要一个足够大的样本容量是有效的。作为一般规则,预期值小于5时,我们应该把一个精确的概率分布和使用确切概率法。
如何进行卡方测试吗
健康研究员可能进行的一项研究对COVID-19动力学传输和愿望调查家庭规模是否与一个人是否出现症状性疾病有关病毒阳性。帮助回答这个研究问题他们可能进行卡方测试独立使用以下四个步骤。
步骤1:现在的零和替代假说
进行卡方测试的第一步是清楚地说明假设。在这个例子中,特定的假设如下:
- 零假设(H0)是在人口没有家庭大小和感染COVID-19症状之间的联系。换句话说,真正的不同症状的比例在两组家庭大小为零(π1 -π2 = 0)。
- 备择假设(H1)是一个家庭大小和感染,症状之间的联系和比例之间的真正差别在两个家庭组症状不为零(π1——π2≠0)。
步骤2:零假设下计算期望值
在这一步中,我们使用列联表(表1)为每个细胞频率找到预期的零假设是真的。为此我们使用行和列的总数,称为边际总数,并获得预期的数字为:
因此,如果家庭规模与症状没有联系状态,我们希望同样比例的两个家庭的有症状感染组:
(73 x 126) / 218 = 42.1的小家居集团预计COVID-19和症状(145 x 126) / 218 = 83.8大型家居集团预计COVID-19症状。表2显示了所有四个细胞的预期值的列联表。重要的是要注意,进行卡方计算频率值本身,而不是比例。
|
|
有症状的 |
无症状的 |
总 |
家庭规模 |
小 |
30.(42.1) |
43(30.8) |
73年 |
|
大 |
96年(83.8) |
49(61.2) |
145年 |
|
总 |
126年 |
92年 |
218年 |
表2状态:列联表显示症状为COVID-19家庭规模在218名参与者在一项研究中,COVID-19阳性。将数字以粗体显示。
在我们的示例中,我们使用一个2 x2列联表,因为我们感兴趣的变量都有两类,但是如果我们想要比较分类变量的分布有超过两类卡方测试可以很容易地扩展使用这些相同的四个步骤。
步骤3:计算卡方检验统计量
现在我们比较两个变量的观察和期望频率。我们需要计算检验统计量,总结多少不同,任何差异在多大程度上是由于随机变化。卡方(χ2)检验统计量计算使用以下公式:
在这个公式中,∑符号表示的总和(相加)成功数量在所有四个细胞列联表。对于我们的示例:
这给了我们的检验统计量χ2= 12.51。
步骤4:计算假定值和评估证据的强度对零假设。
越大χ2检验统计量更大的观察和期望值之间的差异。测试协会我们可以比较χ的力量2检验统计量的分布在零假设下,计算假定值。零χ2价值和假定值可以很容易地计算了统计软件在实践中,如果手工计算使用参考表。这些值取决于自由度,等于1 2 x2表和将大应急表更多的类别。他们还依赖于显著性水平(通常α= 0.05)。
在我们的示例中,χ2产生一个小的假定值(p < 0.001),这意味着从卡方测试我们的解释是,有很强的证据对零假设。我们可以得出这样的结论:有证据表明可能更大的家庭规模和COVID-19感染症状之间的联系。
艾略特特工是一个研究员在流行病学和统计学在伦敦卫生与热带医学学院的