我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

统计分析中的事后检验


想要这篇文章的免费PDF版本?

填写下面的表格,我们会将PDF版本的统计分析中的事后检验

听与
喋喋不休地说
0:00
免费注册收听这篇文章
谢谢你!用上面的播放器听这篇文章。
阅读时间:
在本文中,我们回顾了事后检验在统计分析中的作用,如何解释它们以及何时使用它们(和不使用它们)。

什么是事后测试?

事后检验是在统计分析之后进行的,你已经进行了多个显著性检验,“事后”来自拉丁语“在此之后”。事后分析代表了一种调整或“重新解释”结果的方法,以解释执行统计测试中固有的I型错误的复合不确定性和风险(下文将详细介绍)。您还可以看到称为多次比较测试(mct)的事后测试。

测试的意义

首先,回顾一下统计学中的显著性检验是什么意思,然后探讨多重检验如何会导致错误的结论,这可能会有所帮助。显著性或假设检验可以在许多不同的情况下对许多类型的数据进行。执行零假设的第一步是定义一个“零假设”。然后,我们计算一个p值,作为一种量化反对零假设的证据强度的方法。p值是观察到一个结果是极端的,或比你观察到的结果更极端的概率,如果零假设为真。换句话说,这个结果由于偶然发生的概率。p值越小,反对零假设的证据就越强。


例如,我们可能想要调查两组患者的平均收缩压是否不同。我们将检验零假设(通常写成H0)两组观测到的均值相等(两组之间无差异)。然后,我们计算一个检验统计量,使用该检验统计量的已知理论分布,并获得和解释p值,使我们了解反对零假设的证据的强度。


正确解释p值可能是一件棘手的事情。虽然p值存在于0到1之间的连续区间,但通常使用任意的临界值0.05来表示“统计显著性”结果。0.05显著性水平(或α级别)可以用于其他目的,如计算所需的样本大小为了研究。

事后测试告诉你什么?

多个p值的解释变得更加棘手,这是一些研究人员使用事后测试的阶段。如果我们使用0.05显著性水平检验一个事实上为真的原假设,那么在接受原假设时得到正确结论的概率为0.95。如果我们测试两个独立的为真零假设,在接受零假设时得出正确结论的概率现在是0.95 x 0.95 = 0.90。因此,我们一起进行的显著性检验越多,我们错误地拒绝事实上为真零假设的复合风险就越高(这被称为I型错误或假阳性-见表1).换句话说,如果我们一遍又一遍地进行测试,我们最终会发现一个“显著”的结果,这就是为什么在多次测试的情况下必须小心解释p值。此外,在0.05显著性水平下,我们可以期望每20次显著性检验中有一次偶然观察到显著性结果。事后分析,如用于多重比较的Bonferroni检验,旨在重新平衡复合风险,并调整p值以反映I型错误的风险。的Bonferroni测试本质上是对被测试的多个组对进行的一系列t检验。

检验拒绝零假设

检验不能拒绝零假设

零假设是正确的

第一类错误

假阳性

正确的决定

没有区别

零假设是假的

正确的决定

真正的区别

第二类错误

假阴性

表1:对差异假设检验的四种可能结果的总结。


其他常见的事后测试包括:

  • Tukey检验——一种常见的事后检验,通过计算Tukey的诚实显著差异(HSD)来对组间比较时的测试统计数据进行调整,这是对组间差异的估计以及置信区间。
  • Scheffe检验-一种检验,它也调整了组间比较的检验统计数据,并计算了一个围绕差异的95%置信区间,但比Tukey检验更保守。


不太常见的事后测试适用于各种情况,可以找到它们的摘要在这里.这些测试往往会给出相似的结果,只是以不同的方式进行事后分析。

Bonferroni检验

Bonferroni检验的计算是通过简单地取进行假设检验的显著性水平来完成的(通常α=0.05),并将其除以所进行的单独测试的次数。例如,如果一名研究人员在10个亚组患者中调查两种治疗方法之间的差异(因此10个独立的显著性检验由n) Bonferroni校正计算为α/n= 0.05/10 = 0.005。


因此,如果任何显著性检验给出的p值<0.005,则我们可以得出结论,该检验在0.05显著性水平上是显著的,并且在该亚组中有证据表明两种处理之间存在差异。

使用事后测试?

就像许多统计程序一样,有缺点甚至有时争议与事后测试的使用有关。一些统计学家不喜欢使用事后检验,如Bonferroni检验,因为当I型错误被调整时,II型错误的风险会膨胀(当原假设实际上为假时,不拒绝原假设),这意味着应该根据进行了多少其他检验来不同地解释比较,以及在缺乏重点研究问题和假设检验方法的情况下依赖事后检验。


相反,建议在进行分析之前,研究应具体设计哪些亚组差异或假设是感兴趣的,以便由因果框架和先验知识引导结论,而不仅仅是数据和机会。实践中的一个例子可能类似于临床试验的预注册,以便研究人员在分析发生之前预先记录和证明假设和研究设计。通过仔细的研究设计、分析计划和对结果的解释,许多统计学家和分析师在没有前述方法严谨性的情况下避免事后检验。


此外,由于事后检验的目的是重新解释或设定一个达到“统计显著性”发现的新标准,一些人认为,停止使用事后检验是兼容的运动从统计显著性的概念更一般。p值可以而且一直是被证明误导研究人员,过度依赖统计显著性结果(<0.05)的有些武断的阈值,往往忽略了这些发现得出的背景,如统计假设、数据质量、该领域的先前研究和潜在机制。

与作者见面
艾略特特工
艾略特特工
伦敦卫生和热带医学学院研究员
广告
Baidu