添加统计保障数据分析和可视化软件
现代数据可视化软件方便了用户探索大型数据集寻找有趣的相关性和新发现。但这易用性——问问题的能力与几个鼠标点击的数据集——附带了一个严重的缺陷:它增加的可能性做出错误的发现。
问题是统计学家称为“多重假设错误。“问题本质上是这样的:有人问更多的问题的数据集,他们更有可能是偶然发现的东西看起来像一个真正的发现,但实际上是一个随机波动数据集。
从布朗大学的一组研究人员正致力于软件来帮助解决这个问题。本周在芝加哥SIGMOD2017会议上,他们提出了一个新的系统称为QUDE,增加实时统计保障交互式数据开采系统来减少错误的发现。
“越来越多的人在使用数据探索软件画面和火花,但大多数用户不统计和机器学习的专家,”蒂姆·克拉斯说,布朗大学的助理教授计算机科学和一个研究的合著者。“有很多你可以统计错误,所以我们开发技术,帮助人们避免他们。”
多重假设检验统计数据中的错误是一个著名的问题。在大数据时代和交互式数据探索,这个问题已经重新突出克拉斯说。
“这些工具使它很容易查询数据,”他说。“你可以测试100假设在一个小时内使用这些可视化工具。没有纠正多个假设错误,很有可能你会遇到相关完全是虚假的。”
有著名的统计技术来处理这个问题。大部分的技术涉及调整所需的统计显著性水平验证一个特定的假设基于总共有多少假说被测试。假设测试数量的增加,显著性水平需要法官发现随着有效增加。
但这些修正技术几乎都是事后调整。他们所使用的工具的研究项目所有的假设检验完成后,不适合实时交互式数据探索。
“我们不想等到会议结束告诉人们如果他们的结果是有效的,”伊莱Upfal说,布朗和计算机科学教授研究的合著者。“我们也不希望有系统逆转,告诉你在一个会话,只重要的事要告诉你后,你测试更多的假设——早期结果不是重要的了。”
这两个场景都可能使用最常见的多个假设校正方法。所以这个项目的研究人员开发出一种不同的方法,使他们能够监控错误发现的风险假说测试正在进行。
“我们的想法是,你有一个预算的多少错误发现你可以承担的风险,我们更新预算实时用户与数据进行交互,“Upfal说。“我们也考虑到用户可能的方式探索数据。通过了解他们的问题的顺序,我们可以调整我们的算法和改变我们分配预算的方式。”
对于用户来说,经验是类似于使用任何数据可视化软件,只有颜色出统计学意义的信息反馈。
“绿色意味着一个可视化表示的发现意义重大,”克拉斯说。“如果是红色,那就意味着要小心;这是统计状况不佳。”
系统不能保证绝对的准确性,研究人员说。没有系统。但在一系列用户测试使用合成数据的真实,真实和虚假的相关性研究人员表明,系统确实减少错误发现用户的数量。
研究人员认为这项工作一步一个数据探索和可视化系统,完全集成了一套统计的保障措施。
“我们的目标是使数据科学更容易更广泛的用户,”克拉斯说。“解决多个假设问题是重要的,但它也是非常困难的。我们认为这篇文章是一个良好的开端。”