工具检测模式隐藏在巨大的数据集
统计工具套件的一部分,叫做我的,它可以梳理出多个模式隐藏在世界各地的卫生信息,统计了从美国职业棒球大联盟的季节,肠道细菌景观变化的数据,等等。研究人员报告了他们发现的一篇论文中出现在12月16日出版的《科学》杂志上。
从Facebook到物理对全球经济,世界充满了数据集,可以一个人几百年通过眼睛来分析。复杂的计算机程序可以搜索这些数据集以极大的速度,但达不到当研究人员尝试行政检测不同类型的大型数据集合中的模式。
“有大规模数据集,我们想要探索,其中,可能有很多关系,我们想知道,“说Broad研究所准会员当然喽Sabeti,资深作者的纸和中心的助理教授在哈佛大学系统生物学。“人眼的最好方法是找到这些关系,但这些数据集如此巨大,以至于我们不能这样做。此工具包给我们挖掘数据寻找关系的一种方式。”
研究者们测试了他们的分析工具箱在几家大型的数据集,包括一个由哈佛大学的同事彼得恩伯谁感兴趣的数以万亿计的微生物生活在肠道。使用恩伯,研究小组利用我让2200万多比较,缩小在几百之前没有观察到感兴趣的模式。
”这个统计的目的是将数据与很多不同的维度和许多可能的相关性和挑选的,”说,迈克尔·米成马赫一起的资深作者纸和哈佛大学的计算机科学教授。“我们认为这是一个探索的工具,它可以发现模式和等级在一个公平的方式。”
工具最大的优势之一是,它可以检测多种模式和描述他们根据不同的参数研究可能会感兴趣。其他统计工具适合寻找一个特定的模式在一个大的数据集,但不能得分,比较不同种类的可能关系。我代表最大信息化非参数的探索,能够广泛的分析模式。
“标准方法将看到一个模式噪声信号和其他人,”大卫·谢夫说co-first作者论文的世卫组织目前正在麻省理工的研究生健康科学和技术项目,也曾在这个项目作为一个研究生在牛津大学统计系。”可以有各种不同的类型的关系在一个给定的数据集。我们的方法有什么令人激动的是它寻找任何类型的数据清晰的结构,试图找到他们。”
我不仅试图识别任何模式中的数据,但它也试图这样做,为得到不同类型的模式同样。“这搜索模式的能力在一个公平的方式提供巨大的勘探潜力的搜索模式,而无需提前知道搜索,”大卫·谢夫说。
我在探索尤其强大的数据集可能有多于一个的关系重要模式。概念证明,研究人员应用我的社会、经济、健康、和政治数据从世界卫生组织(世卫组织)及其伙伴。当他们家庭收入之间的关系和女性肥胖相比,他们发现两个对比数据的趋势。许多国家遵循抛物线速率,与肥胖率上升的收入但峰值和收入达到一定水平后逐渐减弱。但在太平洋岛屿,女性肥胖是一种身份的象征,国家遵循一个陡峭的趋势,肥胖攀爬的速度随着收入增加。
“许多数据集将包含这些类型的复杂关系,遵循多个司机,“Sabeti说。我是能够识别这些。“这极大地扩展了我们的能力找到有趣的关系在数据。”
研究人员可以使用我来生成新的想法和连接之前,没有人认为寻找。
说:“我们的工具是一个假设发电机Yakir•co-first论文的作者和富布赖特学者魏兹曼科学研究所的科学。“标准范式是科学假说驱动的,你提出一个假说基于你的个人观察。但通过研究数据,得到的想法假设,否则你永远不会发生。”
除了测试套件工具的能力来检测生物和健康数据中的模式,研究人员收集的数据从2008年的棒球赛季。
“一个问题,我们认为是特别有趣的是看到什么东西最强烈与工资有关,”大卫·谢夫说。研究人员生成的关系,发现最强的关联与工资,总基地,一个聚合统计反映多少运行生成的一个团队球员。“鉴于股权,棒球是有据可查的。我们好奇的想看看能做些什么在这一领域的工具,像我的。”
从许多不同领域的研究者,包括系统生物学,计算机科学,统计学,数学,都导致了这个项目。“人们越来越善于结合来自不同数据源的数据,并在某种程度上,这个项目的精神,“Yakir谢夫说。“项目汇集了作者从许多学科。它象征着合作,我们希望在未来人们将使用这个。”