新的挖掘癌症数据统计工具被开发
赖斯大学的研究人员,贝勒医学院(BCM)和德克萨斯大学奥斯汀分校共同努力创建新的统计工具可以找到线索癌症像针藏在巨大的干草堆的原始数据。
”这是所有这些新的高通量的动机医疗技术,使临床医生对癌症产生大量的分子数据,”项目领导Genevera艾伦说,大米和BCM联合任命的统计学家。“例如,移除肿瘤癌症病人时,研究人员可以进行基因组、蛋白质组和代谢组的扫描,测量肿瘤的几乎每一个可能的方面,包括数量和位置的基因突变和基因关闭。最终的结果是,一个肿瘤,你可以在数以百万计的测量变量。”
这种类型的数据存在,美国国立卫生研究院(NIH)已编译配置文件为成千上万的癌症患者,但科学家还没有使用数据战胜癌症的一种方法。
艾伦和BCM合作者Zhandong刘联手攻击问题在2012年由于种子资金拨款赖斯肯·肯尼迪信息技术研究所(K2I)。基于这项研究的结果,艾伦,刘和德克萨斯大学奥斯汀计算机科学家Pradeep Ravikumar赢得了一个新的130万美元的联邦拨款,将允许他们创建一个新的统计框架集成多个高维数据集的分析测量在同一组的主题。
“有几件事,让这个挑战,”艾伦说,首席研究员(π)新格兰特,这是由美国国家科学基金会和美国国立卫生研究院联合授予。“首先,这些高通量技术产生的数据可能是非常不同的,以至于你进入苹果和橘子的问题当你试着在做比较。其次,科学家利用所有这些数据和更好地理解癌症的分子基础,这些不同的“组学”的数据集需要组合成一个单一的多元统计模型”。
例如,艾伦说,一些测试,如基因表达微阵列和甲基化数组,返回“连续数据,”数字小数点后,代表一个特定的蛋白质的量或生物标志物。其他测试,如RNA-sequencing,返回整数“统计数据”指示生物标记出现的频率。然而其他测试,输出“二进制数据。“这将是一个测试的例子为一个特定的突变,产生一个零如果没有发生突变,如果它一个。
“现在,艺术的状态分析这些数以百万计的生物标志物是创建一个数据矩阵——认为一个Excel电子表格,所有的数据是连续的,可以用钟形曲线表示,”艾伦说,赖斯Dobelman家庭小椅子的统计数据和统计数据和电气和计算机工程助理教授。“这是非常限制有两个原因。首先,所有不连续的变量——比如二进制值相关的特定突变——这不是有用的。第二,我们不想仅仅分析突变状态本身。突变很可能影响很多其他变量,如表观遗传标记和基因的开启和关闭,癌症是复杂的。这是很多事情加在一起,在一个特定的结果。为什么我们要分析这些变量分别当我们得到这些数据?”
发展中一个框架连续和不连续的变量可以同时分析并不容易。首先,大多数的技术统计学家开发了并行三个或三个以上变量的分析,这一过程被称为多变量分析,只有在连续数据工作。
“这是一个多变量的问题,这就是我们接近它,”艾伦说。“但一个合适的多元分布不存在,所以我们要创建一个数学。”
要做到这一点,艾伦,刘和Ravikumar正在创造一个数学框架,允许他们找到“有条件的依赖关系”之间的任何两个变量。
说明条件依赖性是如何工作的,艾伦建议考虑三个变量与童年增长——年龄、智商和鞋码。在一个典型的孩子,三个一起增加。
“如果我们看着一个大数据集,我们将看到一个智商和鞋码之间的关系,”她说。“在现实中,没有直接的鞋码和智商之间的关系。他们发生在同一时间,但在现实中,每个人都是有条件地依赖于年龄。”
癌症基因,关系不明显,发展数学技术可以避免需要破译条件依赖性排除这些错误通过多年的昂贵和耗时的生物实验。
由于种子资金拨款K2I协作的进步在生物医学计算程序中,艾伦和她的合作者已经演示了如何使用这些技术。他们制作了一个网络模型对多生物标志物相关类型的脑癌称为胶质母细胞瘤。该模型作为一种路线图指导研究人员的关系中最重要的数据。
“所有这些行告诉我们哪些基因生物标记有条件地依赖于另一个,”她说,指的是无数的连接模型。“这些都是决定数学,但是我们的合作者将测试这些关系的一些实验和确认连接存在。”
艾伦说,团队的技术也将用于大数据挑战存在于从零售营销领域的国家安全。
“这是一个非常通用的数学框架,”她说。“这就是为什么我做数学。它适用于一切。”