解开复杂的遗传数据的秘密
因此,它已成为越来越难以确定哪些基因表达,和到什么水平,特别是在处理成千上万的数据点生成的数百种不同的病人。尽管这一挑战,至关重要的是,科学家要有效地捕捉和分析这种类型的数据,因为这些信息是至关重要的,如果这些研究人员将他们的研究成果应用到现实世界的情况。
为了解决这个问题,一组科学家在辛辛那提儿童医院医疗中心在美国目前使用下一代数据分析软件研究旨在识别肿瘤细胞信号通路,是独一无二的。
“我们主要与白血病细胞,通常使用比较研究来确定白血病细胞不同于正常的血液细胞,”詹姆斯说Mulloy,博士,副教授辛辛那提儿童医院医疗中心。“然而,一旦我们确定了信号,是独一无二的,我们需要执行测试来确定肿瘤细胞是依赖这些信号,或沉迷于这些信号。如果后者是正确的,我们就可以开始寻找目标化合物,可能这些上瘾的信号,希望我们可以确定癌症的新疗法。”
“我们使用各种数据分析项目在过去,公平地说,我们已经发现的接口和复杂性程序繁琐的掌握,甚至有些令人沮丧,”穆罗伊博士补充道。“大多数这些程序花了大量的时间去学习,不是很直观。因此,我们常常需要合作与训练有素的生物信息学专家为了分析数据,这可以是一个耗时的努力。”
在这一领域新技术的进步,然而,是使科学家们更容易比较基因表达所产生的大量的数据研究,测试不同的假设,探索在几秒内的替代方案。
理解复杂的数据
现代数据分析软件的整体性能优化明显在过去三年。与关键动作和情节现在显示在几分之一秒内,研究人员可以执行研究他们越来越希望更快地找到他们所需要的结果。Mulloy博士最近使用Qlucore组学Explorer进行微阵列数据的生物信息学分析。
“我们的目标是识别重要的信号参与白血病,所以我们的研究通常设置为比较正常的造血细胞和白血病样本,”穆罗伊博士解释说。”的一个例子分析本质上是缩小一个基因列表中向上或向下调整的白血病细胞,而控制细胞。”
Mulloy博士开始这个过程通过降低高维数据降至低维,这样就可以将绘制3 d。主成分分析(PCA)通常用于这个目的,因为它使用一个数学过程将一些可能相关变量转换成大量的不相关的变量(叫做主成分)。
最近的一个在这个领域的突破,然而,引入动态主成分分析,结合PCA分析的一种创新的方式与直接的用户交互。这部小说进行PCA分析允许博士Mulloy操纵不同的PCA情节交互和实时,直接在他的电脑屏幕。使用这种方法,他的团队给予充分的自由去探索所有可能的版本的视图,因此能够想象,因此分析——甚至是非常大的数据集。
通过使用一个热图和动态主成分分析分析,想象其数据的团队另一个方法,因为热量地图可以把一个变量的值在一个二维地图和代表不同的颜色。因为现代热图使用复杂的映射技术来表示这个数据(而不是标准的图表和图形绘制技术),他们可以提供一个视图的数据是不可能达到与简单的图表和图形。
一种循序渐进的方法
Mulloy博士和他的团队通常由分组like-treated开始他们的分析样本,因为类似的样本通常一起使用PCA情节时,然后调整方差。这些样本将被分组,然后假定值调整。
一旦团队匹配正常和白血病样本,消除因素可以用来识别更有前途的目标。一旦他们有这组基因,团队经常会查看热图结果的可视化。
在这个阶段,基因列表生成,所以Mulloy博士可以通过程序如MSigDB数据库运行它们为了找出可能的基因签名存在在他的白血病样本。如果需要,团队也能够拿出一个基因的表达水平在所有并检查样品。
“组织建立后,我们经常使用散射函数来检查不同的变量在一个数据集进行更详细的。颜色代码的能力在这一特性是非常有用的,因为是进口的能力感兴趣的一个特定的基因列表并检查我们对这个列表数据集。”
根据Mulloy博士,获得强大的软件有助于鼓励创造力的感觉在他的研究中,因为它允许研究小组测试许多不同的假设非常快,快速连续。例如,因为数组数据经常发表在这一领域的研究中,Qlucore软件可以用来下载这些数据集和研究它们非常快,为了找到感兴趣的科学家的特定概念的研究。
“非凡的速度,这种软件可以提供对我们是非常重要的,因为快速的分析数据高度有助于识别亚种群的样本集合或变量的列表,“穆罗伊博士说。“例如,我们现在花很少的时间做数据并生成基因列表。毫无疑问,这些快速结果和数据呈现的方式,促使我们进行分析,否则我们就不会执行。”
数据可视化有助于简化分析
数据可视化工作时,将高维数据降至较低的维度,然后可以在电脑屏幕上的三维绘制,然后旋转手动或自动通过肉眼检查。与即时用户反馈的好处在所有这些行动,科学家在研究微阵列数据实时现在可以轻松地分析他们的发现,直接在他们的电脑屏幕上,在一个容易理解的图形形式。
使用时在基因表达研究,3 d可视化数据的能力代表了一个非常强大的工具,科学家,因为人类的大脑是非常擅长发现的结构和模式。在实践中,这意味着穆罗伊博士和他的团队能够根据信息做出决策,他们可以很容易识别和理解。
例如,3 d演示更便于Mulloy博士和他的团队的分离群体基于基因表达。这提供了更多意义的数据,并允许简单的可视化,从而提供了一个额外的思考方式数据。结果,这种方法会导致更有用的连接同时当几个样本被分析了。
“可视化数据的能力实际上使软件很有趣,这意味着更多的我们的团队可能使用它随着时间的推移,“根据Mulloy博士。“易用性和其运作速度不仅可以让我们回答一些关键科学问题更有效,但它也使我们能够识别潜在的治疗目标进一步检查。”
“现在,我们只有这种软件用于基因表达数据数组,但是我们也有甲基化数据数组和microrna的阵列,并将继续在未来这种类型的数据,我们希望软件对这些数据集一样,基因表达的数组”。