它是如何工作的:先进的数据分析使用可视化
问题:
影响许多科学家共同挑战,特别是在分子生物学领域,大量的数据是由他们的实验。如此大量的数据来考虑,需要软件工具有效地解释他们的数据。
直到现在,计算机软件为这个目的设计都集中在能够处理越来越多的大量的数据,并在很大程度上应用标准统计方法向用户提供面向技术专家的用户界面。因此,科学家的可能性/研究方法和解释数据在一定程度上被搁置一旁,和大量的数据分析只能由专业bioinformaticians和统计师。在大多数情况下,然而,这个模型有几个缺点,因为它通常是最了解的科学家正在研究的特定区域。
解决方案:
可视化结合选定的算法和方法可以克服的一些描述的挑战,允许更大范围的用户探索和分析数据。积极利用可视化技术提供了一个强大的方法很快识别重要的结构和模式。可视化提供了用户反馈,容易理解。可视化也是一个重要的工具从一个组织的观点,因为它刺激创新的结果更多的科学家现在能够分析和讨论数据和结果。
我们建议一个五步方法,确保可重复的和重要的结果在使用可视化识别新的子组和数据中的模式。这个分析的目的可以几个步骤。最常见的目的是试图识别出全新的组或数据中的模式。另一个目的只能期望探索数据检测模式,这是一个好的形式的质量控制。通过应用这五步方法,可以研究大型和复杂的数据集没有统计方面的专家。下面描述的方法是详细,但一些基本需要在开始。这种方法可以应用于任何类型的高维度数据和例子来自医疗保健行业的数据;RNA-seq阵列基因表达,蛋白质组学,代谢组学,DNA甲基化。
首先,高维数据需要减少到低维,这样就可以将绘制3 d。我们建议使用主成分分析(PCA)。工具颜色数据也需要提高信息,以及过滤器和工具的选择和取消选择部分数据集。
在这个阶段,研究人员就可以开始五步可视化过程检测和消除最强的信号出现在活跃的数据集。一旦确定了这个信号,它可以删除是否有任何其他模糊(但仍可检测的)信号。删除一个强烈的信号通常会导致活动样本的数量的减少和/或变量(特征)。
过程的第二步是评估数据的信噪比通过使用PCA,分数和随机投影。投影的分数将指示视觉检测信号的强度或模式. .
第三步由方差过滤去除“噪音”。如果研究人员可以看到重要的信噪比在他们活跃的数据集,他们应该尝试删除一些活跃的变量最可能导致了噪音。确定所需量的方差过滤用户可以使用方差过滤由PCA可视化监管,和投影得分。通过测试不同方差的设置可以更容易找到清晰的模式。
第四步提供了执行统计测试的选项,可以应用于任何/所有的其他阶段的五步流程:在最初的分析,当一个步骤被重复,最后的一步,要么一无所有。组织测试可以预定义或选择那些在迭代过程中被识别。(建议验证发现第二个数据集的结构和组织)。
最后一步使用图表来细化搜索子组或集群。连接在网络或样品图,例如,可以进入更高的维度(即超过三个,可以表示为一个3 d PCA情节),因为一个示例中创建的图形绘制是基于空间距离的所有活动变量,因此可以提供更多的洞察数据的结构。
这五个步骤,然后重复,直到没有更多的结构。
以这种方式使用时,可以使用可视化作为研究的有力工具。数据可以清晰的可视化,科学家很容易识别任何有趣的和/或重大的结果,而无需依靠专家bioinformaticians和统计师。相反,科学家可以配合bioinformaticians实现更多有趣的结果。