管理基因组学数据洪流
基因组数据是世界上增长最快的数据集之一。一个最近的英特尔分析表示需要7.3泽字节,即73000亿GB的数据来存储全球人口的基因组。这相当于2016年互联网上所有数据的50%,这还不包括分析和使用这些信息时产生的数据。
随着时间的推移,基因组学将在我们的医疗保健中发挥越来越重要的作用,特别是在实现精准医疗保健的承诺方面。由于涉及到如此海量的数据,足够的存储容量和方法对于基因组研究和医学的进步至关重要。
为了了解管理所有这些数据的现实世界挑战,以及如何减少基因组学数据足迹,我们采访了加文医学研究所信息学主管沃伦·卡普兰博士和Geneformics首席执行官拉斐尔·费特伯格。加文医学研究所最近将基因学技术集成到其工作流程中。
加文如何使用NGS,你的机构产生了多少数据?
加文研究所使用全基因组测序(WGS)技术来提高我们对基因组生物学及其对疾病的影响的理解,以及在患者护理中推进基因组信息的使用。
对单个人类基因组的分析需要至少200gb的原始数据,这意味着加文实验室的研究人员每天都要生成和处理大量的数据。在我们的理论最大值下,仅用于研究目的的WGS每年就可以产生超过1.5 pb的数据。
为什么减少基因组数据足迹对您来说很重要?
减少我们使用的数据的大小有助于降低我们的工作成本,并使其更有效率。
我们的目标是能够通过我们复杂的质量控制和分析管道快速运行大型基因组数据集,这样我们就可以继续扩大我们的研究,而不降低输出的质量或损害安全性。
减少数据足迹的大小还有助于我们与其他领域的人协作,这将增加我们工作的收益。
在选择解决数据存储问题的方法时,您考虑了哪些方面?
我们有很多考虑。首先是压缩比。我们的目标是大幅减少我们的足迹,以管理成本。其次,我们坚持一种解决方案,它提供了数据的完全完整性,因此过程是完全无损的,一旦我们再次解压缩数据,我们在压缩之前拥有的将是相同的。最后,速度和易用性对于我们的团队和合作伙伴的采用和使用非常重要。
信贷:Geneformics
您目前在Garvan还面临着哪些数据管理和分析方面的挑战?
没有适当元数据的数据存储是有限的。美国国立卫生研究院(NIH)和其他机构对数据共享概念的出色工作,以及使数据可查找、可访问、可互操作和可复制(FAIR)是我们的目标。
一个关键的挑战是,无论你是否使用数据,你都要为存储数据付费。因此,找到可持续的模型,使我们能够在不增加成本的情况下增长数据集是至关重要的。
随着数据集的增长,用户能够对数据进行分析,而不是下载数据,这也变得越来越重要。我们在这个领域取得了相当大的进展,例如能够为访问我们队列的人提供现场分析支持。
以最好的价格进行最有效的分析的一个关键要求是能够在任何环境下进行计算。因此,我们使用非常多样化的环境,并且能够将高度压缩的数据移入和移出这些环境,从而简化了整个过程。