管理海量基因组数据
基因数据是世界上增长最快的一个数据集。一个英特尔最近的分析说需要7.3字节,这意味着,000,000,000 GB, 7.300的数据存储我们的全球人口的基因组。这等于2016年50%的所有数据在互联网上,不因素数据分析时创建和使用这些信息。
随着时间的推移,基因组学将扮演越来越重要的角色在我们的医疗,特别是在实现精密医疗的承诺。如此大量的数据,适当的存储容量和方法论将基因组研究和医学的进步的关键。
了解管理所有这些数据的真实世界的挑战以及如何减少你的基因组数据足迹我们沃伦·卡普兰博士说,首席Garvan信息学研究所的医学研究和拉斐尔•Feitelberg Geneformics CEO。Garvan医学研究所的最近Geneformics技术集成到工作流。
上天是如何利用在嘉芬,你的机构产生多少数据?
来自研究所使用全基因组测序(WGS)技术来提高我们对基因组生物学的理解及其对疾病的影响,以及推进基因组信息的使用在病人护理。
一个人类基因组的分析需要至少200 gb的原始数据,也就是说,来自生产和研究人员每天处理大量的数据。达到理论最大值,WGS为研究目的就可以每年生成超过1.5 pb级的数据。
为什么它是重要为你减少你的足迹基因组数据吗?
减少数据的大小与我们合作有助于降低我们工作的成本,以及使它更有效。
我们的目标是能够运行大型基因组数据集通过复杂的质量控制和分析管道很快,这样我们可以继续扩大我们的研究,而不降低输出或妥协的质量安全。
减少我们的数据大小的足迹还可以帮助我们与他人合作领域,使我们的工作的好处。
点做了什么你认为当你选择一个方法解决数据存储问题?
我们有一个数量的考虑。第一个是压缩比。我们旨在实现一个戏剧性的减少我们的碳足迹管理成本。第二,我们坚持一个解决方案,提供全面完整的数据,这个过程完全无损的,和我们之前压缩将同样的一旦我们未压缩的数据。最后,速度和易用性是重要的采用和使用我们的团队和合作伙伴。
信贷:Geneformics
其他数据管理和分析你目前面临来自挑战?
没有适当的元数据是数据存储限制。奇妙的工作由美国国立卫生研究院和其他数据共享的概念,使数据可发现的,访问,可互操作的,可再生的(公平)是我们的领导。
一个关键的挑战是你花钱你是否在使用它存储数据。因此,寻找可持续发展的模型,让我们增长数据集没有成本是至关重要的。
作为我们的数据集,它也变得越来越重要,用户能够把他们的数据分析,而不是下载数据。我们相当多的进展在这个空间,例如能够支持原位分析的人访问我们的军团。
一个关键的要求做最有效的分析最好的价格是计算在任何环境的能力。因此,我们使用非常多样化的环境中,能够高度压缩的数据进入和从他们简化了整个过程。