我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

想要在云端分析基因?问管家

来源:Aleksandra Krolik/EMBL CC 3.0下https://creativecommons.org/licenses/by/3.0/

想要这个新闻故事的免费PDF版本?

填写下面的表格,我们会将PDF版本的“想要在云端分析基因?”问问管家"

听与
喋喋不休地说
0:00
免费注册收听这篇文章
谢谢你!用上面的播放器听这篇文章。
阅读时间:

EMBL的科学家们提出了一种利用云计算进行大规模基因组数据分析的工具。这款名为Butler的新工具的主要优点是持续的系统监控以及在出现故障时的自修复能力,使数据处理效率比以前的方法提高43%。该工具是为泛癌症项目开发的。该团队在《自然生物技术》杂志上发表了该方法。

大多数用于基因组分析的生物信息学软件都是实验性的,故障率相对较高。此外,云基础设施本身在大规模运行时,很容易发生系统崩溃。这些挫折意味着大型生物医学数据分析可能需要很长时间,并产生巨大的成本。为了解决这些问题,EMBL的Sergei Yakneen、Jan Korbel和同事开发了一个系统,可以有效地识别和修复崩溃。

在云上进行分析的研究人员需要大量的技术技能,从配置大型机器集群并为其加载软件,到处理网络、数据安全以及有效地从崩溃中恢复。巴特勒通过提供适当的工具来克服所有这些挑战,帮助研究人员掌握这些新领域。

通过检查系统脉冲来节省时间

Butler不同于其他生物信息学工作流系统,因为它不断地从所有系统组件收集健康指标,例如中央处理器(CPU)、内存或磁盘空间。它的自我修复模块使用这些健康指标来确定什么时候出现了问题,并可以采取自动操作重新启动失败的服务或机器。

当这种自动化操作不起作用时,会通过电子邮件或Slack通知人工操作人员解决问题。以前,需要一组训练有素的人员来检查类似的系统并检测故障。通过自动化这一过程,Butler大大减少了执行大型项目所需的时间。科贝尔说:“这些大规模的分析现在可以在几个月内而不是几年内完成,这确实是非常有益的。”

开源

对于与云中科学计算相关的个人挑战,已经有了很好的解决方案。因此,该团队没有重新发明轮子,而是改进了现有的技术。“我们通过整合大量已建立的开源项目来构建Butler,”该论文的第一作者、SOPHiA GENETICS的首席运营官谢尔盖·雅克内恩(Sergei Yakneen)说。“这极大地提高了软件维护的便利性和成本效益,并定期为Butler生态系统带来新功能,而无需进行重大的开发工作。”

除了系统稳定性和可维护性外,使用云技术进行基因组学研究在数据隐私和不同国家的监管方式方面也具有挑战性。较大的项目将需要同时使用不同机构和国家的多个云环境,以满足不同司法管辖区的不同数据处理需求。Butler能够在各种各样的云计算平台上运行,包括大多数主要的商业和学术云,从而解决了这一挑战。这使得研究人员可以访问最广泛的数据集,同时满足严格的数据保护要求。

使用管家

巴特勒促进这种复杂分析的能力在全基因组泛癌症分析研究的背景下得到了证明。Butler在1500个CPU内核、5.5 tb的RAM和大约1pb的存储上以高效和统一的方式处理了725tb的癌症基因组数据集。欧洲生物信息学研究所(EMBL-EBI)通过提供对其用于测试Butler的大使馆云的访问和支持发挥了至关重要的作用。该系统最近也被用于其他项目,例如欧洲开放科学云试点项目(EOSC)。

泛癌症项目

全基因组泛癌症分析项目是由来自37个国家的1300多名科学家和临床医生合作开展的。它涉及对38种不同肿瘤类型的2600多个基因组进行分析,创造了一个巨大的原发癌症基因组资源。这是16个工作组研究癌症发展、病因、进展和分类的多个方面的起点。

参考: Yakneen, S., Waszak, s.m ., Gertz, M., & Korbel, J. O.(2020)。巴特勒能够对数千个人类基因组进行快速云分析。自然生物技术,1-5。https://doi.org/10.1038/s41587-019-0360-3

本文已从以下地方重新发布材料.注:材料的长度和内容可能经过编辑。如需进一步信息,请联系所引用的来源。

广告
Baidu