我们已经更新我们的隐私政策使它更加清晰我们如何使用您的个人资料。

我们使用cookie来提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

建筑Terra, Broad研究所的协作平台,可伸缩的基因组研究生态系统

建筑Terra, Broad研究所的协作平台,可伸缩的基因组研究生态系统对所有内容块的形象

希望这篇文章的一个免费的PDF版本吗?

完成下面的表格,我们将电子邮件您的PDF版本“建设Terra, Broad研究所的协作平台,可伸缩的基因组研究生态系统”

听与
喋喋不休地说
0:00
注册免费听这篇文章
谢谢你!听这篇文章使用上面的球员。
阅读时间:

基因组学已经改变了生物科学是如何实现的。等组织麻省理工和哈佛(Broad研究所)给生命科学研究者的功能基因组测序和分析需要加速科学理解,洞察力和突破人类基因组学、疾病和治疗。与本地基础设施,广泛研究所提供了测序,发达国家和公开基因组分析管道和tools-Broad研究所的作者基因组分析工具包(GATK)自2004年以来,提供超级计算能力和数据存储。

“我们的基因组测序工具生成数据的整个人类基因组约每三到五分钟,一天24小时,”杰拉尔丁Van der Auwera,外联和通讯主任Broad研究所的数据科学平台,解释道。“每个基因组对应于大约350字节的数据,导致一些30 pb迄今为止的基因组数据管理的Broad研究所。”

从历史上看,测序已经昂贵买单——人类基因组计划的27亿美元成本。但是,在过去的十年里,随着技术先进,全基因组测序(WGS)变得更容易,更快,更容易获得,更便宜。今天整个基因组测序可以低于1000美元,使得研究者和这宝贵的工具更容易导致大量基因组数据。到2014年,Broad研究所需要解决他们不断扩大的存储容量和网络和计算能力。除了研究所日益增长的基因组库,其他研究人员和机构提供更多的数据,为研究和分析和创造新的机遇挑战的存储和计算需求。到2017年,Broad研究所达到一个拐点。

“我们意识到本地基础设施会很快耗尽的存储和计算能力,”Van der Auwera表示。

Broad研究所开始云的旅程


这种认识导致了思想的转变Broad研究所和愿景泰拉在云中,一个新的平台,使一个可伸缩的、协作的基因组研究生态系统为各种生命科学研究人员设计的。

“我们决定去云有几个原因,”Van der Auwera补充道。“一个是物流和经济的操作我们的处理管道和数据存储。在云中,我们可以根据需要规模计算和存储,只支付我们使用的能力。此外,云将允许数据联合和协作的一个全新的水平。我们可以与他人合作创建一个生态系统,基于云计算的数据,研究人员可以将他们与其他数据集生成的数据结合到富裕,更强大的计算实验。这将帮助他们实现更大的统计信心,将额外的信息来源,并生成关键洞察他们关注的研究领域。”

在云基础设施建设也将支持新项目,像美国国立卫生研究院的“我们所有人“研究计划。我们都是收集和处理基因组、医疗和生活方式实时数据从1000000年美国人“学习我们的生理、生活方式和环境影响健康。”

但是,移动到云提出了新的挑战。Broad研究所的管道设计的本地基础设施。生命科学家、计算机科学家和科学家的方法他们的研究数据和工具不同。尽管Broad研究所发展管道和使他们公开可用的,它不是一个软件开发组织。Broad研究所需要的专业提供云服务。

“我们不能复制现有管道到云,”Van der Auwera评论。“基础设施是不同的。我们需要重新实现管道进行的方式。+,实现我们的愿景的联邦数据生态系统需要建立一个全新的平台来处理复杂的云基础设施,并提供应用程序和界面根据生命科学家的需要,为了使他们能够有效地工作在云中。”

同时探索部署和开发选项时,谷歌,用自己的基因组分析管道,提供开发过程作出贡献。

“早期的合作是如何开始迁移的关键部分研究所生产的管道和设置的基础建设最终会成为Terra的平台,”Van der Auwera表示。

模块化工作流和优化管道


多样性和选择云计算和存储打开门的Broad研究所迁移他们的管道进行应用。他们的管道组成许多代码执行各种操作,从数据重新格式化数据管理分析,等等。例如,GATK由24个任务,其中6是多线程和18是单线程的。

“本地基础设施,您没有访问各种各样的机器类型就像你可以在云上,”Van der Auwera解释道。“本地集群通常都是一个类型的系统。不同类型的云实例,然而,我们可以模块化工作流和调整为每个任务分配的实例根据其需求。因此,我们可以大大降低加工成本。”

“许多顾客基因组工作流部署在云储备大量实例,因为工作流是计算密集型的某些部分,“玛丽莎权力,英特尔的解决方案架构师Broad研究所的数据工程团队解释道。“Broad研究所进程的管道,需要大量的计算。但是大部分的工具,是基因组分析管道的一部分实际上是单线程的。他们只需要运行只要他们,他们可以使用更小、成本更低的实例。Broad研究所的团队建立了一个复杂的工作流自动化机制单个vm在哪里工作的规模和策划在整个管道的任务。”

另一个重要创新是如何尽可能避免移动数据。大多数分析工具通常需要本地化整个输入文件,将它们从对象存储虚拟机内存。但是,Broad研究所GATK可以流的一个子集基因组数据从原始输入文件。对于许多筹备当中,执行并行在基因组的子集,每个子集被派来处理不同的VM。这种流的方法减少了所需的存储和内存,减少时间将大量数据复制到虚拟机,并最终降低成本。相比Broad研究所的初始部署在云上,这些优化,连同抢占式的使用情况下,他们主要的基因组分析管道的成本减少了约85%。

Broad研究所选择谷歌N1和N2实例,运行在几个家庭的Intel Xeon处理器可伸缩,在云中运行的管道。英特尔已经与广大合作联合研究所自2017年以来,帮助优化组织的管道和GATK与英特尔库,包括英特尔®内核库基因组学。英特尔和广泛的研究所也合作基因组分析功能强大且灵活的数据中心解决方案好几年了。他们一起管理Intel-Broad基因组数据中心工程。中心可以帮助研究人员和软件工程师构建、优化,并被广泛分享新的工具和基础设施,将帮助科学家和处理基因数据集成。项目优化最佳实践为基因组分析硬件和软件。

英特尔与广泛的研究所工作,帮助优化他们的管道在谷歌云。英特尔开发者针对谷歌云基准测试工作负载和规定实例使用工作流定义语言(世界),一个开源的、以社区为基础的标准管道OpenWDL组织管理的发展。例如,GATK中的特定内核优化向量操作与英特尔先进矢量扩展512(英特尔avx - 512)。一些优化存储函数使用英特尔智能加速度存储库(英特尔ISA-L)。

“一个内核的管道称为PairHMM,隐马尔可夫模型,“权力解释道。“英特尔avx - 512是一个适合它基于向量的长度被处理。持续改进与优化的版本,我们看到从最初的Java实现英特尔AVX2和英特尔avx - 512。任何人GATK管道运行在1日创Intel Xeon处理器可伸缩,或后人,默认情况下,优化的版本,是否运行本地或在云中。”

在Terra平台上,Broad研究所管道运行在谷歌云N1默认实例。但他们的管道是自由,任何人都可以下载GitHub和自己的基础设施上运行或他们的选择的云基础设施,包括谷歌N2实例,它是建立在二代英特尔至强可伸缩的处理器。作为基准的一部分努力,英特尔研究了N2实例管道上的好处。根据英特尔,Broad研究所GATK运行起来要快25%,成本减少34% N2实例。我们所有的计划、管道默认部署在N2实例。

建设地球


基因组测序、高分辨率的医学影像和临床数据的数字转换在生物医学研究中已经创建了一个翻天覆地的变化。Broad研究所,与其他组织和学术机构合作,设想一个联邦数据的生态系统,利用之间的联系可互操作的数据存储库,工具库,并分析引擎,用户门户根据具体的研究社区的需要。bet188真人这一设想成为了Terra平台,Broad研究所之间的合作,实在和微软的开放数据生态系统可用于生命科学世界各地的研究人员。Terra的目的是使下一代生物医学研究和把强大的工具在整个生命科学研究社区。

“Terra提供了一个用户友好的环境,使研究人员访问他们需要的数据集,并应用工具,安全地在规模,”Van der Auwera评论。“平台还可以轻松地分享他们的工作在任何阶段,私下和他们的合作者或公开与世界,以一种使他们的分析完全可再生和可扩展的。”

使用数字图书馆平台简化了运行Broad研究所优化管道、集外部工具、执行互动分析,并可以访问各种数据托管在云里。它允许从其他组织,进口工具和工作流描述等加州大学圣克鲁斯分校的基因组学研究所生物信息学工具Dockstore。生物信息学的科学家们保持在Github可以注册他们的工具和工作流Dockstore供其他研究人员使用,他们可以运行在一系列连接分析平台,包括地球。Terra也提供安全工作区来构建项目,供世界各地的科学家广泛合作。Terra全球目前支持近20000用户在谷歌云目前支持微软Azure云。


地球生态系统是一个开放的一部分数据。图形由Terra的合作伙伴包括广泛的麻省理工学院和哈佛大学与微软合作,实实在在。

Terra在云中使高水平的合作,让研究人员解决人类健康挑战大于一个组织可以解决。能够利用各种各样的数据,科学家们可以使用现有的生物信息学和新兴的人工智能(AI)技术和工具来获得新的见解。Terra可以让研究者去关注他们的科学,而不是基础设施和提供了广泛的协作共享工作区。

Broad研究所数据科学平台


研究机构,Broad研究所开发了一些生命科学处理管道和软件工具。但是,他们的服务迁移到云中,优化他们的工作负载,建设Terra要求Broad研究所扩大发展专业知识。今天,Broad研究所科学数据平台(DSP)包括工程师、分析师和设计师。这些专业人员开发软件产品和运营服务支持生命科学研究使用许多类型的数据集提供给科学家。DSP还支持许多国家和国际科学计划的Broad研究所。

今天,基因组学中心的研究人员如何解决人类健康挑战,如了解SARS-CoV-2病毒为了创建有效的疫苗。在生命科学和人类健康的突破,世界很大程度上要归功于基因组学研究和创新通过其研究人员和组织支持和启用该领域的进步。Broad研究所及其合作者在创新的前沿,支持和帮助加速基因组研究。

本文是作为英特尔的编辑程序的一部分,强调目标的尖端科学,研究和创新驱动的高性能计算和人工智能社区通过先进的技术。bet188真人出版商的内容拥有最终的编辑权限,并确定哪些文章发表。

满足作者
肯Strandberg
肯Strandberg
广告
Baidu