建立博德研究所的合作、可扩展的基因组学研究生态系统平台Terra
阅读时间:
基因组学改变了生物科学的研究方式。等组织麻省理工学院布罗德研究所和哈佛大学(布罗德研究所)为生命科学研究人员提供基因组测序和分析所需的能力,以加速对人类基因组学、疾病和治疗的科学理解、洞察和突破。通过内部基础设施,Broad研究所提供了测序,开发并公开了基因组分析管道和工具——Broad研究所是该报告的作者基因组分析工具包(GATK)并自2004年起提供超级计算能力和数据存储。
布罗德研究所数据科学平台外联与通讯主任Geraldine Van der Auwera解释说:“我们的基因组测序设备每天24小时大约每3到5分钟生成一次整个人类基因组的数据。”“每个基因组对应大约350千兆字节的数据,到目前为止,Broad研究所管理的基因组数据大约有30千兆字节。”
从历史上看,测序是昂贵的——开创性的人类基因组计划花费了27亿美元。但是,在过去十年中,随着技术的进步,全基因组测序(WGS)已经变得更容易、更快、更容易获得,而且更便宜。如今,一个完整的基因组测序只需不到1000美元,这使得研究人员更容易获得这一宝贵的工具,并产生了大量的基因组数据。到2014年,布罗德研究所需要解决他们不断扩大的存储容量、网络和计算能力。除了研究所不断增长的基因组库之外,其他研究人员和机构也在提供更多的数据,为研究和分析创造了新的机会,并为存储和计算需求带来了挑战。到2017年,博德研究所达到了一个拐点。
Van der Auwera表示:“我们意识到,本地基础设施将很快耗尽存储和计算能力。”
布罗德研究所开启了一段云之旅
这一认识导致了布罗德研究所思维的转变以及泰拉这是一个建立在云端的新平台,可以为各种生命科学研究人员设计一个可扩展的、协作的基因组学研究生态系统。
“我们决定采用云计算有几个原因,”Van der Auwera补充道。“一个是物流和运营我们的处理管道和数据存储的经济。在云计算中,我们可以根据计算和存储的需要进行扩展,只需要为我们使用的容量付费。此外,云还将实现一个全新水平的数据联合和协作。我们可以与他人合作,创建一个基于云计算的数据生态系统,研究人员可以将他们生成的数据与其他数据集结合起来,进行更丰富、更强大的计算实验。这将帮助他们获得更大的统计信心,整合更多的信息来源,并对他们所关注的研究领域产生批判性的见解。”
建立在云基础设施上也将支持新项目,比如美国国立卫生研究院的“我们所有人研究计划。我们所有人都在收集和处理来自100万美国人的基因组、医疗保健和实时生活方式数据,以“了解我们的生物学、生活方式和环境如何影响健康”。
但是,迁移到云端带来了新的挑战。布罗德研究所的管道是为其内部基础设施设计的。生命科学家、计算科学家和数据科学家的研究方法和工具不同。而且,虽然布罗德研究所开发管道并将其公开,但它并不是一个软件开发组织。布罗德研究所将需要云服务提供商的专业知识。
“我们不能只是把现有的管道复制到云端,”Van der Auwera评论道。“基础设施是不同的。我们需要以云原生的方式重新实现我们的管道。此外,为了实现我们对联邦数据生态系统的愿景,需要构建一个全新的平台来处理云基础设施的复杂性,并提供适合生命科学家需求的应用程序和接口,以使他们能够在云中有效地工作。”
在探索部署和开发选项时,谷歌提供了自己的基因组学分析管道,愿意为开发过程做出贡献。
Van der Auwera表示:“早期的合作是我们开始研究所生产管道迁移的关键,并为最终成为Terra平台的建设奠定了基础。”
模块化工作流程和优化管道
云计算和存储的多样性和选择为Broad研究所将其管道迁移为云原生应用程序打开了大门。他们的管道包含执行各种操作的许多代码,从数据重新格式化到数据管理到分析等等。例如,GATK包含24个任务,其中6个是多线程的,18个是单线程的。
Van der Auwera解释说:“使用内部部署的基础设施,你无法像在云上那样访问各种类型的机器。“内部部署集群通常都是一种类型的系统。然而,对于不同类型的云实例,我们可以模块化我们的工作流,并根据每个任务的需要适当地分配实例大小。因此,我们可以大大降低加工成本。”
与Broad研究所数据工程团队合作的英特尔解决方案架构师Marissa Powers解释说:“许多在云上部署基因组工作流程的客户保留了大型实例,因为工作流的某些部分是计算密集型的。”“布罗德研究所的管道中确实有需要大量计算的过程。但是大部分基因组分析管道的工具实际上是单线程的。它们只需要运行多长时间就可以多长时间,并且可以使用更小、成本更低的实例。因此,布罗德研究所团队构建了一个复杂的工作流自动化机制,其中单个虚拟机的大小适合作业,并在整个任务管道中进行编排。”
另一个关键的创新是如何尽可能避免移动数据。大多数分析工具通常需要通过将整个输入文件从对象存储移动到VM内存来本地化它。但是,布罗德研究所的GATK只能从原始输入文件中传输基因组数据的子集。对于流水线中的许多阶段,在基因组的子集上并行执行,每个子集被发送到不同的VM进行处理。这种流方法减少了所需的存储和内存数量,减少了将大量数据复制到VM所花费的时间,并最终降低了成本。与Broad研究所最初在云上的部署相比,这些优化以及可抢占实例的使用,将其主要基因组分析管道的成本降低了约85%。
Broad研究所选择了谷歌N1和N2实例,它们运行在几个Intel至强可扩展处理器系列上,在云中运行它们的管道。自2017年以来,英特尔与Broad Institute建立了联合合作伙伴关系,帮助优化组织的管道和GATK与英特尔库,包括英特尔®Genomics内核库。英特尔和布罗德研究所也有合作强大而灵活的基因组分析数据中心解决方案好几年了。他们共同管理着英特尔-远大基因组数据工程中心。该中心帮助研究人员和软件工程师建立、优化和广泛共享新的工具和基础设施,帮助科学家整合和处理基因组数据。该项目优化了基因组分析的硬件和软件的最佳实践。
英特尔与博德研究所合作,帮助优化他们在谷歌云上的管道。Intel开发人员使用工作流定义语言(Workflow Definition Language, WDL)对针对谷歌Cloud的工作负载和指定实例进行基准测试,WDL是一种开源的、基于社区的管道开发标准,由OpenWDL组织管理。例如,GATK中的特定内核针对Intel Advanced vector Extensions 512 (Intel AVX-512)的矢量操作进行了优化。一些优化的存储功能使用英特尔智能存储加速库(Intel ISA-L)。
“管道的一个内核叫做PairHMM,是一个隐藏的马尔可夫模型,”鲍尔斯解释说。“基于被处理向量的长度,英特尔AVX-512非常适合它。通过优化版本,我们看到了从最初的Java实现到Intel AVX2和Intel AVX-512的持续改进。任何在第一代英特尔至强可扩展处理器或后续处理器上运行GATK管道的人,无论他们是在本地运行还是在云中运行,都会默认获得优化版本。”
在Terra平台上,Broad Institute的管道默认情况下运行在谷歌Cloud N1实例上。但他们的管道是免费提供给任何人下载GitHub并在他们自己的基础设施或他们选择的云基础设施上运行,包括谷歌N2实例,它构建在第二代英特尔至强可扩展处理器上。作为基准测试工作的一部分,英特尔研究了N2实例在其管道上的好处。根据英特尔的数据,布罗德研究所的GATK在N2实例上运行速度快25%,成本低34%。对于All of Us程序,管道默认部署在N2实例上。
建设地球
基因组测序、高分辨率医学成像以及临床数据的数字化转化已经在生物医学研究领域带来了翻天覆地的变化。布罗德研究所与其他组织和学术机构合作,设想了一个联邦数据生态系统,它将利用可互操作的数据存储库、工具存储库和分析引擎之间的连接,并根据特定研究社区的需求定制用户门户。bet188真人这一愿景成为了Terra平台,一个由Broad研究所、Verily和微软合作的开放数据生态系统,供世界各地的生命科学研究人员使用。Terra的目标是使下一代生物医学研究成为可能,并为更广泛的生命科学研究界提供强大的工具。
“Terra提供了一个用户友好的环境,使研究人员能够安全地大规模地访问他们所需的数据集,并应用他们想要的工具,”Van der Auwera评论道。“该平台还可以方便地在任何阶段与合作者私下或公开分享他们的工作,以一种使他们的分析完全可重复和可扩展的形式。”
使用WDL,该平台简化了运行Broad研究所优化的管道,集成了外部工具,执行交互式分析,并允许访问托管在云中的各种数据。它允许从其他组织导入工具和工作流描述,例如加州大学圣克鲁斯基因组研究所的生物信息学工具Dockstore.在Github中维护他们的工具和工作流的生物信息学科学家可以在Dockstore中注册它们,供其他研究人员使用,然后他们可以在一系列连接的分析平台上运行它们,包括Terra。Terra还提供安全的工作空间,为世界各地的科学家建立广泛合作的项目。Terra目前在谷歌Cloud上支持全球近2万名用户,目前正在支持Microsoft Azure云。
Terra是开放数据生态系统的一部分。图片由Terra合作伙伴提供,包括麻省理工学院布罗德研究所和哈佛大学,微软和Verily合作。
Terra能够在云中实现高水平的协作,使研究人员能够解决单个组织无法解决的人类健康挑战。科学家能够利用大量的数据,利用现有的生物信息学和新兴的人工智能(AI)技术和工具来获得新的见解。Terra允许研究人员专注于他们的科学,而不是基础设施,并为广泛合作提供可共享的工作空间。
Terra能够在云中实现高水平的协作,使研究人员能够解决单个组织无法解决的人类健康挑战。科学家能够利用大量的数据,利用现有的生物信息学和新兴的人工智能(AI)技术和工具来获得新的见解。Terra允许研究人员专注于他们的科学,而不是基础设施,并为广泛合作提供可共享的工作空间。
布罗德研究所数据科学平台
作为一个研究机构,Broad研究所已经开发了几个生命科学处理管道和软件工具。但是,将他们的服务迁移到云端,优化他们的工作负载,并构建Terra需要Broad研究所扩展他们的开发专业知识。今天,Broad Institute数据科学平台(DSP)包括工程师、分析师和设计师。这些专业人员开发软件产品和运营服务,使用科学家可用的多种类型的数据集来支持生命科学研究。DSP还支持布罗德研究所参与的许多国家和国际科学计划。
今天,基因组学是研究人员解决人类健康挑战的核心,例如了解SARS-CoV-2病毒如何工作,以制造有效的疫苗。在生命科学和人类健康方面的突破,世界在很大程度上归功于基因组学研究及其研究人员和组织实现的创新,这些研究人员和组织支持并推动了该领域的进步。博德研究所及其合作者走在创新的前沿,推动并帮助加速基因组学研究。
本文是英特尔编辑计划的一部分,旨在突出由高性能计算和人工智能社区通过先进技术推动的前沿科学、研究和创新。bet188真人内容的发布者拥有最终的编辑权,并决定发表什么文章。
广告