关键的蛋白质组学的发展管道
通过分析蛋白质,蛋白质组学是对细胞的作用的战壕,从生物学的角度。蛋白质组学数据的实时特性,提供一个特定的快照细胞,组织,或系统在一个时间点,1高通量蛋白质组学已被证明非常受欢迎在生物、生物医学和临床研究。蛋白质组学技术的快速发展使科学家探索蛋白质和他们的修改在复杂的样本规模空前的(高数量的样品和复制增加分辨率和覆盖范围)。1
然而,这些进步也带来了重大的挑战,研究人员在存储方面,管理和可重复过多的蛋白质组分析数据。高通量基因组和转录组分析增长依赖于复杂的分析管道框架,它包含多个软件工具串在一起在一个特定的序列,形成自动化分析工作流为特定任务。1、2这不是为蛋白质组学领域,至少直到最近,大多数分析通常表现在本地工作站,或使用“黑盒”在线工具。
在这里,我们描述了最近的一些重要的改进蛋白质组管道开发和部署旨在解决的一些核心挑战的最前沿大规模蛋白质组学。
1。云计算、软件工程和生物信息学的民主化
尽管云计算已经变革了商业和其他几个部门,学术界尚未利用它提供的众多优势。3学术机构仍主要使用内部系统,如高性能计算(HPC)需要大的集群,前期资本支出。云计算,另一方面,需要一些前期成本,和用户经常性只为所使用的虚拟基础设施。
在蛋白质组学中,云计算有可能加速研究提供实验室提供大规模计算资源开发和实现他们的蛋白质组管道——不管他们的位置或专业知识。3云资源可以用来解决蛋白质组学数据分析,固有的计算密集的任务,大大缩短分析时间和计算负担。
除了节约成本和时间,云计算的许多额外的好处包括:
•降低开发和维护的工作量
•增加再现性
•改进版本控制
•提高容错
•减少延迟
•轻松共享数据和软件
•增强安全
•敏捷开发潜力
•serverless计算的可能性
•在增加负载的情况下扩展的能力
获得软件工程将进一步民主化访问多面手bioinformaticians和生物学家;然而,这大道尚未充分探讨。2促进之间的协作软件工程师和bioinformaticians、平台等码头工人已经建议提供了一个理想的交叉技术来创建容器(下面进一步讨论)生物信息学管道可以开发,测试和实施bioinformaticians和生物学家。的Dockerfile,一个简单的文本文件,可以很容易地修改、更新和共享软件工程师和科学家之间的每个管道的发展。码头工人和等平台Kubernetes还可以简化软件的移植和管道从本地云部署。3
2。软件容器
计算蛋白质组学历来由桌面软件和在线工具,这阻碍了高通量分析HPC集群和云环境。1、4此外,许多这些工具都是专有的闭源解决方案,使用专有数据格式和只能运行在特定的操作系统或硬件供应商。这对可再生和可伸缩的蛋白质组学研究构成相当大的挑战。在过去十年中,开源解决方案已经慢慢开始出现。然而,这通常出现在技术复杂性增加的成本,科学家通常不需要计算技能。这是进一步复杂化的事实工具在不同的计算环境(如本地工作站、HPC集群和云)往往需要不同的安装程序,有不同的软件依赖关系,可能使用不同的文件格式。
软件容器提供了一个简化的分布和快速部署解决方案对生物信息学软件和工具组合到强大的分析管道。1容器通过提供隔离的方法所需的软件和它们的依赖项为单位,可以稳定地部署在不同的计算环境。容器可以管道分析任务分解成孤立的单位,可以通过增加容器的数量扩大同时运行。一旦一个容器已建成为一个特定的工具,它可以很容易地由沉积在网上容器注册表。容器可以直接执行封闭软件不需要任何额外的安装,和相同的容器可以在不同操作系统上执行。
近年来,在生物信息学软件容器的使用迅速增加。2017年10月,学院法语de Bioinformatique(招标)欧洲生物信息学研究所(EBI)和灵丹妙药工具平台在巴黎组织了一个“马拉松”,巩固一个容器平台命名BioContainers。BioContainers是基于流行的框架Conda,码头工人,奇点在Github社区平台,任何人都可以做出自己的贡献。4、5平台如BioContainers和,在某种程度上,Bioconda(2015年发布),格式提供成千上万的工具,使用户能够执行他们的管道在不同计算环境没有安装和软件依赖关系的复杂性。1用户可以很容易地替换与创建独立的组件使用不同的技术和编程语言。此外,BioConda BioContainers提供软件版本管理,促进可再生的数据分析。
3所示。工作流系统
虽然软件容器简化生物信息学工具的安装和部署,科学家仍剩下这些工具相结合的复杂的任务创建蛋白质组分析管道,可以不同的体系结构上运行。1为了解决这个问题,各种工作流系统已经开发出来。工作流系统是一种软件工具,允许并行和顺序的步骤执行建立在这样一种方式,它可以在不同的环境中执行(如本地机器、容器、HPC集群和云)。在过去的十年里,几个开源工作流环境已经开始出现,与这两个最受欢迎的工作流环境星系和Nextflow。希望软件容器和工作流系统的结合将使蛋白质组管道更可再生的,可扩展的和可访问的,科学家甚至没有复杂的It基础设施和命令行环境方面的专长。
4所示。“带上你自己的数据”(BYOD)
理想情况下,针对管道应该容易使用所有的科学家,不仅仅bioinformaticians和软件工程师。来满足需求的生物学家希望自治生物信息学分析、机构等荷兰Techcentre生命科学和招标为科学家提供密集的训练课程与知识和技能开发自定义整合蛋白质组管道(称为BYOD原则)。第一阶段招标的培训课程发生在2019年2月,所有教学材料免费提供。这样的课程是希望进一步推动在这个方向的一个标志。
5。持续的灵丹妙药项目基准蛋白质组管道
日益流行的蛋白质组学方法和技术进步导致的数量激增蛋白质组学数据分析工具和管道。可以理解,这可能就无法研究的新领域,并导致了变量的管道输出质量和蛋白质组学领域内缺乏协调。6 - 8长生不老药是一个由23个欧洲国家的政府间组织,中心位于剑桥,英国,在吗威康基因组校园。这个团队的生命科学家和计算机科学家已经组装帮助协调等生命科学资源数据库、软件工具和培训材料,帮助研究人员达成最佳实践。他们当前正在运行实现研究旨在基准蛋白质组管道和识别那些符合高标准要求,以确保可再生的发现。同样,现在将近二十年,蛋白质组学标准计划人类蛋白质组的组织发展和促进软件工具和社区标准数据表示在蛋白质组学促进数据比较,交流,和验证,包括连续更新的最小信息蛋白质组学实验(MIAPE)准则随着蛋白质组学技术的发展。9
6。NIST的参考材料蛋白质组管道之间的对比和协调实验室
美国国家标准与技术研究院开发参考材料的各种物理和化学测量由政府、学术界和工业。他们目前正在扩大他们的提供的质量谱库和肽质量光谱库通过开发人力组织蛋白质组学实验的标准参考资料。10这将使基准测试和实验室之间的协调和蛋白质组学技术,以及一对一的比较蛋白质组学的管道。
引用
1。Perez-Riverol Y,莫雷诺p .可伸缩的数据分析在蛋白质组学和代谢组学利用BioContainers和工作流引擎。蛋白质组学。2020;20:1900147。doi:10.1002 / pmic.201900147
2。Lawlor B,看到路的民主化生物信息学:软件工程的观点。GigaScience。2020;9 (6):giaa063。doi:10.1093 / gigascience / giaa063
3所示。科尔BS,摩尔JH。十一个小贴士与云计算架构生物医学信息学工作流。公共科学图书馆第一版杂志。2018;14 (3):e1005994。doi:10.1371 / journal.pcbi.1005994
4所示。格伦B, Sallou O,莫雷诺P,等。建议包装和代理的生物信息学软件(版本2;同行评审:2批准,1批准与预订)。F1000Research。2019;7(长生不老药):742。doi:10.12688 / f1000research.15140.2
5。da Veiga Leprevost F, Gruning BA,阿尔维斯Aflitos年代,et al。BioContainers:开源软件标准化和社区驱动的框架。生物信息学。2017;33 (16):2580 - 2582。doi:10.1093 / bioinformactics / btx192
6。托马斯•SN张h .验证的目标蛋白质组分析全球蛋白质组学的见解。专家加速蛋白质组学。2016;13 (10):897 - 899。doi:10.1080 / 14789450.2016.1229601
7所示。Prasad B, B Achour Artursson P, et al。对一个共识在平移药理学应用液体chromatography-tandem质谱定量蛋白质组学研究:一个白色的纸。中国新药杂志。2019,106 (3):525 - 543。doi:10.1002 / cpt.1537
8。Tsiamis V, Ienasescu H, Gabrielaitis D, Palmblad M, Schwammle V,关j .一千零一软件蛋白质组学:科学的工具的故事。J蛋白质组Res。2019;18 (10):3580 - 3585。doi:10.1021 / acs.jproteome.9b00219
9。多伊奇电子战,果园,Binz PA, et al。蛋白质组学标准倡议:十五年的进步和未来的工作。J蛋白质组Res。2017;16 (12):4288 - 4298。doi:10.1021 / acs.jproteome.7b00370
10。戴维斯WC,基尔帕特里克LE Ellisor DL,尼利英航。描述人类的肝脏参考材料适合蛋白质组学的应用程序。科学数据。2019;6:324。doi:10.1038 / s41597 - 019 - 0336 - 7
广告