蛋白质组学管道的关键进展
从生物学角度来说,通过分析蛋白质,蛋白质组学直接进入细胞的活动区域。鉴于蛋白质组学数据的实时性,它可以提供特定细胞、组织或系统在某个时间点的快照,1高通量蛋白质组学在生物学、生物医学和临床研究中非常受欢迎。蛋白质组学技术的快速发展使科学家能够以前所未有的规模探索复杂样本中的蛋白质及其修饰(更高数量的样本和重复,以更高的分辨率和覆盖率)。1
然而,这些进步也对研究人员在存储、管理和可重复分析这些大量蛋白质组学数据方面提出了重大挑战。高通量基因组和转录组分析已经发展到依赖复杂的分析管道框架,它由多个软件工具以特定的顺序串在一起,形成特定任务的自动化分析工作流。1,2至少直到最近,蛋白质组学领域并非如此,因为大多数分析通常在本地工作站或使用“黑盒”在线工具进行。
在这里,我们描述了最近在蛋白质组学管道开发和部署方面的一些关键进展,这些进展旨在解决大规模蛋白质组学前沿的一些核心挑战。
1.云计算、软件工程和生物信息学的民主化
虽然云计算已经彻底改变了商业和其他一些领域,但学术界还没有充分利用它所提供的众多优势。3.学术机构仍然主要使用内部系统,例如需要大量预先资本支出的高性能计算(HPC)集群。另一方面,云计算只需要很少的预先成本,用户只需要为他们使用虚拟化基础设施的内容定期付费。
在蛋白质组学中,云计算有可能通过为实验室提供大规模的计算资源来开发和实施他们的蛋白质组学管道,从而加速研究——无论他们的位置或IT专业知识如何。3.利用云资源可以解决蛋白质组数据分析中固有的计算密集型任务,从而大大减少分析时间和计算负担。
除了节省成本和时间,云计算的许多附加好处包括:
•减少开发和维护工作量
•提高再现性
•改进版本控制
•提高容错能力
•降低延迟
•更容易共享数据和软件
•增强安全性
•敏捷开发的潜力
•无服务器计算的潜力
•在增加的负载下扩展的能力
软件工程将进一步普及多面手生物信息学家和生物学家;然而,这一途径尚未得到充分探索。2为了促进软件工程师和生物信息学家之间的合作,平台,如码头工人有人建议提供一种理想的交叉技术,用于创建容器(下文将进一步讨论),生物信息学家和生物学家可以在其中开发、测试和实施生物信息管道。的Dockerfile这是一个简单的文本文档,随着每个管道的发展,软件工程师和科学家可以轻松地修改、更新和共享。Docker和Kubernetes还可以简化软件和管道从本地部署到云部署的迁移。3.
2.软件容器
计算蛋白质组学在历史上一直由桌面软件和在线工具主导,这阻碍了高性能计算集群和云环境中的高通量分析。1,4此外,许多这些工具都是专有的闭源解决方案,使用专有的数据格式,只能在特定的操作系统或供应商硬件上运行。这对可复制和可扩展的蛋白质组学研究提出了相当大的挑战。在过去的十年中,开源解决方案已经慢慢开始出现。然而,这通常是以增加技术复杂性为代价的,需要科学家通常不具备的计算技能。由于不同计算环境中的工具(如本地工作站、HPC集群和云)通常需要不同的安装过程,具有不同的软件依赖关系,并且可能使用不同的文件格式,这使得情况更加复杂。
软件容器为简化生物信息软件的分发和快速部署提供了解决方案,并将工具组合成强大的分析管道。1容器通过提供一种方法来实现这一点,该方法将所需的软件及其依赖项隔离为可以稳定部署在各种计算环境中的单元。容器可以将管道分析任务分解为独立的单元,这些单元可以通过增加同时运行的容器数量来扩展。一旦构建了特定工具的容器,就可以通过将其存入在线容器注册表轻松地分发它。在那里,容器可以直接执行附带的软件,而不需要任何额外的安装,并且相同的容器可以在不同的操作系统上执行。
近年来,软件容器在生物信息学中的应用迅速增加。2017年10月,Français生物信息研究所(IFB)欧洲生物信息学研究所(EBI)和ELIXIR工具平台在巴黎组织了一场“黑客马拉松”,以巩固一个名为“黑客马拉松”的容器平台BioContainers.BioContainers是基于Github社区平台内的流行框架Conda, Docker和Singularity,任何人都可以对其做出贡献。4、5像BioContainers这样的平台,在某种程度上,Bioconda(发布于2015年)提供了数千种工具,使用户能够在不同的计算环境中执行他们的管道,而不需要复杂的安装和软件依赖。1用户可以轻松地将独立组件替换为使用不同技术或编程语言创建的组件。此外,BioConda和BioContainers提供软件版本管理,便于随着时间的推移进行可重复的数据分析。
3.工作流系统
尽管软件容器简化了生物信息学工具的安装和部署,但科学家们仍然面临着将这些工具组合起来创建可以在不同架构上运行的蛋白质组学分析管道的复杂任务。1为了解决这个问题,开发了各种工作流程系统。工作流系统是一种软件,它允许设置工具执行的顺序和并行步骤,从而可以在不同的环境中执行(例如,本地机器、容器、HPC集群和云)。在过去的十年中,一些开源工作流环境已经开始出现,其中最流行的两个工作流环境是星系而且Nextflow.希望软件容器和工作流系统的结合将使蛋白质组学管道更具可重复性、可扩展性和可访问性,即使是对没有复杂It基础设施和命令行环境专业知识的科学家也是如此。
4.“自带资料”(BYOD)
理想情况下,生物信息学管道应该被所有科学家轻易使用,而不仅仅是生物信息学家和软件工程师。为了满足生物学家希望在生物信息学分析中拥有自主权的需求,诸如荷兰生命科学技术中心和IFB正在提供强化培训课程,使科学家具备开发定制集成蛋白质组学管道的知识和技能(称为BYOD原则)。第一期IFB培训课程于2019年2月举行,所有教材都是免费提供.这些课程有望成为进一步推动这一方向的迹象。
5.正在进行的ELIXIR项目对蛋白质组学管道进行基准测试
蛋白质组学方法的日益普及和该领域的技术进步导致了蛋白质组学数据分析工具和管道数量的激增。可以理解的是,这对该领域的新研究人员来说是压倒性的,并导致了管道输出的质量不稳定和蛋白质组学领域内缺乏协调。6 - 8长生不老药是一个由23个欧洲国家组成的政府间组织,总部设在英国剑桥威康基因组校区.这个由生命科学家和计算机科学家组成的团队的目的是帮助协调生命科学资源,如数据库、软件工具和培训材料,并帮助研究人员就最佳实践达成一致。他们目前正在进行一项实现研究该项目旨在对蛋白质组学管道进行基准测试,并确定那些符合高标准的蛋白质组学管道,以确保结果的可重复性。同样的,近二十年来蛋白质组学标准计划人类蛋白质组学组织一直在开发和推广蛋白质组学数据表示的软件工具和社区标准,以促进数据比较、交换和验证,包括随着蛋白质组学技术的发展不断更新蛋白质组学实验的最低信息(MIAPE)指南。9
6.实验室间蛋白质组学管道比较和协调的NIST参考资料
美国国家标准和技术研究所为政府、学术界和工业界所做的各种类型的物理和化学测量开发参考材料。他们目前正在通过开发用于蛋白质组学实验的人体组织标准参考材料来扩展质谱库和肽质谱库。10这将使实验室和蛋白质组学技术之间的基准测试和协调,以及蛋白质组学管道的直接比较成为可能。
参考文献
1.Perez-Riverol Y, Moreno P.使用BioContainers和工作流引擎在蛋白质组学和代谢组学中进行可扩展的数据分析。蛋白质组学.2020; 20:1900147。doi:10.1002 / pmic.201900147
2.生物信息学的民主化:软件工程的视角。GigaScience.2020; 9 (6): giaa063。doi:10.1093 / gigascience / giaa063
3.Cole BS, Moore JH。使用云计算构建生物医学信息学工作流的11个快速技巧。PLoS计算生物学.2018; 14 (3): e1005994。doi:10.1371 / journal.pcbi.1005994
4.郭瑞宁,王志强,王志强,等。生物信息学软件包装和容器化的建议[版本2;同行评议:2人通过,1人通过但有保留]。F1000Research.2019; 7(长生不老药):742。doi:10.12688 / f1000research.15140.2
5.da Veiga Leprevost F, Grüning BA, Alves Aflitos S,等。BioContainers:开源和社区驱动的软件标准化框架。生物信息学.2017; 33(16): 2580 - 2582。doi:10.1093 / bioinformactics / btx192
6.张慧,张宏。蛋白质组学研究的新进展。蛋白质组学专家.2016; 13(10): 897 - 899。doi:10.1080 / 14789450.2016.1229601
7.王志强,王志强,王志强,等。定量液相色谱-串联质谱蛋白质组学在转化药理学研究中的应用:白皮书。临床药物学.2019, 106(3): 525 - 543。doi:10.1002 / cpt.1537
8.Tsiamis V, Ienasescu H, Gabrielaitis D, Palmblad M, Schwämmle V, Ison J.蛋白质组学的一千零一个软件:科学工具制造者的故事.J蛋白质组Res.2019; 18(10): 3580 - 3585。doi:10.1021 / acs.jproteome.9b00219
9.Deutsch EW, Orchard S, Binz PA,等。蛋白质组学标准计划:15年的进展和未来的工作.J蛋白质组Res.2017; 16(12): 4288 - 4298。doi:10.1021 / acs.jproteome.7b00370
10.Davis WC, Kilpatrick LE, Ellisor DL, Neely BA。适合蛋白质组学应用的人肝脏参考物质的特性。科学数据。2019; 6:324。doi:10.1038 / s41597 - 019 - 0336 - 7
广告