多组学和宏蛋白质组学:为什么蛋白质组学数据分析越多越好
下一代多组学的发展使得生成和处理大量数据成为可能,这些数据涵盖了从基因组突变到代谢组学和微生物过程的任何内容。然而,即使对最有经验的生物信息学专家来说,处理和分析所有这些数据仍然是一个挑战。在本文中,我们将探讨多组学和宏蛋白质组学数据分析方法的一些解决方案和进步。
多组学:越多越好
多组学方法已成为生物医学领域的热门话题,研究人员被吸引到全球分析来自多个“组”的数据,如基因组、转录组或蛋白质组。从这些多个“ome”中收集信息可以更好地了解癌症等复杂疾病。
德克萨斯州休斯顿贝勒医学院副研究员Suhas Vasaikar博士说:“到目前为止,许多实验室都专注于使用单一的‘组学’(如基因组学、表观基因组学、转录组学、蛋白质组学或代谢组学)分析来了解疾病机制、进展和治疗策略。”“尽管单一组学分析提供了对细胞状况的一些了解,但它并不能提供全球图景。多元组学的美妙之处在于,它提供了对多个‘组学’档案的综合评估,以利用来自单个‘组学’的信息。”
考虑到人类基因组及其在多个层面上的调控令人难以置信的复杂性,使用多组学的“越多越好”方法在精准医疗时代已经变得相当流行。1癌症基因组图谱(TCGA)和临床蛋白质组肿瘤分析联盟(CPTAC)分别是通过基因组学和蛋白质基因组学分析来了解癌症的分子基础的国家努力。
目前,有许多工具将多组学作为资源、分析模块或可视化工具。现有的数据库和门户网站允许用户利用公开的癌症数据,但它们通常关注特定的数据集/队列,或正在研究的特定问题。例如,Oncomine是一个癌症微阵列数据库和基于web的数据挖掘平台。同样的,MethyCancer是一个有助于阐明DNA甲基化、基因表达和癌症之间关系的数据库。而PrognoScan数据库的重点是元分析cBioPortal利用丰富的多组学数据集探索癌症基因组学。
Vasaikar解释说:“总的来说,组学泛化工具通常将应用限制在已知癌症类型内部和跨已知癌症类型的特定问题上。”“因此,我们需要一些工具,将现有的‘大数据’整合到一个共同的平台下,并协助解释彼此之间的‘大数据’。”
LinkedOmics门户网站
为此,Vasaikar和他在贝勒大学张兵实验室的同事开发了一个名为LinkedOmics用于传播大规模癌症组学项目的数据2.目前,它使用来自Broad TCGA Firehose和CPTAC数据门户的预处理和规范化数据来减少冗余工作。该平台侧重于发现和解释属性关联,补充现有的癌症数据门户。
LinkedOmics不仅集成了来自TCGA门户的32种癌症类型的基因组数据,还集成了来自CPTAC门户的可用癌症的蛋白质组学数据,并对应用程序、使用的管道和用于规范化的方法进行了清晰的描述。2目前,LinkedOmics包含了来自11158名患者的原发肿瘤的多组学数据,包括:
- 基因水平的突变、拷贝数改变(CNA)、甲基化、mRNA表达、miRNA表达和逆相蛋白阵列(RPPA)数据
- 站点级别的突变数据
- 区域级CNA数据
- 分析级别的RPPA数据
- 临床数据
Vasaikar补充说:“LinkedOmics是第一个集成CPTAC基于质谱的全球蛋白质组学数据的数据门户。“该门户网站是用户友好的,对该领域的研究人员尤其有益,因为它使用了‘关联罪恶感’方法,并执行功能丰富分析——这是生物医学研究中使用最广泛、理解最透彻的一些方法。该平台中的可视化工具在帮助用户轻松理解结果方面非常有效。”
将关联分析应用于高维数据时的一个主要缺点是难以识别表面关系和非功能关系。Vasaikar解释说,LinkedOmics中的多组学、泛癌症和途径/网络分析功能直接解决了这一限制。
LinkedOmics的未来会怎样?
Vasaikar和他的团队设想将多元分析纳入LinkedOmics平台,这样就可以控制混杂变量。
Vasaikar说:“我们目前的模型允许在不到一分钟的时间内获得单变量分析结果,但对于多变量分析,我们希望使用云计算为用户提供宝贵的结果,而无需等待太多时间。”
其他未来的改进包括允许用户自定义查询特征(例如,仅功能丧失突变而不是所有突变),合并查询特征(例如,一条通路中的所有突变或一个基因中的所有畸变类型),同时选择多个目标数据集,探索假设驱动的关系,并为排名最高的基因创建相关网络。
宏蛋白质组学数据是怎么回事?
宏蛋白质组学是指在给定时间点对环境微生物群的整个蛋白质补体的大规模表征3..经典蛋白质组学和宏蛋白质组学之间最大的区别之一是,后者研究中处理的群落样本包含来自多个(即多达数百甚至数千个)不同物种的蛋白质。德国柏林罗伯特科赫研究所的生物信息学专家和博士后Thilo Muth博士说,宏蛋白质组学领域正在迅速发展,成为蛋白质组学研究的一个重要子学科,用于评估微生物组(例如在人类肠道内)和环境样本的功能库。
Muth说:“宏蛋白质组学在研究微生物组在疾病状态中的作用的人类健康研究中越来越受欢迎。”“例如,调查饮食对肠道微生物组影响的干预研究显示出非常有趣的模式:尽管在给定的扰动下,微生物群落结构(即分类组成)保持相对稳定,但在这些样本中可以观察到蛋白质表达的显著定性和定量变化。”
宏蛋白质组学数据分析的问题
虽然宏蛋白质组学研究可以提供蛋白质表达模式的有价值的信息,但分析数据的实际过程可能特别艰巨。与基因组方法相比,来自微生物群落样本的蛋白质分析带来了与实验设置和计算因素相关的额外挑战。穆特所描述的一些最严重的问题如下:
- 群落样品的复杂性和异质性导致蛋白质鉴定率低和蛋白质覆盖率降低。4
- 当通过数据库搜索识别蛋白质时,需要考虑大量的蛋白质组参考资料,这对于统计验证和错误发现率的正确评估是有问题的。5
- 尽管有大量的微生物蛋白质组参考文献,但数据库还远远不够完整,因为许多物种/菌株尚未测序或注释。6
Muth继续解释说:“在质谱实验中,蛋白质通常是通过多肽或短蛋白质序列来识别的,这些肽序列需要被困惑到正确的‘原始’蛋白质。这可能是一项艰巨的任务,因为样本中含有许多相似肽序列的蛋白质。”
在蛋白质组学中,这个问题被称为“蛋白质推断问题”,即一个微生物群落样本中不同物种或菌株之间的许多蛋白质的序列相似甚至相同7.因此,在宏蛋白质组学中,当人们想要确定一个被识别的蛋白质来自于哪个有机体时,推断变得更加复杂。
此外,目前大多数用于处理、评估和解释代谢蛋白组数据的可用软件都有其自身的局限性。
Muth说:“当使用大型公共数据库时,肽和蛋白质识别算法对于宏蛋白质组学是相当有限的。”“由于评分函数和统计验证的问题,微生物数据库显示的搜索空间的增加影响了已识别蛋白质的数量。”
未来的发展可以提供解决方案
为了克服这些问题,许多研究小组已经创建了自己的量身定制的数据库,因为他们可以从所调查的样本中获得更具体的宏基因组。如果这是不可能的,所谓的“伪宏基因组”从单个微生物基因组可以创建。Muth解释说:“必须谨慎地开发伪宏基因组,因为只有那些研究人员预先包含在数据库中的物种/菌株才能被识别,而其他生物可能会被遗漏,导致选择偏差。”然而,他仍然乐观地认为,在不久的将来,进行宏基因组学实验的成本下降将允许它们与元蛋白质组分析结合应用。这将为每个调查样本提供定制的数据库,从而为特异性识别微生物群落的蛋白质组提供更有针对性的方法。bet188真人
Muth还认为,分析工具/仪器的分辨率和通量将继续提高,增加分析深度和微生物样品中的蛋白质覆盖率。与此同时,数据库搜索引擎在准确性和统计验证方面还需要进一步改进。
“很明显,高功能数据库的不断增加将继续挑战传统的识别工作流程和硬件,”他补充说。“随着算法的改进(例如使用最新的机器学习技术)挖掘高分辨率数据的潜力,从头测序或无数据库序列识别也可能很快成为蛋白质组学的真正替代方案。”
随着许多这样的进步即将出现,Muth相信研究界很快就会获得更好的工具来研究微生物群落样本的分类和功能特征。
参考文献:
[1]黄s;乔杜里,k;越多越好:多组学数据集成方法的最新进展。遗传学前沿,2017,8,84。
[2]瓦萨卡尔,s.v.;Straub p;王,j .;Zhang, B., LinkedOmics:分析32种癌症类型的多组学数据,2018,46 (D1), D956-D963。
[3]威尔姆斯;键,P.L.;宏蛋白质组学:微生物生态系统功能基因表达研究。微生物学进展。2006;14(2):92-97。
[4]哈格,S.-B;Jehmlich, N,肠道菌群的蛋白质组学研究:潜在的临床影响。蛋白质组学专家评论,2016,13(6),535-537。
[5]穆特;科米德,c.a.;Salojärvi, J.等。导航宏蛋白质组学数据:数据库搜索日志。蛋白质组学,2015,15:3439-3453。
[6] K. J.洛西;比例定律预测全球微生物多样性。美国国家科学院学报2016,113(21),5970-5975。
[7]海耶尔;Schallert k;Zoun r;比彻,b;Saake g;元蛋白质组数据分析的挑战和前景。中国生物工程学报,2017,26(4):344 - 344。