Multiomics和宏蛋白质组学:为什么在蛋白质组学数据分析越多越好
发展下一代multi-omics使它可以生成和处理大量的数据,从代谢组学和微生物基因突变过程。然而,处理和分析这些数据继续挑战即使最有经验的生物信息学专家。在本文中,我们探索的一些解决方案和进步multi-omics和宏蛋白质组学数据分析方法。
Multi-Omics:越多越好
multi-omics方法在生物医学领域已成为一个热点话题,与研究人员所吸引全球分析数据集成来自多个“变小”如基因组、转录组和蛋白质组。收集信息从这些多个“变小”允许更好地理解复杂的疾病,如癌症。
“迄今为止,许多实验室专注于理解疾病机制、发展和治疗策略使用单一的“组学”(如基因组学、表观基因组学、转录组、蛋白质组学、代谢组学)分析,“亚斯Vasaikar博士说,贝勒医学院的研究助理研究员,休斯顿,德克萨斯州。“虽然单一组学分析给出了一些了解细胞状态,它不提供一个全球的画面。multi-omics之美在于它提供了一个综合评价的多个“使”档案利用信息从个人“组学”。”
考虑到不可思议的人类基因组的复杂性及其在不同层次规定,“越多越好”的方法使用multi-omics精密医学已经成为在这个时代很受欢迎。1癌症基因组图谱(TCGA)和临床肿瘤蛋白质组学分析的财团(CPTAC)这样的国家努力理解癌症的分子基础通过基因组学和proteogenomic分析,分别。
目前,有很多工具,关注multi-omics追索权,分析模块、可视化工具。现有数据库和门户网站允许用户利用公开的癌症数据,但通常他们专注于特定的数据集/组,或具体问题研究。例如,Oncomine是一个癌症基因芯片数据库和基于web的数据挖掘平台。同样的,MethyCancer是一个数据库,有助于阐明DNA甲基化之间的关系,基因表达和癌症。而PrognoScan关注荟萃分析,数据库cBioPortal探讨癌症基因组学与充足的multi-omics数据集。
“总的来说,omic-generalized工具通常限制应用程序中的一个具体问题,在已知的癌症类型,“Vasaikar解释道。“因此,需要工具,整合可用的“大数据”下一个共同的平台,协助对“大数据”的解读与另一个。”
LinkedOmics门户
为此,Vasaikar和他的同事们在Bing贝勒张实验室开发了一个数据库中LinkedOmics传播数据从大规模癌症组学项目2。目前,它使用预处理和标准化的数据广泛TCGA消防带和CPTAC数据门户来减少冗余的努力。平台专注于发现和解释属性关联,以补充现有的癌症数据门户。
LinkedOmics集成不仅从TCGA门户32癌症基因组学数据类型,但也可用癌症的蛋白质组学数据CPTAC门户应用程序的明确描述,管道使用,和方法用于规范化。2目前,LinkedOmics包含multi-omics数据共有11158名患者的原发性肿瘤,包括:
- 突变,拷贝数改变(CNA),甲基化,mRNA表达,microrna的表达,和反向阶段蛋白质阵列(RPPA)数据在基因水平
- 突变在站点级别的数据
- CNA数据在区域层次上
- 在analyte-level RPPA数据
- 临床数据
“LinkedOmics是第一个数据门户集成质量spectrometry-based全球蛋白质组学数据生成的CPTAC TCGA选择肿瘤样本,“Vasaikar补充道。“门户是用户友好的,特别有利于该领域的研究人员,因为它使用了“牵连”方法和执行功能富集分析——一些最广泛使用和容易理解的方法在生物医学研究。可视化工具在这个平台非常有效地帮助用户容易理解的结果。”
一个主要缺点是当应用关联分析高维数据难以识别表面和非功能性关系。Vasaikar解释说,这种限制multi-omics直接解决,pan-cancer和通路/ LinkedOmics网络分析功能。
LinkedOmics的未来什么?
Vasaikar和他的团队希望将多变量分析LinkedOmics平台,这样混杂变量可以控制。
“我们当前的模型允许将单变量分析结果获得即时在不到一分钟,但对于多变量分析我们想使用云计算为用户提供宝贵的结果没有太多的等待时间,“Vasaikar说。
其他未来的改进包括允许用户自定义查询功能(如只有丧失突变的突变),合并查询功能(例如,所有路径变异或畸变类型的基因),选择多个目标数据集的同时,探索假说驱动的关系,创建一流的基因关联网络。
处理宏蛋白质组学数据是什么?
宏蛋白质组学是指大规模的描述整个蛋白质补充环境微生物群在给定的时间点3。最大的一个经典的蛋白质组学和宏蛋白质组学之间的差异是后者研究社区样本处理包含来自多个蛋白质(即高达数百甚至数千)不同的物种。根据Thilo Muth博士,生物信息学专家和罗伯特·科赫研究所博士后研究员在柏林,德国、宏蛋白质组学领域的快速发展,蛋白质组研究的一个重要分支学科用来评估功能的微生物(如人类肠道内)和环境样品。
“宏蛋白质组学已经成为越来越受欢迎的在人类健康的研究,探讨疾病的微生物的作用,“Muth说。“例如,干预研究,调查了饮食对肠道微生物的影响显示非常有趣的模式:尽管微生物群落结构(即分类组成)给定的扰动,保持相对稳定重要的定性和定量蛋白表达的变化可以观察到这些样本。”
宏蛋白质组学数据分析的问题
虽然宏蛋白质组学研究可以将有价值的信息在蛋白质表达模式,分析数据的实际过程尤为艰难。基因组方法相比,从微生物群落的分析蛋白质样品附带增加挑战实验装置和计算相关的因素。一些最严重的问题,所述Muth,下面列出:
- 的复杂性和异质性社区样本会导致蛋白质识别产量和降低覆盖率低。4
- 大量的蛋白质组引用时需要考虑识别蛋白质通过数据库搜索是有问题的统计验证和错误发现率的正确评估。5
- 尽管大量的微生物蛋白质组引用数据库远未完成,因为许多物种/株尚未测序和注释。6
Muth继续解释,“通过多肽蛋白质通常是确定,或短蛋白质序列,在质谱实验中,这些肽序列需要疑惑回到正确的“原始”蛋白质。这可能是一个艰巨的任务,当蛋白质和许多类似的肽序列样本。”
在蛋白质组学中,这个问题被称为“蛋白质推断问题”,即许多蛋白质的序列相似甚至相同微生物群落中不同物种或菌株之间样本7。因此,在宏蛋白质组学中,推理变得更加复杂,当一个人想要解决这确切的生物识别蛋白质来源。
此外,目前大多数的软件处理,评估和解释metaproteomic数据有他们自己的限制。
“肽和蛋白质识别算法是相当有限的大型公共数据库时宏蛋白质组学,“Muth说。“微生物数据库的搜索空间增加影响识别蛋白质的数量由于问题的得分函数和统计验证。”
地平线上的发展可以提供解决方案
为了克服这些问题,许多研究小组创建自己的定制的数据库,因为他们可以得到一个更具体的metagenome样本进行调查。如果这是不可能的,所谓的“pseudo-metagenomes”从单一的微生物基因组可能被创建。“Pseudo-metagenomes必须开发时要格外小心,因为只有那些物种/菌株可以确定被研究人员包括在数据库中,和其他有机体可能错过了,导致选择性偏差,“Muth解释道。然而,他仍然乐观地认为,在不久的将来,降低成本来执行宏基因组实验将允许他们的常规应用程序结合metaproteome分析。这将导致定制数据库为每个调查样本可以提供一个更有针对性的专门识别微生物群落的蛋白质组的方法。bet188真人
Muth还认为,该决议和吞吐量分析工具/仪器将继续改善,增加深度和蛋白质覆盖率分析微生物样品。并行、数据库搜索引擎将进一步需要改进对准确性和统计验证。
“很明显,高功能数据库的不断增加将继续挑战传统识别工作流和硬件,”他补充道。“从头测序,或database-free序列识别,也可能很快成为一个真正的替代在蛋白质组学中,算法的改进(如使用最新的机器学习技术)利用高分辨率数据的潜力。”
许多这样的进步在地平线上,Muth相信研究团体将很快获得更好的工具为研究微生物群落的分类和功能配置文件样本。
引用:
[1]黄,美国;乔杜里,k;Garmire l . x越多越好:Multi-Omics数据集成方法的最新进展。遗传学前沿,2017 8,84。
[2]Vasaikar美国诉;Straub p;王,j .;张,B。LinkedOmics:分析multi-omics数据内部和跨32癌症类型核酸研究2018年46 (D1) D956-D963。
[3]Wilmes p;键,P.L.;宏蛋白质组学:研究微生物生态系统的功能基因表达。微生物学的趋势。2006;14 (2):92 - 97。
[4]Haange S.-B。;Jehmlich, N。,蛋白质组肠道微生物群的审讯:潜在的临床影响。2016年蛋白质组学专家审查,13 (6),535 - 537。
[5]Muth t;Kolmeder c a;Salojarvi, j . et al .浏览宏蛋白质组学数据:数据库搜索的日志。蛋白质组学,2015:3439 - 3453。
[6]Locey k . j .;列侬,j . T。、缩放法预测全球微生物多样性。2016年美国国家科学院学报》,113 (21)5970 - 5975。
[7]嘿,r;Schallert k;Zoun r;比彻,b;Saake g;Benndorf D。、挑战和metaproteomic数据分析的视角。2017年生物技术学报,261,24-36。