我们已经更新了隐私政策以更清楚地说明我们如何使用您的个人资料。

我们使用cookies是为了给您提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

多组学和宏蛋白质组学:为什么蛋白质组学数据分析越多越好


想要这篇文章的免费PDF版本?

完成下面的表格,我们将通过电子邮件将PDF版本的多组学和宏蛋白质组学:为什么蛋白质组学数据分析越多越好

听与
喋喋不休地说
0:00
注册免费收听这篇文章
谢谢你!用上面的播放器听这篇文章。
阅读时间:

新一代多组学的发展使得生成和处理从基因组突变到代谢组学和微生物学过程的大量数据成为可能。然而,即使是最有经验的生物信息学专家,处理和分析所有这些数据仍然是一个挑战。在本文中,我们探讨了多组学和宏蛋白质组学数据分析方法的一些解决方案和进展。

多组学:越多越好

多组学方法已经成为生物医学领域的热门话题,研究人员被吸引到全球范围内分析多个“基因组”(如基因组、转录组或蛋白质组)整合的数据。从这些多个“基因组”中收集信息可以更好地了解癌症等复杂疾病。

德克萨斯州休斯顿贝勒医学院的副研究员Suhas Vasaikar博士说:“到目前为止,许多实验室都专注于利用单一的‘组学’(如基因组学、表观基因组学、转录组学、蛋白质组学或代谢组学)分析来了解疾病的机制、进展和治疗策略。”“尽管单组学分析让我们对细胞状况有了一些了解,但它并不能提供一个全局的图景。多组学的美妙之处在于,它提供了对多个‘组学’档案的全面评估,以利用来自个体‘组学’的信息。”

考虑到人类基因组令人难以置信的复杂性及其在多个层面上的调控,在这个精准医疗的时代,使用多组学的“越多越好”方法已经变得相当流行。1癌症基因组图谱(TCGA)和临床蛋白质组肿瘤分析联盟(CPTAC)是通过基因组学和蛋白质基因组学分析来了解癌症分子基础的国家努力。

目前,有许多工具将多组学作为追索权、分析模块或可视化工具。现有的数据库和门户网站允许用户利用公开可用的癌症数据,但它们通常侧重于特定的数据集/队列,或正在研究的特定问题。例如,Oncomine是一个癌症微阵列数据库和基于web的数据挖掘平台。同样的,MethyCancer是一个有助于阐明DNA甲基化、基因表达和癌症之间关系的数据库。而PrognoScan数据库的重点是元分析cBioPortal探索癌症基因组学与丰富的多组学数据集。

Vasaikar解释说:“总的来说,组学泛化工具通常将应用限制在已知癌症类型的特定问题上。”“因此,我们需要一种工具,将现有的‘大数据’整合到一个共同的平台下,并协助解释‘大数据’之间的关系。”

LinkedOmics门户网站

为此,Vasaikar和他在贝勒大学张兵实验室的同事们开发了一个名为LinkedOmics用于传播大规模癌症组学项目的数据2。目前,它使用来自Broad TCGA Firehose和CPTAC数据门户的预处理和规范化数据来减少冗余工作。该平台专注于发现和解释属性关联,补充现有的癌症数据门户。

LinkedOmics不仅集成了来自TCGA门户网站的32种癌症类型的基因组学数据,还集成了来自CPTAC门户网站的可用癌症的蛋白质组学数据,并清晰地描述了应用程序、使用的管道和用于标准化的方法。2目前,LinkedOmics包含了11,158例原发性肿瘤患者的多组学数据,包括:

  • 基因水平上的突变、拷贝数改变(CNA)、甲基化、mRNA表达、miRNA表达和逆相蛋白阵列(RPPA)数据
  • 位点水平的突变数据
  • 区域级CNA数据
  • 分析层的RPPA数据
  • 临床数据

Vasaikar补充说:“LinkedOmics是第一个整合CPTAC在选定的TCGA肿瘤样本上生成的基于质谱的全球蛋白质组学数据的数据门户。”“该门户是用户友好的,对该领域的研究人员特别有益,因为它使用'联想内疚'方法并进行功能富集分析-这是生物医学研究中最广泛使用和最容易理解的方法之一。该平台内的可视化工具在帮助用户轻松理解结果方面非常有效。”

将关联分析应用于高维数据时的一个主要缺点是难以识别表面和非功能关系。Vasaikar解释说,LinkedOmics中的多组学、泛癌症和通路/网络分析功能直接解决了这一限制。

linkedin的未来如何?

Vasaikar和他的团队设想将多变量分析整合到LinkedOmics平台中,这样就可以控制混杂变量。

Vasaikar说:“我们目前的模型允许在不到一分钟的时间内获得单变量分析结果,但是对于多变量分析,我们希望使用云计算为用户提供宝贵的结果,而不需要太多的等待时间。”

其他未来的改进包括允许用户自定义查询特征(例如,只有功能丧失的突变而不是所有突变),合并查询特征(例如,通路中的所有突变或基因中的所有畸变类型),同时选择多个目标数据集,探索假设驱动的关系,并为顶级基因创建相关网络。

宏蛋白质组学数据是怎么回事?

宏蛋白质组学是指在给定时间点环境微生物群的整个蛋白质补体的大规模表征3.。经典蛋白质组学与宏蛋白质组学之间最大的区别之一是,后者研究中处理的群落样本包含来自多个(即多达数百甚至数千个)不同物种的蛋白质。根据德国柏林Robert Koch研究所的生物信息学专家和博士后Thilo Muth博士的说法,宏蛋白质组学领域正在迅速发展成为蛋白质组学研究的一个重要分支学科,用于评估微生物组(例如人体肠道内)和环境样本的功能库。

Muth说:“宏蛋白质组学在研究微生物群在疾病状态中的作用的人类健康研究中越来越受欢迎。”“例如,调查饮食对肠道微生物组影响的干预研究显示出非常有趣的模式:尽管微生物群落结构(即分类组成)在给定的扰动下保持相对稳定,但在这些样本中可以观察到蛋白质表达的显著定性和定量变化。”

b宏蛋白质组学数据分析的问题

尽管宏蛋白质组学研究可以提供有关蛋白质表达模式的有价值的信息,但分析数据的实际过程可能特别艰巨。与基因组学方法相比,微生物群落样品的蛋白质分析面临着与实验设置和计算因素相关的额外挑战。穆斯所描述的一些最严重的问题如下:

  • 群落样品的复杂性和异质性导致蛋白质鉴定产量低和蛋白质覆盖率降低。4
  • 在通过数据库搜索识别蛋白质时,需要考虑的大量蛋白质组参考文献对于统计验证和正确评估错误发现率是有问题的。5
  • 尽管有大量的微生物蛋白质组参考文献,但由于许多物种/菌株尚未测序或注释,数据库还远远不够完整。6

Muth继续解释说:“在质谱实验中,蛋白质通常是通过肽或短蛋白质序列来识别的,这些肽序列需要被迷惑回正确的'原始'蛋白质。当样品中含有许多相似肽序列的蛋白质时,这可能是一项艰巨的任务。”

在蛋白质组学中,这个问题被称为“蛋白质推断问题”,即微生物群落样本中不同物种或菌株之间的许多蛋白质序列相似甚至相同7。因此,在宏蛋白质组学中,当人们想要确定一个已鉴定的蛋白质究竟来自哪个生物体时,推理就变得更加复杂了。

此外,目前大多数用于处理、评估和解释元蛋白质组学数据的软件都有其自身的局限性。

Muth说:“当使用大型公共数据库时,肽和蛋白质识别算法对于宏蛋白质组学来说相当有限。”“由于评分功能和统计验证的问题,微生物数据库提供的搜索空间增加影响了已识别蛋白质的数量。”

地平线上的发展可以提供解决方案

为了克服这些问题,许多研究小组已经创建了他们自己的定制数据库,因为他们可以从正在调查的样本中获得更具体的宏基因组。如果这是不可能的,所谓的“伪宏基因组”从单一的微生物基因组可以创建。Muth解释说:“伪宏基因组的开发必须谨慎,因为只有那些研究人员事先包含在数据库中的物种/菌株才能被识别,而其他生物可能会被遗漏,从而导致选择偏差。”然而,他仍然乐观地认为,在不久的将来,进行宏基因组学实验的成本下降将使其与元蛋白质组学分析相结合的常规应用成为可能。这将导致为每个研究样本定制数据库,可以提供更有针对性的方法来特异性识别微生物群落的蛋白质组。bet188真人

Muth还认为,分析工具/仪器的分辨率和通量将继续提高,增加分析深度和微生物样品中的蛋白质覆盖率。同时,数据库搜索引擎需要在准确性和统计有效性方面得到进一步改进。

“很明显,高功能数据库的不断增加将继续挑战传统的识别工作流程和硬件,”他补充说。“De novo测序,或无数据库序列鉴定,也可能很快成为蛋白质组学的真正替代方案,算法改进(例如使用最新的机器学习技术)利用高分辨率数据的潜力。”

随着许多这样的进步即将到来,Muth相信研究界将很快获得更好的工具来研究微生物群落样本的分类和功能概况。


参考文献

[1]黄,s;乔杜里,k;多组学数据集成方法的最新进展。遗传学前沿,2017,8,84。

[2] Vasaikar, s.v.;Straub p;王,j .;张斌,张建平,张建平,张建平,张建平,张建平,张建平,张建平,张建平,张建平,张建平,张建平,张建平。

威廉姆斯,P.;键,P.L.;宏蛋白质组学:研究微生物生态系统中功能性基因表达。微生物学动态。2006;14(2):92-97。

[4] Haange, s . b .;肠道微生物群的蛋白质组学研究:潜在的临床影响。蛋白质组学专家评论,2016,13(6),535-537。

[5] Muth, t;科尔迈德,c.a.;Salojärvi, J.等。导航宏蛋白质组学数据:数据库搜索日志。中国生物医学工程学报,2015,25(5):349 - 349。

[6]洛西,k.j.;标度定律预测全球微生物多样性。美国国家科学院院刊,2016,113(21),5970-5975。

R.海尔;Schallert k;Zoun r;比彻,b;Saake g;Benndorf, D.,元蛋白质组学数据分析的挑战和前景。生物工程学报,2017,26(2):444 - 444。

广告
Baidu