我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

蛋白质组分析面临的挑战

蛋白质组学是一个迅速发展的领域,得益于仪器精度和灵敏度、尺寸和可负担性的改进。这为人们对个性化和精准医疗越来越感兴趣提供了许多可能性,在未来几年,这可能会改善诊断、治疗和疾病管理。


蛋白质是通过翻译后修饰和丰度变化来实现细胞功能的主要效应器。众所周知,基因表达的变化并不总是反映蛋白质水平的变化,因此考虑蛋白质组学数据来了解疾病、细胞和系统动力学是很重要的。然而,由于一些混杂因素,蛋白质组学数据尚未广泛应用于精准医疗。


在这个列表中,我们将讨论研究人员在蛋白质组分析中遇到的一些挑战。


数据存储


随着蛋白质组分析变得更快、更便宜和更容易,该技术的可访问性的增加不可避免地导致生成的数据量的增加。虽然我们可以存储比一年前多很多倍的数据,但存储需求正在努力跟上数据输出的步伐1、2


云存储提供了一种解决方案。然而,对于敏感和机密数据,远程存储的安全性存在问题1.企业可以提供有保障的安全,但这不可避免地要付出代价。因此,虽然生成数据变得更便宜,但也必须考虑到维护数据的长期成本。


对于其他组学数据,如RNA-seq,有人认为,技术和分析方法的进步将导致原始测序数据不再需要存储3..丢弃原始数据,使用压缩摘要可以释放大量的存储容量,但这是否能很快在蛋白质组学中成为现实还有待观察。


信息集成


必须解决的主要挑战之一是将新的和现有的蛋白质组数据与其他有价值的组学和元数据结合起来。只有成功整合,数据才能在系统、疾病研究中充分发挥其潜力,并转化为有益的结果。


目前,还没有最优的或标准化的方法来实现数据集成,但是他们通常采取两种方法之一。数据可以一次性组合,也可以按顺序逐步组合,允许先验知识指导后期的数据集成。


注释、数据集报告和分析管道输出中的不一致也是组合数据集的主要问题。只有采用一致的、标准化的数据收集和记录流程,这个问题才有可能得到缓解。


用于分析蛋白质组的仪器、用于重建数据的技术以及样本中蛋白质丰度的范围都可能影响最终的蛋白质组覆盖率。然而,总的来说,蛋白质组的覆盖率往往比其他组学数据类型差。因此,为其他组学类型设计的计算方法的广泛应用可能是不合适的,需要更量身定制的方法来公平地表示组学框架内的蛋白质组数据。


数学模型,许多利用了一系列网络分析技术,被应用于这个问题,贝叶斯模型被测试,以确定更有效的算法,提供更好的跨数据类型的匹配4


生物标记物识别的数据稳健性和标准化


从高通量蛋白质组学数据中提取相关和可靠的蛋白质靶标是生物标志物鉴定的主要挑战之一。


在基本水平上,可以识别出在两种不同样本类型之间表达差异的蛋白质,例如疾病与非疾病。然而,采用机器学习和网络分析的更复杂的方法正变得越来越流行,并已成功用于识别生物标志物心脏衰竭5而且一些癌症类型6 - 12


然而,高通量蛋白质组数据可能会受到大量噪声的影响,不相关的特征会掩盖真实的指标。再加上生物样本的固有异质性,分离出可靠的、相关的生物标志物是非常具有挑战性的。希望能结合其他数据类型和已知信息13可能有助于做出更明智的生物标志物选择,能够承受更大样本集的询问。


一种这样的综合分析方法,弥合了发现蛋白质组学和靶向蛋白质组学之间的差距,以产生假说驱动的黑色素瘤候选生物标志物,显示出有希望的结果14


统一数据存储库


虽然产生的蛋白质组学数据的数量一直在增长,但编目的、公开可用的存储库中的数量并不能反映这种涌入。数据共享缺乏统一的中心点,这给希望对现有研究进行数据挖掘并将自己的数据置于更广泛背景下的研究人员增加了进一步的复杂性。存在大量的数据存储库15,有些是有限制的,而有些是免费的。由于药物开发的财政负担和进入市场的途径,指导临床药物试验的数据更加一致的协调将在未来提高成功率方面发挥重要作用。为了回应这些问题,蛋白质组交换已经开发了一个联盟,以统一来自一个协调庄园的许多公共库的蛋白质组数据。Proteome Xchange还致力于在资金困难的情况下为贡献资源提供备份,使有价值的数据不会丢失。


参考文献


1Sousa JS, Lefebvre C, Huang Z, Raisaro JL, Aguilar-Melchor C, Killijian MO, Hubaux JP。高效和安全的基因组数据存储外包。BMC医学基因组学。2017年7月26日;10(增刊2):46。


2基因组研究人员对大数据提出警告。自然新闻doi:10.1038/ Nature .2015.17912。


3.Stephens ZD, Lee SY, Faghri F, Campbell RH, Zhai C, Efron MJ, Iyer R, Schatz MC, Sinha S, Robinson GE。大数据:天文数据还是基因组数据?公共科学图书馆。2015年7月7日;13(7):e1002195。


4Bersanelli M, Mosca E, Remondini D, Giampieri E, Sala C, Castellani G, Milanesi L.多组学数据整合方法:数学方面。BMC生物信息学,2016年1月20日;17增刊2:15。


5王志强,王志强,等。在血浆质谱中寻找心力衰竭的生物标志物。蛋白质组学2006;6(22):5903 - 5914。


6张晨峰,王建民,等。通过乳腺癌高通量血浆蛋白质组学分析,神经网络方法发现多生物标志物面板。BMC Proc 2013;7:S10。


7李文杰,李文杰,等。通过表面增强激光解吸电离和神经网络分析肾癌尿蛋白的蛋白质组学分析。中国癌症杂志,2003;29(4):344 - 344。


8陈勇,郑松,于杰,等。表面增强激光解吸/电离质谱的人工神经网络分析与结直肠癌与健康人群的区别临床癌症杂志,2004;10(24):8380-85。


9陆建明,林碧,李npy,等。肝癌蛋白质组的人工神经网络和决策树模型分析。生物化学与生物物理学报,2007;36(1):344 - 344。


10病房DG, suggestion N, Cheng Y,等。蛋白质组学分析结肠癌血清生物标志物的鉴定。中华肿瘤学杂志,2006;29(12):369 - 369。


11李志强,李志强,李志强,等。基于非侵入性蛋白质组学的监测工具在石棉暴露人群中早期发现恶性胸膜间皮瘤。PLoS One 2012;7:e46091。


12Petricoin EF, Ardekani AM, Hitt BA,等。利用血清蛋白质组学模式鉴定卵巢癌。《柳叶刀》2002;359(9306):572 - 7。


13Giudice G, Petsalaki E.精准医学中的蛋白质组学和磷蛋白质组学:应用和挑战。简介Bioinform。2017年10月25日[Epub印刷前]。


14Kawahara R, Meirelles GV, Heberle H, Domingues RR, Granato DC, Yokoo S, Canevarolo RR, Winck FV, Ribeiro AC, Brandão TB, Filgueiras PR, Cruz KS, Barbuto JA, Poppi RJ, Minghim R, Telles GP, Fonseca FP, Fox JW, Santos-Silva AR, Coletta RD, Sherman NE, Paes Leme AF。综合分析选择癌症候选生物标志物进行靶向验证。2015年12月22日;6(41):43635-52。


15杨建平,杨建平,杨建平,Vizcaíno杨建平。使蛋白质组学数据可访问和可重用:蛋白质组学数据库和存储库的现状。蛋白质组学。2015 Mar;15(5-6):930-49。

与作者见面
Karen Steward博士
Karen Steward博士
高级科学作家
广告
Baidu