4在蛋白质组分析的挑战
蛋白质组学是一个迅速扩大的领域,帮助改善仪器的准确性和灵敏度,规模和购买力。这提供了很多可能性的个性化和精密医学越来越浓的兴趣可以看到改进的诊断、治疗和疾病管理在未来几年。
蛋白质是细胞的主要效应器功能通过转录后修饰和丰富的变化。众所周知,基因表达的变化并不总是反映在蛋白质水平的变化,所以重要的是要考虑蛋白质组学数据了解疾病、细胞和系统动力学。然而,蛋白质组学数据没有被广泛应用于精密医学由于混杂因素。
在这个列表中,我们将讨论,研究人员遇到的一些挑战蛋白质组分析。
数据存储
随着蛋白质组分析变得更快,更便宜和更容易,这项技术可访问性的增加不可避免地导致了增加生成的数据量。虽然我们多次可以存储更多的数据比我们甚至一年前,存储需求正努力跟上数据输出1、2。
云存储提供了一个解决方案。然而,对于敏感和机密数据有问题的安全远程存储1。公司可以提供保证安全,但不可避免的是,这是要付出代价的。因此,同时生成数据变得更便宜,长期考虑维护数据的成本也必须考虑。
对其他组学数据,比如RNA-seq,有人建议,技术的进步和分析方法将导致原始测序数据不再需要存储3。丢弃的压缩原始数据总结可能释放大量的存储容量,但仍有待观察,如果这可能是一个现实的蛋白质组学。
信息集成
必须解决的一个主要挑战是新的和现有的组合与其他有价值的组学和蛋白质组数据的元数据。只有成功的集成数据可以用于其全部潜力的研究系统,疾病,和翻译成有益的结果。
目前,没有最优或标准化的支持数据集成方法,然而他们通常使用两种方法之一。数据可能被合并,或按顺序逐步的方式,允许先验知识指导数据集成在稍后的阶段。
不一致的注释,报告的数据集和输出分析管道也代表结合数据集的主要难题。只有引入一致的,标准化的数据收集和记录过程是这一问题可能会缓解。
仪表用于分析蛋白质组,用于重建的技术数据和样本中的蛋白质的丰度范围都能影响最终的蛋白质组报道。然而,总的来说,蛋白质组报道往往是贫穷比其他组学数据类型。计算方法的广泛应用为其他组学类型可能因此不恰当的和定制的方法需要相当表示蛋白质组数据组学框架内。
数学模型,利用一系列的网络分析技术,被应用到这个问题和贝叶斯模型测试,以确定更有效的算法,在数据类型提供一个更好的选择4。
生物标志物识别的鲁棒性和标准化的数据
蛋白质的提取相关和可靠的目标从高通量蛋白质组学数据是生物标志物识别面临的主要挑战之一。
在基本层面上,两个不同的样本类型之间的差异表达的蛋白质,例如疾病与十几,可以确定。然而,更复杂的方法采用机器学习和网络分析越来越受欢迎,已经成功地识别生物标志物用于心脏衰竭5和一些癌症类型6 - 12。
然而,高通量蛋白质组学数据可能会遭遇大量噪声,不相关的特性,掩盖真实的指标。加上生物样本固有的异构性,它可以证明非常具有挑战性的孤立健壮的、相关的生物标志物。希望其他数据类型和已知信息的整合13可以做出更明智的生物标志物的选择将承受审讯过更大的样本集。
一个这样的综合分析方法,桥梁之间的差距发现蛋白质组学和有针对性的蛋白质组学为黑色素瘤生成假说驱动的候选生物标记,显示出可喜的成果14。
统一数据存储库
而产生的蛋白质组学数据量总是越来越多,记录的数量,没有反映出这些涌入公开可用的存储库。缺乏一个统一的中心点为数据共享进一步增加了并发症研究人员希望数据我现有的研究,并将自己的数据在更广泛的背景。大量的数据存储库的存在15,一些受限制的访问而其他人则免费。药物开发的财政负担和通向市场,更加连贯协调数据,可以指导临床药物试验将发挥重要的作用在提高成功率。为了应对这些问题,蛋白质组交换财团开发统一从宿主蛋白质组数据的公共存储库协调庄园。蛋白质组交换还旨在提供备份贡献资源在财政困难的情况下,这样有价值的数据不会丢失。
引用
1黄苏萨JS、Lefebvre C、Z, Raisaro杰,Aguilar-Melchor C, Killijian MO, Hubaux JP。高效的基因组数据存储和安全外包。BMC医学基因组学。2017年7月26日,10 (2):46。
2检查海登,大肠基因组研究人员提高对大数据报警。自然新闻doi: 10.1038 / nature.2015.17912。
3斯蒂芬斯ZD,李SY, Faghri F,坎贝尔RH,翟C·埃夫隆MJ,艾耶R,沙茨MC, Sinha年代,罗宾逊通用电气。大数据:天文或基因组?公共科学图书馆杂志。2015年7月7日,13 (7):e1002195。
4Bersanelli M,莫斯卡E, Remondini D, Giampieri E,萨拉C,卡斯特拉尼G, Milanesi l . multi-omics数据的集成方法:数学方面。BMC生物信息学。2016年1月20日,17增刊2:15。
5Willingale R,琼斯DJL,羊肉JH, et al。寻找生物标志物的心脏衰竭血浆的质谱。蛋白质组学2006;6 (22):5903 - 5914。
6ZhangChen F,王JM, et al。神经网络方法multi-biomarker小组发现乳腺癌的高通量血浆蛋白质组学分析。BMC Proc 2013; 7: S10。
7罗杰斯M,克拉克,高贵的PJ, et al。蛋白质组学分析尿蛋白在肾癌的表面增强激光解吸电离和神经网络分析。癌症Res 2003; 63 (20): 6971 - 83。
8陈Y,郑年代,Yu J, et al。人工神经网络分析表面增强激光解吸/电离质谱的血清蛋白模式区分从健康人群结直肠癌。中国癌症Res 2004; 10 (24): 8380 - 85。
9六JM,林,李NPY et al。人工神经网络和决策树模型分析肝癌的蛋白质组。Biophys Res Commun 2007; 361 (1): 68 - 73。
10程病房DG, Suggett N, Y, et al .鉴定血清生物标志物对结肠癌的蛋白质组学分析。Br J癌症2006;94 (12):1898 - 905。
11总裁RM, Mehan M,斯图尔特RA, et al .早期发现恶性胸膜间皮瘤在asbestos-exposed个人无创性proteomics-based监视工具。《公共科学图书馆•综合》2012;7:e46091。
12Petricoin EF, Ardekani,希特BA,等。利用血清蛋白质组学模式识别卵巢癌。《柳叶刀》2002;359 (9306):572 - 7。
13Giudice G, Petsalaki e .蛋白质组学和精密医学phosphoproteomics:应用和挑战。短暂的Bioinform。2017年10月25 (Epub提前打印)。
14梅里莱Kawahara R,全球之声,Heberle H, domingue RR, Granato特区Yokoo年代,Canevarolo RR, Winck阵线,里贝罗AC,巴结核病,Filgueiras公关,克鲁兹KS, Barbuto是的,Poppi RJ, Minghim R,告诉医生,丰FP,福克斯JW Santos-Silva AR, colletta RD,谢尔曼NE Paes Leme房颤。综合分析选择癌症候选人生物标记目标验证。Oncotarget。2015年12月22日,6 (41):43635 - 52。
15王Perez-Riverol Y,支E, R, Hermjakob H,防御率农协。做蛋白质组学数据访问和可重用:当前状态的蛋白质组学数据库和存储库。蛋白质组学,2015年3月,15 (5 - 6):930 - 49。