使用基于库的方法来增加蛋白质组分析的深度和准确性

行业的洞察力

发布日期:2023年2月2日

| Chris Adams, Bruker Daltonics

图片来源:PublicDomainPictures, Pixabay

想要这个行业见解的免费PDF版本?

填写下面的表格，我们会将PDF版本的使用基于库的方法来增加蛋白质组分析的深度和准确性

名字*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

您是否希望收到来自技术网络的进一步电子邮件通信?188金宝搏备用

听与

喋喋不休地说

0:00

免费注册收听这篇文章

谢谢你！用上面的播放器听这篇文章。✖

阅读时间:

蛋白质组学领域旨在推进用于识别和量化蛋白质组中的蛋白质的技术和策略，并在推动经济和科学领域发挥关键作用，因为它们具有三个主要功能。在制药行业，大多数生物制药产品都是由蛋白质制成的;在医学上，通过对这些异常的深入描述，蛋白质异常的分子诊断可以导致新的治疗干预;最终，蛋白质是细胞机制的副产品，这使得它们成为许多其他行业感兴趣的分子。¹

然而，分析蛋白质或蛋白质组是一个挑战，因为广泛可用的技术无法提供足够的数据来完整地识别蛋白质组。即使技术如质谱分析(女士),液相色谱法(LC)在该领域做出了最实质性的贡献，但数据仍然有限。部分原因是样品丢失和样品之间生物活性(蛋白质表达)的差异等分析挑战的存在，使得检测和量化蛋白质和多肽更加困难。为了避免这一问题，研究人员使用其他方法，如生物信息学分析、化学计量学分析和数学建模，来识别和量化这些蛋白质。

本文讨论了定量蛋白质组学中基于库的方法如何提高这种检测系统的灵敏度和准确性。

蛋白质组分析的挑战

通常情况下，蛋白质组学分析是使用酶消化(自下而上、鸟枪式蛋白质组学和中下游蛋白质组学)已经分解的蛋白质进行的。¹在这种情况下，很难将这些技术生成的数据集转换为有形的肽谱匹配(psm)，用于识别蛋白质组中存在的不同肽和蛋白质。

即使是可用的数据集也往往是不完整的，因为多肽在酶解和纯化过程中丢失了，或者无法被检测系统识别，导致数据集中的几个空白。反过来，它导致序列覆盖不足，这影响了这些肽的结构和功能分析报告。²值得注意的是，由于随机肽检测，蛋白质组的复杂性也影响了数据生成过程，这降低了采样深度。^3.多步分馏和鸟枪蛋白质组学等方法可以帮助克服这些问题，但它们可能会增加样品之间的可变性，并且在区分各种蛋白质形态方面存在困难。⁴

还有其他一些挑战，包括由于缺乏高灵敏度仪器、长时间的数据传输、处理时间线和对健壮的数据库搜索算法的需要而无法测量低丰度蛋白质。由于多肽损失是一个常见的问题，因此迫切需要能够自信地识别多肽的仪器，即使是在最微不足道的浓度下，也可以防止大量的时间和资源浪费。所有这些因素也会增加这些技术的错误发现率(FDR)，从而巩固了对更健壮和更准确的过程的需求。

此外，高通量和商业化的需要也要求肽分析的分析工作流程标准化。例如，现在使用这种方法可以在较短的时间内同时分析数千个基因组，这就要求在蛋白质组学领域也需要这种方法。^2，5

解决数据分析瓶颈

解决数据分析瓶颈的一种方法是将检测系统与处理包括量化在内的整个工作流程的实时分析软件连接起来。实时并行搜索引擎(PaSER)是一种gpu驱动的数据库搜索平台，可以与MS等检测系统集成，以便在处理样品时同时检测肽(图1)。

主要目的是使用已建立的算法识别样品中的肽⁶辅以机器学习模型，将检测到的肽的碰撞截面(CCS)值与其数据库中的数据进行统计。CCS值指的是气相中离子的形状、大小和电荷，由于每种肽在给定电荷状态下都有特定的CCS值，因此模型将该值与实验数据进行比较，以确定肽的身份。当捕获离子迁移率光谱(TIMS)技术分析样品并为每个分析物生成CCS值时，该值可以一致地测量，因为它是分析物的固有属性。这一特点使该技术具有高度的可重复性，在蛋白质组学中增加了一层标准化。

图1:支持ccs的数据库搜索，包括TIMScore作为附加维度。资料来源:Bruker Daltonics

通常，传统的搜索算法依赖前体和片段离子谱来确定最佳拟合，并在此基础上给出概率分数。输出只提示一个结果，尽管可能有稍微更好的拟合，这表明即使只有一个PSM -许多其他PSM可用于该结果。缺乏强大的搜索功能会随着时间的推移增加FDR，同时降低数据库搜索结果的可靠性。

或者，使用PaSER，可以避免这个问题，因为模型大量使用胰蛋白酶和磷酸化肽进行训练，包括这些肽的双重、三重和四重带电状态，因为它们是翻译后修饰(PTMs)最常见的形式，具有很强的生物学意义。它可以通过测量预测的CSS值与实验值之间的偏差，从其主氨基酸序列中准确识别肽。该方法对胰蛋白酶肽的准确率为95%，对磷酸化胰蛋白酶肽的置信水平为92%(图2)。

图2:来自机器学习模型的预测离子迁移率(CCS)值和胰蛋白酶(A)和磷酸化肽(B)的实验推导值的散点图。来源:Bruker Daltonics。

随着分析人员完成肽的测试，评分算法可以与机器学习一起部署，以生成预测的CCS值。基于预测的CCS值和测量的CCS值之间的比较，为每个频谱的五个最适合的预测生成相关评分。由于肽维度可以在三维向量化，而不是在非ccs启用算法中的二维向量化，它实现了1%的FDR率。这种能力增加了对结果的信心，因为可以实现更深的分析深度，识别更多的肽(图3)。

图3:当使用TIMScore时，胰蛋白酶和磷酸化肽的序列覆盖率增加了一倍，表明比现有的标准技术具有更高的分析深度。⁷资料来源:Bruker Daltonics

提高序列覆盖率和蛋白质敏感性

为了改进整个多肽分析工作流程，需要一种集成的解决方案，将数据生成与数据处理能力相结合，减少分析时间，提高结果的准确性。PaSER可以与数据独立采集(DIA)等数据分析技术相结合，以增加碎片离子空间或曲折前体的额外分离的深度和定量精度。⁸

2019年的一项研究引入了一种新的软件DIA-NN，该软件利用深度神经网络，使用干扰校正策略区分真实的肽信号和噪声。在典型的DIA-MS分析中，每个前驱体由于产生的片段离子的数量而产生多个色谱图。由于共片段前体倾向于干扰肽信号，所得到的色谱图可能不准确或噪声太大而无法分析。DIA-NN软件使用以肽为中心的方法，将注释的前体及其碎片离子与色谱图中的相匹配。在这种情况下，软件首先根据提供的输入(通过光谱库或在网上蛋白质序列分析)，并确定这些对照的假定洗脱峰。它可以计算73个峰值分数，并确定每个前体的最佳候选峰值，为该峰值生成单个分数，从而准确识别这些前体和多肽。^3.

DIA方法进一步适用于包括并行积累-串行碎片(PASEF)，从而产生了DIA -PASEF方法，该方法利用来自TIMS设备的数据，其中离子迁移率维度允许区分通常共碎片的肽信号。⁹通过在离子迁移率维度上叠加前驱体离子隔离窗口(增加占空比)，可将灵敏度提高2至5倍。研究发现，它增加了69%的蛋白质组学深度，其中一项研究可以从10 ng的HeLa多肽中量化5200个蛋白质，用95分钟的纳米流梯度分离，在另一项研究中，使用标准化的蛋白质组学平台进行4.8分钟的分离，从200 ng中提取5000个蛋白质。该方法可以在100分钟的纳米流梯度下对复杂混合物单次检测11700个蛋白质。⁷

结论

由于最近的技术进步，蛋白质组学领域的知识正在不断扩大。然而，十年前被认为是金本位的方法并不一定能提供全貌。例如，在大多数蛋白质组学分析中，可以检测蛋白质，深入了解它们组成的肽的种类，并了解这些蛋白质的结构和功能方面。即便如此，由于分析深度相对较低，因此绘制蛋白质的真实生物学是具有挑战性的。

通过使用MS和基于库的方法结合检测和分析过程的新技术，可以实现更大的分析深度。它还避免了手动数据分析的需要，因为这些仪器使用运行完成方法同时分析生成的数据。反过来，它使科学家能够在更短的时间内以更高的准确性更全面地了解样品的构成。未来将这种方法用于蛋白质分析可能会在医学、生物技术或蛋白质组学领域产生重大影响。

参考文献

Batiston WP, Carrilho, E.分析化学在蛋白质组学分析中的重要性和挑战。布拉兹肛门化学．2021; 8(31): 51 - 73。doi:10.30744 / brjac.2179 - 3425. - rv - 64 - 2020
Snapkov I, Chernigovskaya M, Sinitcyn P, Lê Quý K, Nyman TA, Greiff V.抗体谱分析的进展与挑战。生物科技趋势》。40 2022;(4): 463 - 481。doi:10.1016 / j.tibtech.2021.08.006
Demichev V, Messner CB, Vernardis SI, Lilley KS, Ralser M. DIA-NN:神经网络和干扰校正使高通量的蛋白质组深度覆盖成为可能。Nat方法．17 (1): 2020; 41-44 . .doi:10.1038 / s41592 - 019 - 0638 - x
基于质谱的临床蛋白质组学的复兴。蛋白质组学专家．2021; 18(6): 411 - 414。doi:10.1080 / 14789450.2021.1950536
坎贝尔M。正如专家所说，蛋白质组学面临的5个关键挑战。188金宝搏备用技术网络。//www.dile1000.com/proteomics/lists/5-key-challenges-in-proteomics-as-told-by-the-experts-321774．2019年7月16日发布。2022年11月3日访问。
徐涛，朴sk，维纳布，等。ProLuCID:一种改进的类sequest算法，增强了灵敏度和特异性。蛋白质组学杂志。2015;129(3); - 24。doi:10.1016 / j.jprot.2015.07.001
张春华，石滨勇。离子迁移谱中磷酸化对肽离子碰撞截面的影响。质谱(东京)．2021; 10 (1): A0093-A0093。doi:10.5702 / massspectrometry.A0093
Demichev V, Szyrwiel L, Yu F等，利用FragPipe和DIA-NN分析低样本量深层蛋白质组学的dia-PASEF数据。Nat Commun．2022; 13(1): 3944。doi:10.1038 / s41467 - 022 - 31492 - 0
Meier F, Brunner AD, Frank M等diaPASEF:并行累积-串行碎片结合数据独立采集。Nat方法。2020;17(12) 1229 - 1236。doi:10.1038 / s41592 - 020 - 00998 - 0

基因组学研究