我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

机器学习帮助实现更深入的蛋白质组分析


想要一个免费的PDF版本的这个行业洞察?

填写下面的表格,我们会将PDF版本的“机器学习帮助实现更深入的蛋白质组分析”

188金宝搏备用科技网络有限公司需要您提供给我们的联系信息,以便就我们的产品和服务与您联系。您可以随时退订这些通讯。有关如何退订的信息,以及我们的隐私惯例和保护您隐私的承诺,请查看我们的隐私政策

近年来,我们看到基于人工智能(AI)的方法(如机器学习)在各种生物学科中的应用有所增加。


蛋白质组学是一个研究领域,为细胞生物学提供了无与伦比的见解,其潜在应用范围更广泛,涵盖现代医学、食品科学、农业和系统生物学。近十年来,蛋白质组学研究领域发展迅速。


我们现在可以用越来越小的样本量,以更快的速度和更高的灵敏度研究比以往更多的蛋白质。这种复杂性归功于分析技术的创新,如质谱分析(MS)。但科学家们如何才能深入研究呢还在进行蛋白质组分析吗?


今年早些时候,188金宝搏备用Bruker Daltonics生命科学质谱执行副总裁Rohan Thakur就Bruker如何帮助研究人员“提高标准”并达到蛋白质组学的新高度进行了采访。

自从这次对话之后,Bruker推出了其新颖的支持ccs的TIMScore™算法,该算法可以用于timsTOF Pro 2, timsTOF HT, timsTOF SCP和timsTOF fleX系统,以及TIMS DIA-NN 4D-Proteomics™软件。


为了了解机器学习方法和新的软件功能如何帮助蛋白质组学研究人员在分析中获得更大的深度,188金宝搏备用最近采访了Tharan Srikumar他是Bruker Daltonics生物信息学部门的产品经理。在这次采访中,Srikumar解释了新的TIMScore算法如何克服分析胰蛋白酶和磷酸化肽的挑战,讨论了TIMS DIA-NN 4d -蛋白质组学软件的功能,并提高了蛋白质组学工作流程的效率。


莫莉·坎贝尔(主持人):你能向我们的读者解释一下,TIMScore算法是如何在布鲁克的客户中开发出来的吗?


Tharan Srikumar (TS):在过去的几年里,我们已经证明了timsTOF技术在硬件方面的效果很好,我们已经能够利用几种不同的获取方法来开发硬件。一个例子-霰弹枪蛋白质组学方法,标准提出了数据依赖采集(DDA)并行累积串行分片(PASEF®)方法。对于数据独立采集(DIA),我们开发了DIA - pasef®,最近,我们增加了并行反应监测(PRM) PRM - pasef®作为目标应用的采集方法。我们没有一个免费的软件解决方案,充分利用TIMS技术来执行数据分析。我们认为这是一个机会,因为我们没有利用仪器提供给我们的所有信息。


这一思路导致我们第一次尝试更多地利用数据中存在的碰撞横截面(CCS)信息。这就产生了TIMScore,从概念上讲,它非常简单。这个想法是,如果你知道真实的值-给定肽在给定电荷状态下的真实CCS -那么你就可以将其与你所测量的进行比较。然后,您应该能够创建一个相对分数或判断该测量与您的参考值或真实值相比有多好。不幸的是,我们没有这方面的信息所有可以测量的潜在多肽,所以,我们认为下一个最好的方法是建立一个预测模型,可以给我们预期的值,或者真正的测量值。这就是TIMScore的基础——我们已经为CCS值建立了一个机器学习预测模型。它包括我们所需要的所有胰蛋白酶肽可以以及其他翻译后修饰(PTMs),如磷酸化。磷酸化对于基于PTM的生物学意义训练我们的模型尤为重要。因此,该模型可以预测未磷酸化和磷酸化的肽CCS,具有非常高的准确性和可重复性。我们使用这些预测的CCS来评估测量值有多好,在此基础上,我们可以更好地解决识别中的歧义。


对于一个可以非常非常清楚地通过其碎片模式识别的频谱,TIMScore并没有增加太多价值。对于更模糊的识别,在识别中存在模糊性,要么是因为碎片模式不够清晰,要么是测量的肽与潜在识别之间的肽质量误差较大,我们可以使用预测CCS与测量CCS匹配程度的关系。我们可以用它说,“这是一个假肽”,如果有假阳性,我们不应该解释它,或者说,“不,这不是假阳性,这是一个真实的匹配,我们想在数据集中使用这个识别”。此外,TIMScore允许增强的鉴别分析,通过在鉴别分析中添加另一个关键维度来减少肽鉴定中的模糊性。从本质上讲,TIMScore维度允许基于二维平面的标准1%错误发现阈值判定,允许访问一些可能评分较低但仍然有效的真实识别肽。


Ash Board (AB):以前在分析胰蛋白酶和磷酸化肽时遇到过哪些困难,该软件是如何克服这些挑战的?此外,为什么我们需要在研究蛋白质组的背景下捕获PTM数据,4d -蛋白质组学方法如何帮助生成这些信息?


TS:让我们打个比方。假设我们正在观察的样本是一个房间,我们站在离房门很近的地方。如果我们有一个窥视孔进入房间,我们看到的房间本身非常有限,但我们可能会得到一些你可以看到房间里有什么,比如里面有什么家具,房间里有谁。


将此与能够打开进入房间的门进行比较。你对房间有更广阔的视野,可以更好地描述实际发生的事情。当然,如果你能走进去,你就能完全沉浸在那个房间里。


如果我们在其他平台上开始使用标准的鸟枪蛋白质组学方法,也许,甚至在我们的老平台上,你会从窥视孔中窥视。有一个有限的观点。你可以看到大约1000-3000个蛋白质和10000个多肽。它为你提供了一个描述,或一个想法,关于房间里有什么——或样品。


通过TIMScore和PASEF,我们可以让你有一个更大的窥视孔,或者能够完全打开门,走进去,创造一个更广阔的视野。翻译后修饰(PTMs)在生物学中起着至关重要的作用。理解PTMs的作用——或者确定什么PTMs存在——在细胞中的数量和位置,对于理解生物学至关重要。现在有了更深入或更广泛的观点,这应该会转化为我们的客户对他们正在研究的样品中有什么有更深入的了解。


MC:与以前的软件系统相比,TIMS DIA-NN软件有哪些功能?


TS:TIMS DIA-NN是我们第一个分析dia-PASEF数据的软件。它是基于开源的DIA-NN软件Markus Ralser教授而且瓦迪姆·德米切夫博士.我们已经把这个项目分叉了,并且更加强调CCS测量本身。我们还将其集成到PaSER平台中,因此您有一个在收购结束时自动触发的工作流。从用户的角度来看,你在timsTOF采集PC上设置你的实验,你的测量,包括设置你的处理方法。在获取结束时触发TIMS DIA-NN,几分钟后就会得到结果。


您不再需要获取所有数据,然后将所有文件复制到处理计算机,开始分析,然后在几个小时后回来检查数据质量,或者查看列是否阻塞或类似的事情。现在您有了一个工作流,设置好后就可以离开了。如果您需要检查数据,您可以在采集后几分钟来,并有一个结果文件等着您。当您想要比较整个项目中的数据,或者您感兴趣的数十或数百个样本时,您可以使用称为“运行间匹配”的概念将它们全部分组以进行分析,以填充任何缺失的数据。CCS的使用也提高了这一概念的效率。这样,你就有了一个完整的项目视图,所有被识别和量化的蛋白质和多肽,在这种情况下,横跨整个项目。


AB:对您来说,Bruker的哪个客户案例研究真正证明了这种新型软件在蛋白质组学分析中的影响?


TS:我们首先进行了回顾性分析,联系了京都大学石滨康教授的实验室发表了一篇论文探索磷酸化以及它是如何受到CCS值的影响。我们与团队现有的数据集一起工作,看看TIMScore是否有任何收益。我们开始意识到,是的,有巨大的收益!我认为我们看到的是在30-40%的范围内,这取决于你是看肽水平还是蛋白质水平。


在这种特殊情况下,我们不仅能够识别更多的磷酸化肽,而且我们还能够在相同的置信水平上识别更多的磷酸化位点。也就是说,我们不仅可以识别蛋白质中被磷酸化修饰的肽序列,而且还可以识别磷酸化事件发生的确切氨基酸。这意味着我们没有看到模棱两可的识别;我们可以将其定位到一个非常特定的残留物,这意味着我们可以更好地理解信号生物学。


我们将PaSER构建为一个平台,作为PaSER的一部分,我们现在集成了TIMScore和TIMS DIA-NN。我们所看到的或正在使用的一个更常见的场景是进行一个小型的试点研究,以建立一个光谱库,可能是从分割的数据集或汇集的样本中。然后,使用TIMScore,在使用TIMS DIA-NN进行更大的样本队列研究之前,尽可能地建立一个深入的肽谱库。


然后在DIA模式下对100 - 1000个样本进行研究。我们已经看到使用数千个样本的试点项目,甚至更大的项目计划使用超过10,000个样本。集成的工作流和PaSER可以让您在整个项目的进展过程中保持关注,而且还可以在您前进的过程中获得数据块的反馈。总的来说,我们看到我们的客户正在向DIA迁移,我们正在通过PaSER平台促进这一点。


MC:你能谈谈新的软件系统对蛋白质组学领域的影响吗?它们在多大程度上帮助克服了数据瓶颈?


TS:我们的方法与通常尝试的方法非常不同。蛋白质组学最大的瓶颈之一是你每天可以生成数百个样本,但当然,你需要处理这些数据。


其中一个比较简单的方法是转移到“云”,在那里你可以计算扩展你的需求。但是,同样,在将整个项目转移到云环境中进行处理之前,您仍然需要等待获得整个项目,然后您仍然需要等待相当长的时间或花费大量资金才能在云中快速处理。


我们对PaSER最初的一个问题是,我们为什么要等待?在获取数据的过程中,我们有足够的时间来处理数据。这是PaSER平台与其他一些软件解决方案之间的关键区别之一。


这并没有回答你关于人工智能和机器学习的问题。我们认为这是一个非常大的发展前沿,不仅是布鲁克,而是整个领域。我认为我们将开始看到预测被更广泛地应用,而不仅仅是CCS。它已经被应用于预测质谱、保留时间和许多其他方面。我认为我们将开始看到所有这些被集成在一起,以创建更健壮的模型和更完整的模型,可以描述所有这些方面,或者一起描述这些方面。然后你就到了一个阶段,在你进行测量之前,你就可以非常自信地预测和识别肽的特征。你可以使用这些知识来修改你获取数据的方式,这样它可能更适合你的实验设计。


另一个方面是,我们正在改变从获取数据到分析数据的瓶颈,我们将在分析后创造一个新的瓶颈。我想这将是一个值得你关注的有趣的地方。


MC:在进一步增强软件功能方面,你们能讨论一下未来的计划吗?


TS:我认为还有一些领域我们还没有涉及到。例如,新创测序目前还不是我们产品组合的一部分,我们真的很期待将这一选项集成进来。我们已经为不同的工作流程提供了解决方案,但希望继续开发。CCS预测以及我们想做的所有其他预测,这是我们非常关注的一个领域,特别是关于ptm。我们目前支持磷酸化作用,但我们希望在理想情况下能够覆盖所有的pms,无论模型是否观察到它,并且能够准确地预测它们,这样我们就可以在TIMScore和其他应用中使用它。我们还计划在质量控制、统计分析和数据可视化等更广泛的方面产生影响。


Bruker Daltonics的生物信息学产品经理Tharan Srikumar接受了采访188金宝搏备用技术网络。

与作者见面
Ash Board博士
Ash Board博士
编辑主任
莫莉坎贝尔
莫莉坎贝尔
高级科学作家
广告
Baidu