我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

用机器学习革新代谢组学实践

来源:Creative Proteomics

想要这篇文章的免费PDF版本?

填写下面的表格,我们会将PDF版本的“用机器学习革新代谢组学实践”

188金宝搏备用科技网络有限公司需要您提供给我们的联系信息,以便就我们的产品和服务与您联系。您可以随时退订这些通讯。有关如何退订的信息,以及我们的隐私惯例和保护您隐私的承诺,请查看我们的隐私政策

阅读时间:

自然产物药物的发现是由科学和技术进步推动的,这些进步帮助我们将我们可以生成的丰富分析数据可视化。代谢组学的兴起使我们能够同时分析生物样本中的多种代谢物,这一过程已经成为临床研究、药物发现和开发近20年的一部分。

虽然这两种方法——靶向代谢组学和非靶向代谢组学——本身就为生命科学行业提供了许多分析好处,但人工智能和机器学习的集成使我们能够将其提升到一个新的水平。我们将在后面探讨,但首先,让我们了解这两种方法之间的区别。

理解代谢组学

目标代谢组学测量小分子,通常被称为代谢物,在活的有机体。当科学家对一组非常特定的已知代谢物感兴趣时,他们可以调整协议来检测全球代谢组的这个子集——指的是生物系统中的小分子及其相互作用。

非靶向代谢组学是指在一个活的有机体中识别和分析整个代谢组。这一过程涉及一组更复杂的实验,提出了更多的挑战,但有可能揭示丰富的数据集。这些数据集可以识别生物活性提取物中的活性化合物,发现新的疾病机制,并描述药物针对特定疾病的新方法,以创建相互作用概况。

代谢组学和分析化学的进步为我们精确定位与生物活性相关的活性化合物提供了工具。收集到的数据可以聚合和合成,以更好地了解针对这些疾病的单个化合物,但这一过程可能很长,往往会阻碍行业将精力集中在天然产物药物发现上。

从质谱中识别化合物的障碍

代谢组学是研究生物体内所有代谢物的学科。质谱法为每个样品产生大量的数据。将这两种方法与人工智能和机器学习技术相结合,使这些工具能够很好地解决更大的数据分析问题。有了足够的数据,我们可以训练这些平台来筛选各种提取物组合,并快速确定哪些常见结构负责生物活性。这大大缩短了处理时间,并使研究人员能够有效地识别药用有益化合物,然后将其转化为高潜力的候选药物。

与DNA或蛋白质的氨基酸不同,代谢物不是由线性序列的积木组成的。因此,研究人员无法利用数据中的固有结构或利用测序来识别化合物结构。质谱也很难用于代谢物,限制了研究人员可以获得的代谢组学见解的数量。

另一种可以使用的方法是MS2匹配。这样就可以比较和测量两个相似的光谱。科学家可以为单个质量峰值构建可能匹配的向量,然后测量这些向量的余弦相似度。然后,他们可以在已知光谱数据库中找到接近或精确的匹配,以帮助识别化合物或它们的家族,这是分子化学结构的推断起点。

然而,像大多数实验数据一样,MS2方法并不总是提供精确的匹配,这可能会使对齐很难找到。光谱参考库的覆盖率也相当低,这意味着任何给定生物的分子中只有一小部分被描述和登记在光谱数据库中。

光谱相似性也不等同于结构相似性,这意味着研究人员通常必须满足于最接近的匹配。这是一个问题,因为对分子的最小变化可能导致显著不同的碎片模式,从而显著不同的光谱。无法测量化合物的相似性使得很难识别化合物,将化合物聚类到家族中,并分析结构到功能的关系。

转向机器学习来创建全面的质谱分析:正确的匹配

质谱解释最适合于机器学习,因为主要过程——库匹配、分子网络和分子预测——基本上依赖于数据表示。这使得深度学习成为表示多种数据模式之间复杂关系的强大工具。
休伯和他的同事们最近通过创建第一个Spec2vec模型,展示了机器学习在解释光谱方面的强大功能Word2vec在大型参考数据库中,根据质量峰在MS2谱中的共现情况来学习质量峰的表示。该方法是无监督的,仅基于学习共现,但即使没有监督,它也创建了一个近似结构相似度的相似度测量,其效果明显优于余弦相似度测量。然而,还有更好的近似的空间。

相似性并不是通过机器学习改进结构注释的唯一领域。即使在文库中不存在紧密匹配的分子,也可以从它们的光谱推断出分子的某些性质和结构元素。结构和性质推断是关于模式识别的。领域专家通常可以获得足够的专业知识,从质谱中“读取”分子结构的非常具体的差异。这表明,光谱中的信息可能足以假设它们所代表的分子的化合物类别和结构。

这样的工具
CSI: FingerID而且SubFragment-Matching已经表明,机器学习算法可以学习仅从光谱预测分子的有用性质和子结构。将预测算法、强大的数据编码和预测与分子生成模型相结合,提供了可以更好地将未知化合物的光谱直接转换为预测结构的模型。

一个模型的好坏取决于它的数据。公共代谢组学参考数据库,如
国民生产总值MetaboLights,代谢组学工作台非常有用,但大型参考数据集是围绕特定的兴趣类和复合可用性构建的,不一定是为了最大化机器学习算法可用的信息。药物发现计划指导的优化将涉及将大量数据输入机器学习算法等策略。

利用机器学习研究代谢组学,药物研发的可能性是无限的

相似性和结构预测只是机器学习如何彻底改变以代谢组学为中心的药物发现的开始阶段。研究人员继续进行研究
通过生物活性分析,他们可以利用分子的自然多样性来推断哪些化学结构负责理想的疗效、毒性和药代动力学特性,仅基于天然分子的现有可变性。

能够识别分子中的微小结构变化可以帮助我们追踪药物在体内的代谢变化,并识别反应中心。更好的降维方法和聚类将使我们能够同时描述许多植物中的大量分子,并优化我们化合物的来源。数据提取、神经语言编程和知识图也可以使我们更好地理解围绕各种分子特性的大量数据,将分子与细胞通路连接起来,并优先考虑线索生成、目标ID和生产。

我们正处于一个转折点,质谱设备的改进和计算工作流程已经能够一次性收集和处理大量数据。此外,机器学习——尤其是深度神经网络——能够实现自动化大规模光谱解释所需的模式识别类型。这为将代谢组学扩展到以前无法达到的程度提供了可能性。

该技术正在从技术和计算方面融合,但与基因组学、转录组学或蛋白质组学相比,代谢组学的机器学习仍然是一个相对较小的领域。我们在未来3-5年所取得的进步将为应用机器学习创造巨大的机会,从而彻底改变代谢组学,进而改变依赖于它的众多行业。

作者简介:

David Healey是数据科学的副总裁Enveda生物科学专注于生命科学和医疗保健领域的机器学习。他帮助Recursion Pharmaceuticals建立了数据科学和机器学习程序。他的专长是深度神经网络、计算机视觉、自然语言和图模型。David在麻省理工学院生命系统物理中心获得生物学博士学位。

脚注:

一些术语:没有针对性代谢组学试图量化样本中的所有代谢物,而不是有针对性的代谢组学有一个特定的类别或一组感兴趣的分子来量化。本文将使用这个术语代谢组学作为一种特殊的无目标品种的简称。

串联质谱是测量代谢组的最常用方法,但也有其他方法,包括核磁共振。

广告
Baidu