我们已经更新我们的隐私政策使它更加清晰我们如何使用您的个人资料。

我们使用cookie来提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

对代谢组学与机器学习实践

信贷:创造性的蛋白质组学

希望这篇文章的一个免费的PDF版本吗?

完成下面的表格,我们将电子邮件您的PDF版本“代谢组学革命实践与机器学习”

188金宝搏备用科技网络有限公司需要您提供的联系方式联系你关于我们的产品和服务。你可以随时取消订阅这些通讯。如何取消订阅的信息,以及我们的隐私实践和承诺保护你的隐私,看看我们隐私政策

阅读时间:

天然产物药物发现是由科学和技术的进步,帮助我们想象丰富我们可以生成分析数据。代谢组学的兴起使我们能够同时分析多个代谢物生物样品,这一过程一直是临床研究的一部分,对近20年来药物发现和开发。

虽然这两种方法——针对性和代谢组学,提供许多分析保障金自己生命科学行业,人工智能和机器学习的集成使我们能够更上一层楼。稍后我们将探索如何但是首先,让我们理解这两种方法之间的区别。

理解代谢组学

有针对性的代谢组学措施小分子的景观,俗称代谢物,在生物体中。当科学家们感兴趣的一组特定的已知代谢物,可以优化全球协议来检测这个子集的代谢物——指小分子在生物系统和他们的相互作用。

诸多代谢组学是指识别和分析整个全球代谢物在一个活的有机体。这个过程,其中包括一组更复杂的实验,提出了更多的挑战,但是有可能发现丰富的数据集。这些数据集可以确定活性化合物在生物活性提取物,发现新的疾病机制和特征的新方法,针对具体疾病的药物概要文件创建一个交互。

代谢组学和分析化学的进步提供了工具,我们需要确定活性化合物与生物活性有关。收集到的数据可以聚合和单个化合物的合成提供了一个更好的理解负责针对这些疾病,但这个过程可能会很长,往往阻碍了行业努力关注天然产物药物发现。

障碍与确定化合物的质谱

代谢组学是研究有机体中所有代谢产物。质谱产生的大量数据为每个样本。结合这两种方法与人工智能和机器学习技术使得这些工具能够解决大数据分析问题。有足够的数据,我们可以训练这些平台屏幕提取并迅速确定哪些常见的各种组合结构负责生物活性。这显著减少了加工时间,允许研究人员有效地识别用药物有益的化合物可以转化为高潜力的候选药物。

不像DNA或蛋白质的氨基酸,代谢物组成的线性序列构建块。结果,研究人员不能利用,内在结构数据或利用测序鉴定化合物结构。质谱也与代谢物难以使用,限制了研究人员可以获得大量的代谢组学的洞察力。

可以使用另一种方法是一份匹配。这允许两个相似的光谱进行比较和衡量。科学家可以构造向量可能匹配的个体质量高峰,然后测量向量的余弦相似性。他们可以找到关闭或精确匹配在数据库中已知的光谱,以帮助确定化合物或他们的家庭,一个推理的起点分子的化学结构。

不过,像大多数实验数据,一份方法并不总是提供一个精确匹配,从而使对齐很难找到。光谱引用库也有相当低的覆盖率,这意味着只有一小部分描述任何生物体的分子和在光谱注册数据库。

光谱相似度也不相同的结构相似性,这就意味着研究人员通常满足于最接近的匹配。这是一个问题,因为最小的分子变化可能导致截然不同的分裂模式,因此截然不同的光谱。失败来衡量相似化合物使它很难确定化合物,集群化合物进入家庭,并分析structure-to-function关系。

创建一个全面的质谱分析转向机器学习:正确的匹配

质谱的解释是适合机器学习,因为主要流程——库匹配,分子网络,和分子预测——从根本上依赖于数据表示。这使得深学习代表多个数据之间的复杂关系的有力工具模式。
休伯和他的同事们最近展示了机器学习的力量来解释光谱通过创建第一个Spec2vec模型,它使用Word2vec学习质量表征山峰基于他们的同现一光谱在大型参考数据库。无监督方法,仅基于学习同现,但即使没有监督,它创建一个相似性度量,接近结构相似性明显比余弦相似度的措施。然而,仍有一个更好的空间近似。

相似性不是唯一的区域通过机器学习改善结构注释。即使不存在接近的比赛在图书馆,可以推断出特定的属性和结构元素的分子光谱。结构和属性推理模式识别。领域专家经常可以获得足够的专业知识,“读”从质谱非常具体的分子结构上的差异。这表明,光谱中的信息可能足以假设复合类和他们所代表的分子结构。

这样的工具
CSI: FingerIDSubFragment-Matching表明,机器学习算法可以预测学习有用的属性和子结构的分子光谱。结合预测算法,强大的数据编码与分子生成模型和预测,提供了模型,可以更好地直接从一个未知的化合物谱转换成预测结构。

一个模型只是一样好它的数据。公共数据库就像那些在代谢组学参考
国民生产总值,MetaboLights,代谢组学工作台是非常有用的,但大感兴趣的参考数据集是建立在特定的类和复合可用性,不一定最大化机器学习算法的信息。优化药物发现项目指导涉及策略要喂养大量数据的机器学习算法。

可能性是无限的为代谢组学与机器学习药物发现

相似度和结构预测仅仅是开始阶段,机器学习如何革新metabolomics-focused药物发现。当研究人员继续运行
提取并通过生物活性测定混合物,他们可以利用自然多样性的分子来推断化学结构负责理想的功效,毒性,和药代动力学性质,仅基于现有的天然分子的变化。

能够识别小分子结构的变化可以帮助我们跟踪药物代谢变化通过身体和识别反应中心。更好的降维方法和聚类将使我们能够描述大量分子在许多植物和优化采购我们的化合物。图形数据提取、神经语言程序学和知识也可以使我们更好地理解各种分子周围丰富的数据属性,连接分子细胞通路,并优先考虑领导一代,目标ID,和生产。

我们正处于一个转折点,质谱设备改进和计算工作流使大量的数据收集和处理。此外,机器学习,特别是深层神经网络——允许的类型模式识别必要的自动化质量光谱解释。这个打开的可能性扩展代谢组学在某种程度上,以前遥不可及。

技术从技术和计算收敛,但对代谢组学仍然是一个相对较小的机器学习领域相比,基因组学、转录组、蛋白质组学。未来3 - 5年的进步我们将创建一个巨大的机会,应用机器学习来革新代谢组学以及众多行业依赖它。

关于作者:

大卫·希利是数据科学的副总裁Enveda生物科学专门从事机器学习对生命科学和卫生保健。他帮助建立了递归药品数据科学和机器学习程序。他的专长是深层神经网络,计算机视觉、自然语言和图形模型。大卫获得了麻省理工学院的生物学博士学位中心生活的物理系统。

脚注:

[1]一些术语:没有针对性代谢组学试图量化样本中所有代谢产物,而不是有针对性的代谢组学在一个特定的类或一组类的分子感兴趣的量化。本文将使用术语代谢组学作为专门的速记的诸多品种。

[2]串联质谱仪是最常见的方法测量代谢物,但还有其他的方法,包括核磁共振。

广告
Baidu