冒险进入黑暗的未知的代谢组学与深度学习
科学追求的艺术带来了最大的挑战之一
范式在生活中经常鼓吹要满足于你所拥有的现在,在这个时刻。天生的本能追求完善。科学是一个异类,基本范式。它敲下了餐桌。艺术和科学是无止境的追求的美丽;追求新发现、新知识和证据表明,推动我们已经知道一步或使我们坚定地站在我们的追踪,后退一步,评估我们认为我们知道。
可以说,这个不断追求带来了科学家的最大挑战之一,然而在现代发现:代谢组学领域。
代谢组学是什么?
代谢组学是最新的伞在系统生物学“组学”字段,也包括基因组学、转录组和代谢组学。重大突破了在这些研究空间。取人类基因组计划例如,誉为历史上最伟大的壮举之一的探索。或质谱等技术的最新进展,大大加快我们对蛋白质生物学的理解。
在过去的几十年里,我们已经取得了极大的进步在我们的知识和我们理解的复杂系统主导人类生活以及周围的生物。唉——仍然是更多的发现。
生物化学的新时代的发现
在基因组学和蛋白质组学服务信息可能基于一组发生化学指示,代谢组学是一个完全不同的球的游戏。,以衡量一个生物样品中代谢物的全套(通常定义为细胞代谢的中间体和产品< 1 kDa的大小)。这是代谢物。1这些小分子的最终产品是前面提到的组学流程;因此,在这些变化和交互过程是直接反映在代谢物。而不是什么可能发生,代谢物可以告诉我们是发生。这是一个字段将与潜在,准备彻底改革我们对生物学的理解,扩展应用,如现代医学和药理学,环境科学和合成生物学。
鼠尾草属Clish代谢组学平台的高级主管在麻省理工和哈佛大学,将代谢组学描述为“一个物镜查看复杂的自然生理是如何与外部事件和条件,以及衡量其响应扰动等相关疾病”。2请注意这个词复杂。
一些剩余的代谢组学领域的最大的挑战是由于基本限制在实验方法。1到目前为止,我们已经发现了一些代谢组学途径和过程。人类代谢组数据库包含114185个代谢物条目,包括水和脂溶性代谢产物和代谢产物,将被视为丰富(> 1 uM)或相对较少(< 1海里)。3
一套先进的分析工具在这个空间了。代谢物从复杂样本的识别,可能有超过10000独特的化合物,通常需要获得数据在其质荷值,色谱保留时间,同位素模式和分段数据。纯分离化合物的浓度足够高,核磁共振和微电子衍射可以用来直接阐明分子结构。
然而,科学家认为我们仅仅触及表面。目前,尚不清楚有多少未知代谢物存在,但其估计非常大量。1站的问题,因此,我们怎么可能确定新的分子技术上,我们什么都不知道呢?
这是新的追求。Zamboni, Saghatelian和帕蒂描述,我们可能会说,我们已经进入第四个时代阐明生化途径:“代谢组学时代”。4
与深度学习
协助这任务是深入学习,,如果你是一个新手,听起来非常吓人。深入学习,简单来说,是机器学习的一个子集,即人工神经网络算法从大量数据。这些算法的设计是使用人类的大脑作为一个模板,所以一个有用的类比可能思考我们人类如何学习任务。我们重复一遍,每一次我们修改我们执行任务的方式,直到优化。同样适用于深度学习。
“这是复杂的从某种角度看,但是从另一个它实际上是相对简单的,“肖恩·科尔比研究科学家太平洋西北国家实验室(PNNL),告诉我。科尔比是一个跨学科的团队的一部分,应用学习策略深入研究未知的深处,深深的黑暗物质分子的世界。
在深度学习,有互联单位的层数,做一些小的决定,但总体来说,组合在一起,通过后续的网络层和喂养。垂直互连节点去——因此恰当的名称“深度学习”。
“我们最终想出了一个框架,可以学到非常复杂的人际关系,深度学习模式的优势,而不是其他,显式形式的造型。我们本质上设置一个空白,模板架构,公开数据,即。,我们知道的事情,和模型组装本身。一旦我们有一个支架,是为了学习我们想要学习,我们只是展示数据,不放松,然后它会齐心协力一切我们需要拿出一个解决方案。”
包括在暗物质的分子世界,当然,代谢物。
“代谢物,估计1060潜在的分子构型少于500 Da在质量,和许多发生在有着非常相似的属性。如果我们能非常准确地衡量一个分子的质量,这并不一定意味着我们知道它是什么;可能有成百上千的分子有完全相同的质量,”科尔比说。
尽管主要仪器分辨率和质量的进步,科学家们仍然无法进行明确的标识的代谢物,因为这种重叠。
因此,研究项目由DarkChem太平洋西北国家实验室的深度学习科学发现敏捷投资,诞生了。瑞安Renslow博士领导的科学家小组包括科尔比,正在利用深度学习能力促进这种明确的代谢产物的鉴定。
“现在,我们只是略读潜在可知的和说再见很有趣的数据,因为我们不能确定代谢物的绝大多数,我们的技术检测。深度学习提供一种新的方式来解决这个难题,”博士说汤姆·梅茨,综合组学太平洋西北国家实验室生物医学科学家。
利用维数的诅咒
DarkChem能够学习一个连续的数值,或潜伏,表示分子结构和特点。它关注的属性可以通过实验获得的工具,一旦训练,可以用来预测直接从结构、化学性质和生成新型候选结构具有化学性质类似于一个输入的选择。
作为第一步,团队训练DarkChem能够推导和预测碰撞截面(CCS),分子的化学性质测量使用离子迁移谱分析。5
CCS大概是另一个粒子的粒子周围地区可能交互或碰撞。这个区域可以改变主题所涉及的两个粒子的大小和组成。CCS允许科学家在代谢组学,数学计算得出各种代谢物的化学特征信息,帮助识别。
“这让我们利用,我们所说的科学数据,“诅咒维度”,即随着添加维度,问题变得更加困难,因为空间变得越来越庞大,”科尔比说。”但是,在代谢组学和分子识别的情况下,添加维度和这种“诅咒维度”工作在反向——我们得到更大的单个代谢物分离。”
为什么要教深入学习网络预测CCS吗?嗯,有时候CCS等化学性质难以测量实验,不管是由于化合物并不可用,或者他们很难合成。
在这种情况下,太平洋西北国家实验室的科学家们传统上采用量子chemistry-based框架称为ISiCLE,在网上化学库引擎,来预测这样的化学性质。不幸的是,这个系统是与自己的局限性,包括耗时和费力的计算。因此,研究者使用DarkChem应用深度学习,发现他们能够产生结果的相同精确的时间的一小部分。
“我们在三个步骤训练DarkChem最大化我们的训练数据。首先,我们暴露了网络~ 5300万分子从PubChem -没有CCS广泛学习化学结构。接下来,我们训练~ 70万分子与ISiCLE CCS计算。最后一步涉及~ 700分子实验CCS。这使得网络学习尽可能多的在每一个步骤,逐步使成功更小的数据集没有过度拟合,”科尔比说。
破解未知的分子的结构
岩石DarkChem是聪明的,它可以解决一个分子之间来回的CCS和其他化学性质,和产生新的化学结构基于属性的用户正在寻找,因此,深入研究深海未知的黑暗分子物质。
Renslow的团队使用了网络提出新颖的化学结构,有可能影响NMDA受体,谷氨酸受体与大脑功能的各个方面,对于某些疗法和目标。
我问科尔比如果这些新颖的化学结构可以转化为新的疗法:“100%。这主要是应用DarkChem的焦点。当前目标NMDA受体的药物,例如氯胺酮,经常有负相关的副作用。所以,想法会想出一个ketamine-like化合物或模拟相同的疗效,但是没有负面影响。”
这种能力计算未知的分子化学性质有各种潜在的应用和支持对阐明生化途径的第四个时代的追求;“代谢组学时代”。团队继续找出分子特性,他们可以教DarkChem分析,并推进深入未知的黑暗深处分子物质。
肖恩·科尔比莫莉坎贝尔说,科普作家、技术网络。188金宝搏备用
引用:
1。
Riekeberg E。,& Powers, R. (2017). New frontiers in metabolomics: from measurement to insight.F1000Research,6,1148年。https://doi.org/10.12688/f1000research.11495.1
2。
Clish c b (2015)。代谢组学:一个新兴但精密医学的有力工具。冷泉港分子案例研究,1(1)a000588。https://doi.org/10.1101/mcs.a000588
3所示。
Wishart DS, Tzur D,诺克斯C, et al。(2007)。HMDB:人类代谢组数据库。核酸Res。2007年1月,35岁,D521-6。17202168。
4所示。
Zamboni N, Saghatelian,帕蒂GJ。(2015)。定义代谢物:大小、通量和监管。摩尔细胞58 (4):699,706。doi: 10.1016 / j.molcel.2015.04.021。
5。科尔比,Nunez hoda,科里和Renslow。深度学习在硅片化学性质产生库和候选分子小分子识别在复杂样品。分析化学。2020 92 (2),1720 - 1729。DOI: 10.1021 / acs.analchem.9b02348。