蛋白质结构预测与深度学习
几乎每一个基本的生物过程所必需的生命是由蛋白质。他们创造并维持细胞和组织的形状;构成酶催化维持生命的化学反应;作为分子工厂、运输和汽车;作为移动通信信号和接收;等等。
组成的长链的氨基酸、蛋白质折叠自己无数执行这些任务的成精确的3 d结构管理如何与其他分子的相互作用。因为一个蛋白质的形状决定了它的功能和功能障碍疾病的程度,努力阐明蛋白质结构是所有分子的中心而特别治疗科学和救生和改变生活的药物的发展。
近年来,计算方法取得了显著的进展在预测蛋白质折叠的基于知识的氨基酸序列。如果完全实现,这些方法有潜力改变生物医学研究的几乎所有方面。目前的方法,然而,有限的规模和范围的蛋白质可以被确定。
现在,哈佛医学院的科学家使用一种被称为深度学习人工智能预测有效的任何蛋白质的三维结构根据其氨基酸序列。
报告在电池系统4月17日,系统生物学家穆罕默德AlQuraishi细节的新方法计算确定蛋白质structure-achieving准确度当前最先进的方法,但快一百万倍的速度上升。
“蛋白质折叠为生物化学家最重要的一个问题在过去的半个世纪里,和这种方法代表了一种从根本上解决这个挑战的新方式,”AlQuraishi说,教练在Blavatnik学院HMS系统生物学和药理学实验室的一位系统。“我们现在有一个全新的探索蛋白质折叠的vista,而且我认为我们刚刚开始不周详。”
虽然非常成功,过程使用物理工具来确定蛋白质结构是昂贵和费时,甚至与低温电子显微镜等现代技术。因此,绝大多数的蛋白质结构和致病突变的影响在这些结构在很大程度上仍未知。
计算方法计算出蛋白质折叠有潜力大幅减少所需的成本和时间来确定结构。但问题是困难和不解决,经过近四十年的努力。
蛋白质是由一个图书馆的20种不同的氨基酸。这些像一个字母组合成单词,句子和段落产生天文数字的文本。氨基酸与字母字母,然而,在三维空间物体定位。通常,蛋白质的部分将在接近物理距离但被远距离的分离序列,为氨基酸链形式循环、螺旋,床单和扭曲。
“有什么引人注目的问题是相当容易的状态:序列,计算出形状,“AlQuraishi说。“蛋白质开始作为一个非结构化的字符串必须承担一个3 d形状,和可能的形状,一个字符串可以折叠成是巨大的。许多蛋白质是成千上万的氨基酸长,复杂性迅速超过人类直觉的能力,甚至最强大的计算机”。
难解决
为了应对这一挑战,科学家们利用氨基酸的相互作用物理定律的基础上,寻找积极有利的国家像球一样滚下山定居在一个山谷底处。
最先进的算法计算蛋白质结构上运行supercomputers-or众包计算能力的项目,如程序和Folding@Home-to模拟复杂物理氨基酸通过蛮力的相互作用。减少大量的计算需求,这些项目依赖于新的序列映射到预定义的模板,之前通过实验确定蛋白质结构。
其他项目,如谷歌AlphaFold最近产生巨大的兴奋通过使用先进的人工智能预测蛋白质的结构。为此,这些方法解析大量基因组数据,其中包含的蛋白质序列的蓝图。他们寻找序列在许多物种,进化在一起,利用靠近指导物理指标等序列结构组装。
这些人工智能的方法,然而,不预测结构完全基于蛋白质的氨基酸序列。因此,他们是有限的能力来确定结构的蛋白质没有先验知识,人类进化设计的小说独特的蛋白质或蛋白质。
培训深深
开发一种新方法,AlQuraishi应用所谓的端到端可微的深度学习。人工智能的分支已经大大减少了所需的计算能力和时间解决问题,如图像和语音识别技术,使应用程序如苹果的Siri和谷歌翻译。
从本质上讲,可微的学习涉及到一个巨大的数学函数更复杂的版本的高中微积分equation-arranged神经网络,网络给信息的每个组件向前和向后。
这个函数可以调整,调整本身,一遍又一遍地在难以想象的水平的复杂性,为了“学习”,正是蛋白质序列数学如何与它的结构。
AlQuraishi开发深度学习模型,称为复发性几何网络,其重点是蛋白质折叠的关键特征。但是之前可以做出新的预测,它必须使用以前训练序列和结构决定的。
对于每个氨基酸,模型预测最可能的角度的化学键连接氨基酸与邻国。它还预测的角度旋转围绕这些债券,这影响到任何地方部分的蛋白质是几何与整个结构有关。
反复这样做是,每个计算通知和提炼其他氨基酸的相对位置。一旦完成了整个结构,模型检查的准确性预测通过比较它与蛋白质的“地面实况”结构。
整个过程重复了几千已知的蛋白质,与模型学习和提高其准确性和每次迭代。
新的vista
一旦他的模型训练,AlQuraishi测试它的预测能力。他从几个近年来其性能与其他方法相比的关键蛋白质结构预测的评估——年度实验测试计算方法使用蛋白质结构预测的能力,但没有公开发布的决定。
他发现新模型优于所有其他方法预测蛋白质结构,没有既存的模板,包括使用协同进化数据的方法。它还表现除了最好的方法在现有模板进行预测。
虽然这些收益精度相对较小,AlQuraishi指出,任何改进这些测试的高端很难实现。因为这种方法代表了一种全新的蛋白质折叠方法,它可以补充现有的方法,计算和物理,确定比以前更大范围的结构。
引人注目的是,新模型执行其预测在6到7个数量级的速度比现有的计算方法。训练模型可能需要数月时间,但是一旦训练相比,它可以使预测以毫秒为单位小时天需要使用其他方法。这戏剧性的改善在一定程度上是由于它是基于单一数学函数,只需要几千行代码的计算机运行而不是数百万。
这个模型的快速速度的预测使新的应用程序之前缓慢或难以实现,AlQuraishi说,如预测蛋白质如何改变他们的形状与其他分子的相互作用。
“深度学习的方法,而不只是我的,会继续增长的预测能力和受欢迎,因为他们代表了最小,简单的范例,可以更容易地集成新的想法比当前的复杂模型,”他补充道。
新模型并不是立即准备使用,说,药物发现和设计,AlQuraishi说,因为目前它的准确性下降大约6 angstroms-still一些距离所需的1到2埃解决蛋白质的原子结构。但是有很多机会来优化的方法,他说,包括进一步整合规则来自化学和物理。
“准确、有效地预测蛋白质折叠的圣杯,我希望和期望,这种方法,结合其他方法显著发展,能够在不久的将来,“AlQuraishi说。“我们会很快解决这个问题,我想没有人会说五年前。这非常令人兴奋,同时也有些吃惊。”
帮助他人参与方法开发,AlQuraishi使得他的软件和结果通过GitHub免费软件共享平台。
“AlQuraishi的工作的一个显著特征是一个研究员,嵌入在富人和波士顿哈佛医学院的研究生态系统生物医学社区,可以与谷歌等公司在计算机科学最热门的领域之一,”彼得说佐尔格,奥托·克莱HMS系统药理学Blavatnik学院教授,HMS系统药理学实验室主任和AlQuraishi的学术导师。
低估了“这是不明智的破坏性影响的优秀学者像AlQuraishi使用开源软件在公共领域,”佐尔格说。
这篇文章被转载材料所提供的哈佛医学院。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。
参考
端到端可微的蛋白质结构的学习。穆罕默德AlQuraishi。电池系统,DOI: https://doi.org/10.1016/j.cels.2019.03.006。