人工智能破解了蛋白质生物学50年来的难题
来源:Unsplash网站Hitesh Choudhary
阅读时间:
这家总部位于英国的公司DeepMind已经解决了生物学几十年来面临的最大挑战之一——“蛋白质折叠问题”——使用一种名为AlphaFold.1
一个古老复杂问题的新解决方案?
蛋白质是分子机器,它在人类和其他生物体内执行支撑生命的生理过程。研究蛋白质组,识别蛋白质,描述而且分析它们的生物学是蛋白质组学研究领域的焦点,近年来以惊人的速度增长和进步。
蛋白质丰富多样的功能在很大程度上与它们的形状和结构有关。蛋白质能够精确地折叠成非常特定的形状和结构如何它们与其他分子相互作用。以药理学为例;几乎所有药品通过靶向人体内的蛋白质来诱导它们的作用。因此,确定蛋白质结构是蛋白质组学研究的一个基本组成部分,具有广阔的应用前景。然而,这并不是一件容易的事情,因为存在大量的蛋白质,以及它们可以吸收的无数不同形状。
“近50年来,我们一直困在这个问题上——蛋白质是如何折叠的。看到DeepMind为这个问题拿出了一个解决方案,在亲自研究这个问题这么长时间之后,在经历了这么多次停停停停之后,想知道我们是否能到达那里,这是一个非常特殊的时刻,”——CASP联合创始人兼主席约翰·莫尔特教授在一场演讲中说道 新闻稿 .
多年来,人们开发了一系列分析技术来试图解决这个问题,包括x射线晶体学、冷冻电子显微镜和基于质谱的方法.然而,这些方法可能是复杂的,昂贵的,整个研究项目-例如博士-可以致力于确定一个蛋白质的结构。
AlphaFold通过将蛋白质比作“空间图”来预测和确定蛋白质的结构和形状。“我们创建了一个基于注意力的神经网络系统,经过端到端训练,试图解释这个图的结构,同时对它正在构建的隐式图进行推理。它使用进化相关序列、多序列比对(MSA)和氨基酸残基对的表示来细化这张图。”说AlphaFold的开发者。
John Moult教授和Krzysztof Fidelis教授于1993年成立了蛋白质结构预测关键评估(CASP),以促进蛋白质结构预测的研究。CASP选择最近确定的蛋白质结构作为研究小组的目标,以测试其预测方法的准确性。评分表被称为全球距离测试(GDT),范围从0-100,其中90通常被认为是“有竞争力的”结果。AlphaFold在所有指标上的GDT得分为92.4。
该系统能够对蛋白质的物理结构进行强有力的预测,并可以在几天内确定高度精确的结构。
开发人员说“我们用来自蛋白质数据库的约170,000个蛋白质结构的公开数据以及包含未知结构的蛋白质序列的大型数据库来训练这个系统。它使用大约128个TPUv3内核(大约相当于100-200个gpu)在几周内运行,这在当今机器学习中使用的大多数大型最先进模型的背景下是相对适度的计算量。”
“这项计算工作代表了蛋白质折叠问题的惊人进展,这是生物学上50年来的重大挑战。这比该领域的许多人预测的时间早了几十年。它将从许多方面从根本上改变生物学研究,这将是令人兴奋的,”诺贝尔奖得主、英国皇家学会主席Venki Ramakrishnan教授说。 在一个 新闻稿 .
拓展科学知识的疆域
“AlphaFold惊人精确的模型使我们能够解决我们困扰了近十年的蛋白质结构,重新启动我们的努力,了解信号是如何跨细胞膜传输的。”说马克斯·普朗克发育生物学研究所所长安德烈·卢帕斯教授说。
在他们的声明中,开发人员承认了蛋白质结构预测系统在未来大流行应对策略中的潜在效用。过去几个月里,许多研究小组的主要研究重点是确定SARS-Cov-2蛋白质的结构,以及它与人类蛋白质相互作用以感染宿主细胞的结构。“今年早些时候,我们预测了SARS-CoV-2病毒的几种蛋白质结构,包括ORF3a,其结构此前是未知的,”DeepMind说说.
虽然支撑这一声明的数据尚未发表,但它已经在科学界引起了兴奋。
“今天宣布的进展让我们更加有信心,人工智能将成为人类拓展科学知识前沿的最有用工具之一,我们期待着未来多年的努力工作和发现!”DeepMind结论.
参考:
1.
Jumper J等.基于深度学习的高精度蛋白质结构预测.蛋白质结构预测技术的第十四关键评估(摘要书)。https://predictioncenter.org/casp14/doc/CASP14_Abstracts.pdf.2020年11月30日访问。
广告