人工智能系统快速预测两种蛋白质将如何连接
抗体,免疫系统产生的蛋白质小,可以连接到特定部分病毒的中和。作为科学家继续战斗SARS-CoV-2,导致Covid-19的病毒,一个可能的武器是一种合成抗体与病毒结合“高峰蛋白质阻止病毒进入人类细胞。
开发一个成功的合成抗体,研究人员必须理解如何,附件将会发生。蛋白质,粗笨的3 d结构包含许多褶皱,在数以百万计的组合可以粘在一起,所以找到合适的蛋白质复杂几乎数不清的候选人中是非常耗时的。
精简流程,麻省理工学院的研究人员创造了一个机器学习模型,可以直接预测时将形成的复杂的两种蛋白质结合在一起。他们的技术是在80年和500年之间倍最先进的软件方法,并经常预测蛋白质结构更接近实际结构,观察实验。
这种技术可以帮助科学家更好地了解一些涉及蛋白质相互作用的生物过程,如DNA复制和修复;它还可以加快开发新药物的过程。
”深度学习非常善于捕捉不同蛋白质之间的相互作用,否则实验化学家和生物学家很难写。这些相互作用是非常复杂的,人们还没有找到好方法来表达它们。这个深度学习模型可以学到这些类型的交互数据,“说Octavian-Eugen Ganea,博士后在麻省理工学院计算机科学和人工智能实验室(CSAIL)和论文的联合作者。
Ganea位联席作者鑫源黄,瑞士苏黎世联邦理工学院的一名研究生。麻省理工学院的合作者包括Regina,22工程学院特聘教授CSAIL的AI和健康,和Tommi Jaakkola,托马斯Siebel CSAIL的电气工程教授和研究所的成员数据,系统,和社会。这项研究将会在国际会议上学习表示。
蛋白质的附件
模型的研究人员开发了名为Equidock,侧重于刚体对接——发生在两种蛋白质附加旋转或翻译在3 d空间中,但它们的形状不紧缩或弯曲。
模型需要两种蛋白质的三维结构,这些结构转换成三维图形,可以处理的神经网络。蛋白质是由氨基酸链,每一个氨基酸是由图中的一个节点。
研究人员结合几何知识到模型,所以它了解对象可以改变旋转或在3 d空间中翻译。模型也有数学知识,确保建成的蛋白质总是以同样的方式连接,无论他们存在于三维空间的地方。这是人体蛋白质的码头。
利用这些信息,机器学习系统标识原子的两个最有可能的蛋白质相互作用,形成化学反应,称为结合袋分。然后它使用这些点两种蛋白质在一起为一个复杂的地方。
“如果我们能理解蛋白质的各个部分可能是这些绑定口袋点,然后将捕获的所有信息,我们需要将两种蛋白质在一起。假设我们能找到这两组点,然后我们可以找出如何旋转和转换的蛋白质所以一组与另一组匹配,”Ganea解释道。
建立该模型的最大挑战之一是克服训练数据的缺乏。因为蛋白质实验3 d数据存在如此之小,它是将几何知识纳入Equidock尤其重要,Ganea说。没有这些几何约束,模型可以拿假相关性的数据集。
秒和小时
一旦模型训练,研究人员比较了四种软件方法。Equidock能够预测最后只有5秒钟后蛋白质复合体。所有基线花费了更长的时间,从10分钟至一个小时或更多。
质量度量的计算预测蛋白质复杂的匹配实际的紧密程度复杂,Equidock往往是与基线可比性,但有时表现它们。
“我们仍落后于一个基线。仍然可以改进我们的方法,它仍然可以是有用的。可以使用它在一个非常大的虚拟筛选,我们想知道成千上万的蛋白质如何互动,形成复合物。我们的方法可以用来生成一组初始的候选人非常快,然后这些可以调整的更准确,但速度较慢,传统的方法,”他说。
除了使用这个方法与传统模型,研究小组想要把特定的原子相互作用融入Equidock所以它可以做出更准确的预测。例如,有时在蛋白质原子将通过疏水相互作用,将涉及水分子。
他们的技术也可以应用于小的发展,药物类分子,Ganea说。这些分子结合蛋白质表面的方式,迅速确定,附件发生如何缩短药物开发时间表。
在未来,他们计划提高Equidock所以它可以使预测灵活蛋白质对接。最大的障碍是缺乏数据训练,所以Ganea和他的同事们正在努力生成合成数据他们可以利用改进模型。
参考:Ganea OE,黄X,独立SE Bunne C, et al。(3)等变化模型的端到端刚性蛋白质对接。开放的审查。2022年。arXiv: 2111.07786。
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。