机器学习发现强大的肽,可以改善药物输送
杜氏肌营养不良症(DMD),一种罕见的遗传性疾病通常在年轻男孩,诊断逐渐削弱肌肉在身体,直到心脏或肺部失败。症状通常出现5岁;随着病情的发展,患者12岁失去了走路的能力。今天,平均寿命为DMD患者徘徊在26岁。
这是大新闻,然后,当剑桥,马萨诸塞州的Sarepta疗法2019年宣布一个突破药物直接目标负责DMD的突变基因。治疗使用反义phosphorodiamidate吗啉代寡聚物(PMO),大量合成分子渗透到细胞核为了修改肌营养不良蛋白基因,允许生产的一个关键的蛋白质通常是失踪的DMD患者。“但是有一个问题PMO本身。它不是很擅长进入细胞,”卡莉Schissel说在麻省理工学院化学系博士生。
提高交付细胞核,研究人员可以贴上cell-penetrating肽(cpp)药物,从而帮助它穿过细胞和核膜达到其目标。肽序列是最好的工作,但是,仍然是一个迫在眉睫的问题。
麻省理工学院的研究人员已经开发出一种系统的方法来解决这个问题,发现无毒化学实验与人工智能相结合,高度活跃的肽,可以附加到PMO援助交付。通过开发这些新的序列,他们希望迅速加快发展为DMD基因疗法和其他疾病。
他们的研究结果已经发表在《华尔街日报》化学性质在一个纸由Schissel和Somesh Mohapatra,博士生在麻省理工学院材料科学与工程,主要作者是谁。材料科学和工程学助理教授拉斐尔Gomez-Bombarelli,布拉德利Pentelute,化学教授,论文的资深作者。作者还包括贾斯汀沃尔夫,科林•Fadzen Kamela Bellovoda,吴嘉姈,詹娜木头,安妮卡只是和安德烈•贷款。
提出新肽与电脑并不难。如果他们好不好判断,这就是很难,”Gomez-Bombarelli说。“创新的关键是使用机器学习连接肽的序列,尤其是包括非天然的氨基酸,肽的实验测定生物活性。”
梦想的数据
cpp相对较短链,5到20种氨基酸组成。当一个CPP对药能有积极的影响,一些在携带毒品联系在一起有协同效应终点线。这些长链,包含30 - 80个氨基酸,称为miniproteins。
模型还没来得及做出任何有价值的预测,研究人员在实验方面需要创建一个健壮的数据集。通过混合和匹配57不同的肽,Schissel和她的同事们能够建立一个图书馆600 miniproteins,每个PMO相连。分析,团队能够量化每个miniprotein可以移动它的货物如何在细胞。
决定测试的活动序列,PMO已经连接,很重要。因为任何药物可能会改变CPP的活动序列,很难用现有的数据、生成和数据在一个实验室,在同一机器上,同样的人,遇到一个黄金标准机器学习的数据集的一致性。
一个项目的目标是创建一个模型,可以处理任何氨基酸。而只有20种氨基酸自然发生在人体,数百人在其他地方——像一个氨基酸为药物开发资料片。代表他们在机器学习模型,研究人员通常使用一个炎热的编码,一种方法分配每个组件的一系列二进制变量。三个氨基酸,例如,将表示为100年,010年和001年。添加新的氨基酸,变量的数量需要增加,这意味着研究人员将在每次添加重建他们的模型。
相反,球队选择代表氨基酸与拓扑指纹,也就是为每个序列,创建一个独特的条形码条形码的每一行表示一个特定的分子基础的存在与否。“即使模型尚未见过(序列),我们可以代表它的条形码,这是符合规则的,模型了,“Mohapatra说,领导对项目的开发工作。通过使用这个系统的表征,研究人员能够扩大其工具箱的序列。
团队训练在miniprotein卷积神经网络库,每个600 miniproteins贴上活动,指示其渗透细胞的能力。在早期,该模型提出miniproteins拉登与精氨酸,氨基酸,眼泪细胞膜上的一个洞,这并不是理想的细胞存活。为了解决这个问题,研究人员使用一个优化器decentivize精氨酸,保持模型从作弊。
最后,提出的解释能力预测模型是关键。“这是通常不够黑盒,因为模型可以只盯着是不正确的,或者因为它可以利用不完全现象,“Gomez-Bombarelli说。
在这种情况下,研究人员可以覆盖预测模型与生成的条形码代表序列结构。“做强调某些地区模型认为高活动发挥最大的作用,“Schissel说。“这不是完美的,但它给你集中区域玩耍。这些信息肯定会帮助我们在未来设计新的序列经验。”
交付提高
最终,更有效的机器学习模型提出了序列比任何先前已知的变体。特别是可以提高PMO交付的50倍。通过注射小鼠这些computer-suggested序列,研究人员验证他们的预测和证明了miniproteins是无毒的。
还为时过早这项工作将如何影响病人的,但是在很多方面更好的PMO交付将是有益的。如果病人暴露在低水平的药物,他们可能会经历更少的副作用,例如,或者需要更少的剂量(PMO静脉注射给药,通常每周)。治疗也可能变得不那么昂贵。证明这个概念,最近的临床试验表明,专有CPP Sarepta疗法可以减少对PMO的10倍。同时,PMO不是唯一miniproteins药物有望得到改善。在其他实验中,model-generated miniproteins进行其他功能蛋白进入细胞。
注意到机器学习的工作人员之间的脱节和实验化学家,MohapatraGitHub上的模型随着实验的教程,自己的序列和活动的列表。他指出,12人来自世界各地采用模型到目前为止,再利用它来做出自己的强大的预测范围广泛的药物。
这项研究是由麻省理工学院Jameel诊所,Sarepta疗法,MIT-SenseTime联盟、美国国家科学基金会。
参考: Schissel CK Mohapatra年代,沃尔夫JM,等。设计核靶向非生物miniproteins深度学习。 Nat化学 。2021:1-9。doi: 10.1038 / s41557 - 021 - 00766 - 3
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。