我们已经更新我们的隐私政策使它更加清晰我们如何使用您的个人资料。

我们使用cookie来提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

AI从头创建原始的蛋白质

蛋白质结构的3 d渲染,橙色和红色所示。
蛋白质结构的一个例子。信贷:学历/ Unsplash

想要一个免费的PDF版本的这个新闻吗?

完成下面的表格,我们将电子邮件您的PDF版本“人工智能从头创建原始蛋白质”

听与
喋喋不休地说
0:00
注册免费听这篇文章
谢谢你!听这篇文章使用上面的球员。
阅读时间:

科学家发明了一种人工智能系统能够生成酶。在实验室的测试中,这些酶以及那些在自然界发现的工作,即使他们的人工生成的氨基酸序列从任何已知的天然蛋白质差异很大。

实验表明,自然语言处理,尽管它是阅读和写作的语言文本,至少可以学习生物学的一些潜在的原则。Salesforce研究开发的人工智能程序,称为ProGen,它使用next-token预测组装进入人工蛋白质氨基酸序列。

科学家说这项新技术可能成为更强大的比定向进化,诺贝尔奖获得者蛋白质设计技术,它将激励50岁的蛋白质工程领域,加速开发新的蛋白质,可用于几乎任何东西,从治疗到降解塑料。

“人工设计执行比设计进化过程的启发,”说詹姆斯·弗雷泽博士,加州大学旧金山分校生物工程教授治疗科学学院制药、和作者的工作,1月26日出版自然生物技术。之前版本的论文已经在预印本服务器上可用BiorXiv2021年7月以来,获得了几十个引用在同行评审的杂志上发表。

想要更多的最新消息?

订阅188金宝搏备用的日常通讯,提供每天打破科学消息直接发送到您的收件箱中。

免费订阅
“语言模型是学习方面的进化,但它不同于正常的进化过程,”弗雷泽说。“我们现在有能力调整这些属性为特定的生成的影响。例如,一种酶,这种酶的令人难以置信的耐热性的或喜欢酸性环境或不与其他蛋白质。”

创建模型,科学家们只是美联储2.8亿种不同的蛋白质的氨基酸序列的各种机器学习模型,让它消化几周的信息。然后,他们调整模型通过启动56000序列从五个溶菌酶的家庭,以及一些关于这些蛋白质的上下文信息。

一百万模型快速生成序列,和研究团队选择100测试,基于他们像天然蛋白质的序列的紧密程度,以及如何自然的AI蛋白质的基础氨基酸“语法”和“语义”。

的第一批100蛋白,体外筛选Tierra生物科学,研究小组由五个人工蛋白质测试相比,细胞和他们的活动中发现的一种酶的白人鸡蛋,被称为母鸡蛋清溶菌酶(HEWL)。类似的溶菌酶被发现在人类的眼泪、唾液和牛奶,抵御细菌和真菌。

的两个人工酶能够分解细菌的细胞壁HEWL活动类似,然而他们的序列只有18%相同。两个序列的约90%和70%与任何已知的蛋白质。

只有一个突变在自然蛋白质可以让它停止工作,但在一个不同的轮筛选,研究小组发现,AI-generated酶表现活跃,即使只有31.4%的序列与任何已知的天然蛋白质。

AI甚至能够了解酶应该是形状,仅从研究原始序列数据。测量x射线结晶学、原子结构的人工蛋白质看起来就像他们应该,尽管序列就像没有见过的。

Salesforce研究开发ProGen 2020年,基于一种自然语言编程的研究人员最初开发生成英语文本。

他们知道他们以前的工作,人工智能系统可以教会本身语法和单词的意义,以及其他潜在的规则,使编写镇定。

“当你训练序列的数据模型有很多,他们真的很强大的学习结构和规则,“说Nikhil奈克,博士,人工智能研究主管Salesforce研究论文的资深作者。“他们学习什么单词可以共现,组合性也。”

与蛋白质,设计选择几乎是无限的。溶菌酶是小如蛋白质,氨基酸高达约300。但是可能有20个氨基酸,有一个巨大的数字(20 300年 可能的组合。这是大于人类住在所有的时间,乘以数量的沙粒在地球上,宇宙中乘以数量的原子。

考虑到无限的可能,值得注意的是,该模型可以很容易生成酶工作。

“从头生成功能蛋白质的开箱即用的能力表明我们正在进入一个新时代的蛋白质设计,”阿里Madani说,博士的创始人Profluent生物,Salesforce前研究科学家研究,论文的第一作者。“这是一个多才多艺的新工具可用于蛋白质的工程师,我们期待治疗应用程序。”


参考:Madani, Krause B,格林呃,et al。大型语言模型生成功能的蛋白质序列跨不同的家庭。生物科技Nat》。2023 doi:10.1038 / s41587 - 022 - 01618 - 2


本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。

广告
Baidu