我们已经更新我们的隐私政策使它更加清晰我们如何使用您的个人资料。

我们使用cookie来提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

使用人工智能理解语言的分子

一个分子模型与反思一个黑暗的周围。
信贷:特里Vlisidis / Unsplash。

想要一个免费的PDF版本的这个新闻吗?

完成下面的表格,我们将电子邮件您的PDF版本“使用人工智能理解分子的语言”

听与
喋喋不休地说
0:00
注册免费听这篇文章
谢谢你!听这篇文章使用上面的球员。
阅读时间:

发现新材料和药物通常需要手册,试错的过程,可能需要几十年,花费数百万美元。来简化这个过程,科学家经常使用机器学习来预测分子性质和缩小他们所需要的分子合成和测试在实验室里。


麻省理工学院和MIT-Watson人工智能实验室的研究人员已经开发出一种新的、统一的框架可以同时预测分子性质和产生新的分子比这些受欢迎的深度学习的方法更有效。


教一个机器学习模型预测分子的生物或机械性能,研究人员必须显示它数以百万计的标记分子结构,这一过程称为训练。由于发现分子的牺牲和挑战的数以百万计的结构,图片是经过大量的训练数据集通常很难获得,这限制了机器学习方法的有效性。

想要更多的最新消息?

订阅188金宝搏备用的日常通讯,提供每天打破科学消息直接发送到您的收件箱中。

免费订阅

相比之下,该系统由麻省理工学院研究人员可以有效地预测分子性质仅使用少量的数据。他们的系统有一个基本的理解规则,规定如何构建块结合产生有效的分子。这些规则捕获分子结构之间的相似之处,这有助于系统生成新的分子data-efficient方式并预测它们的属性。


这种方法优于其他机器学习方法在这两个小型和大型数据集,并且能够准确地预测分子性质并生成可行的分子,当给定一个数据集只有不到100个样本。


“我们这个项目的目标是使用一些数据驱动的方法来加快新发现的分子,所以你可以训练一个模型预测没有所有这些昂贵的实验,”第一作者Minghao郭说,计算机科学和电子工程(电)研究生。


郭的合作者包括MIT-IBM沃森AI实验室研究人员Veronika Thost Payel Das和杰陈;麻省理工学院毕业生塞缪尔歌23和Adithya Balachandran”23日;教授和资深作者Wojciech Matusik电气工程和计算机科学和MIT-IBM沃森人工智能实验室的一员,他计算设计和制造集团在麻省理工学院计算机科学和人工智能实验室(权力)。这项研究将会在机器学习的国际会议。

学习语言的分子

与机器学习模型来实现最好的结果,科学家们需要训练数据集与数以百万计的分子,他们希望发现有相似的性质。在现实中,这些特定领域的数据集通常很小。因此,研究人员使用模型,在大型数据集pretrained一般分子,它们适用于一个小得多的,有针对性的数据集。然而,因为这些模型还没有获得特定领域的知识,他们往往表现不佳。


麻省理工学院的团队把一种不同的方法。他们创建了一个机器学习系统,自动学习分子的“语言”——被称为分子语法,只使用一个小领域特定的数据集。它使用该语法构建可行的分子和预测它们的属性。


在语言理论中,一个生成单词、句子、段落或基于一组语法规则。你能想到的一个分子语法相同的方式。是一组产生式规则,规定如何生成分子或聚合物结合原子和子结构。


就像一种语言的语法,可以生成大量的句子使用相同的规则,一个分子的语法可以代表一个巨大的分子数。相似的分子结构使用相同的语法规则,生产和系统学习,理解不了这些相似之处。


因为结构相似的分子通常有相似的特性,系统使用它的底层知识分子相似性更有效地预测新分子的性质。


“一旦我们有这个语法来表示所有不同的分子,我们可以使用它来提高性能预测的过程中,”郭说。


系统学习生产分子利用强化学习语法规则——一个试错过程模型的奖励行为,让它更接近实现一个目标。


而是因为可能有数十亿结合原子和子结构的方法,生产过程学习语法规则太计算的成本最小的数据集。


研究人员分离分子语法分成两部分。第一部分,称为metagrammar,是一个通用的、广泛适用的语法他们设计手动和给系统一开始。然后只需要学习一个小得多的,molecule-specific语法从域数据集。这种分层的方法加速学习过程。

大的结果,小数据集

在实验中,研究人员的新系统同时生成可行的分子和聚合物,并预测它们的属性更准确地比几个流行的机器学习方法,即使在特定领域的数据集只有几百个样品。一些其他方法还需要昂贵的pretraining一步,新系统可以避免。


这项技术尤其有效地预测聚合物的物理特性,如玻璃化转变温度,所需的温度从固体到液体材料转变。手动获取这些信息往往是非常昂贵的,因为实验需要极高的温度和压力。


进一步推动他们的方法,研究人员一个训练集削减超过一半——94个样本。他们的模型仍然取得的结果与整个数据集训练使用的方法。


“这是非常强大的基于语法的表示。因为语法本身是一个非常普遍的表示,它可以部署到不同的图像的形式的数据。我们试图确定化学或材料科学之外的其他应用程序,”郭说。


在未来,他们也想扩展他们目前的分子语法包括3 d几何的分子和聚合物,这是理解聚合物链之间的相互作用的关键。他们也在开发一个接口,将显示一个用户学习文法产生式规则和征求反馈正确的规则,可能是错的,提高系统的准确性。


本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。

广告
Baidu