利用机器学习自动化药物发现
传统的途径药物开发耗时长、成本高、失败率高——科学家测试了数百万个分子,但只有少数进展到临床前或临床测试。
拥抱创新,特别是自动化技术,对于降低与药物发现相关的复杂性,避免将药物推向市场所花费的高成本和时间至关重要。
药物研发自动化的兴起
结合自动化可以 使 寻找更便宜、更有效、更省时的药物。在过去的几十年里,新方法和新方法的使用有了巨大的增长 技术 在药物研发方面。
大量数据集和先进算法的可用性引起了人们更多的兴趣和关注 重大改进 人工智能(AI)在该领域的应用。人工智能可以在 药物开发的许多阶段 缩短了从靶标识别到临床试验的时间。
机器学习(ML)是人工智能的一个子集,是一个快速发展的领域 越来越多地被利用 许多制药公司。集成 毫升的方法 进入药物开发过程可以帮助自动化重复的数据处理和分析任务。
机器学习——做出数据驱动的决策
毫升的解决方案 都是基于大数据建模和分析。数据可以来自不同的来源(例如,数据存储库、内部实验和出版物),并且可以在格式上有所不同,这使得聚合、存储和准备数据进行分析具有挑战性,尽管这是必要的。
ML训练一个系统在没有任何外部支持的情况下自主地进行推理和决策。当系统从过去的经验中学习和改进时,就会做出决策——它从提供给它的数据中学习,并破译其中包含的相关模式。然后,通过模式识别和分析,系统提供“结果”,这可能是一个预测或分类。
ML任务大致分为 三个类别 :监督学习、无监督学习和顺序学习。ML中的数据可以是两种类型——有标记的和无标记的。
监督学习依赖于一个被标记的数据集,该数据集充当训练器,教授模型或机器。一旦经过训练,该模型就可以在接收到新数据时开始做出预测和决策。深度学习和支持向量机,通常用于生物学环境,属于监督学习。 深度学习 使用人工神经网络(ANNs)来识别大型数据集中高度复杂的模式。
无监督学习识别无标记数据中的关系或模式。该模型通过观察独立学习,并在数据集中创建观察到的模式和关系的集群。
顺序学习允许智能体(面向目标的实体)在交互环境中使用来自其自身操作和经验的反馈进行学习。顺序学习依赖于尝试和错误来做出一系列的决定。
用于药物研发的机器学习方法激增
ML方法可以是 应用 在早期药物发现的几个步骤中:
- 预测目标结构
- 识别和优化“点击率”
- 探索新配体的生物活性
- 设计模型来预测候选药物的药代动力学和毒理学特性
接下来的章节将重点介绍ML如何用于药物再利用和发现新型抗生素的例子。还将讨论ML策略在增强基于图像的分析和加速药物发现方面的应用。
连接您的药物发现工作流的自动化
药物发现通常被认为是一个复杂的拼图游戏,连接工作流程和数据是必不可少的部分。考虑到未来的实验室,一个灵活且完全集成的解决方案可以帮助您无缝连接工作流程和数据,从而有效地实现科学自动化。下载本指南,了解如何在不影响数据质量的情况下,增加超时时间,同时提高可再现性和生产率。
下载指南赞助内容
利用深度学习预测药物诱导的基因表达变化
DeepCE 是俄亥俄州立大学研究人员开发的一种新型深度学习计算机模型,有助于预测基因表达和药物反应之间的相关性。利用该模型,该团队已经确定了10种用于COVID-19的候选药物。两种药物(环孢素和anidulafungin)已获得监管机构批准;其余8种药物目前正在研究中,正在对不同的适应症进行测试。
DeepCE依赖于两个主要的公开数据来源:L1000和DrugBank。
- L1000是美国国立卫生研究院资助的数据存储库,为药物发现项目提供“药物签名”。药物特征被定义为当细胞暴露于药物中时,细胞内基因表达的变化。L1000数据集目前包含超过100万个化学(小药物分子)干扰人类细胞系的基因表达谱。细胞系代表器官组织,如肾脏和肺。
- DrugBank包含大约11000种已批准和正在研究的药物的化学结构和性质的信息。
通过将L1000数据与药物库中包含的药物化合物进行比较,研究人员可以预测一种药物对不同细胞系和不同基因的影响。然而,俄亥俄州立大学的研究小组面临着一个关键的挑战。L1000中的药物特征并不完整,只覆盖了潜在化合物的一小部分。对于L1000中没有出现的基因,该团队使用了深度学习方法。DeepCE模型是通过针对特定化合物及其剂量的算法运行整个L1000数据集来训练的。
“我们开发了一个深度学习模型DeepCE,使用一个图神经网络(将每种化合物的化学结构转换为一组向量,每个向量代表一个原子的局部子结构),一个多头注意力网(捕捉药物-基因相互作用和基因-基因相互作用)和几个前馈网络,将化学、基因和药物信息转换为药物诱导的基因表达谱。因此,我们能够将药物库中所有11,179种药物的预测基因表达谱与COVID-19患者的基因表达谱以及具有最负相关性的化合物进行比较。”解释平张,俄亥俄州立大学计算机科学、工程和生物医学信息学助理教授.
根据张的说法,“这种方法能够及时将药物重新用于COVID-19等未知疾病,这在当前的冠状病毒大流行和未来的突发公共卫生事件中非常有用。基于药物和疾病之间的桥梁理论,一旦我们从感染了SARS-CoV-2变体的患者那里获得疾病特征,我们就可以迅速对我们的预测进行重新排序,为新的患者队列提供更准确的建议。”
用深度学习方法扩大抗生素药库
耐抗生素细菌的迅速出现是一个问题 全球关注 .因此,迫切需要发现新的抗生素。专家 预测 如果不采取行动,到2050年,耐药疾病每年可能导致1000万人死亡。
为了应对这一挑战,一组 研究人员 在麻省理工学院(MIT)训练了一个深度神经网络,能够预测具有抗菌活性的分子。通过对多种化学库进行预测,研究人员发现了一种新型抗生素,他们将其命名为halicin。
Halicin的结构不同于传统抗生素和显示杀菌活性对广泛的系统发育谱的病原体,包括结核分枝杆菌耐碳青霉烯类肠杆菌科。
乔纳森·斯托克斯 他是麻省理工学院和哈佛大学博德研究所的班廷研究员,是这项研究的主要作者 发表 在细胞.Stokes详细阐述了他们如何识别halicin,“我们在大约2500个分子的集合上训练了一个深度学习模型,用于那些抑制halicin生长的分子体外大肠杆菌.这个模型学习了化学结构和抗菌活性之间的关系,这种方式允许我们向模型展示它从未见过的化学物质集,然后它可以预测这些新分子是否具有抗菌活性大肠杆菌不信。”
训练完成后,该模型在布罗德研究所的药物再利用中心进行了测试,该中心是一个包含约6000种化合物的库。该模型从文库中选择了一种被预测具有较强抗菌活性的Halicin分子。Halicin,一种最初被研究为抗糖尿病的药物,在数十种细菌菌株上进行了测试,发现对许多耐药细菌有效,包括艰难梭菌,鲍曼不动杆菌,结核分枝杆菌.Halicin也被发现有 低毒性预测 在人类身上。
ML模型可以探索,在网上这是一个巨大的化学空间,使用传统方法进行研究可能既繁琐又昂贵。根据Stokes的说法”,ML作为一种药物发现工具,可能会在我们如何发现新的抗生素方面发挥重要作用。作为一种预测工具,经过适当训练的模型将使我们能够探索广阔的化学空间在网上,足够大,我们无法在实验室里凭经验筛选这么多化合物。目前,我们可以在实验室中大规模筛选几百万个分子,相比之下在网上对数十亿种化合物的预测”。
ML方法可用于药物开发管道的每个阶段。Stokes说:“除了在临床前阶段发现新的抗生素的化学预测之外,我相信机器学习方法可以在药物开发管道的每个阶段显示效用——重要的问题是,我们作为科学家是否能够获得可接受的训练数据集,以训练模型,以便在药物开发的更高级阶段做出合理的预测。”
基于图像的药物发现分析
基于图像的分析 是一种将生物图像中的信息作为基于图像的特征进行处理、分析和提取的策略,然后将这些特征聚合成配置文件。可以挖掘这些图像配置文件以捕捉相关模式并揭示未预料到的生物活性,例如尚未探索的疾病机制——然后可以将这些重要信息应用于药物发现过程。
基于图像的分析可用于识别疾病特异性表型和探索疾病的机制。它还可以用来预测药物的活性,如作用机制和毒性特征。
安妮卡彭特 她是麻省理工学院和哈佛大学布罗德研究所成像平台的高级主管,她的生物学家和计算机科学家团队是开发图像分析和数据探索解决方案的先驱。
“基于图像的分析是强大的,因为查看图像中的模式可以加速药物发现管道的几乎每一步,从建立多样化而紧凑的化学文库到初级筛选分析,到表型筛选的目标反褶积,到生物标记物的识别和诊断。它甚至最近被证明可以通过从现有图像中虚拟预测一些生物活动来消除初级筛选的需要。”Carpenter解释说。
由于图像量的增加,研究人员已经开始利用 毫升策略 比如深度学习,以改善从基于图像的配置文件中提取相关信号,并加速药物发现。
“该领域的大多数原理证明实验都使用了经典的图像处理和机器学习技术,所以我认为,通过将深度学习方法应用于特征提取和预测,我们将看到该领域的快速加速。” 卡彭特说。
令人兴奋的可能性,但理解方法是关键
ML可以帮助科学家和加速药物发现途径。当ML与专家知识相结合时,可以 减少 减员率和提高药物发现过程。张勇阐述了它的潜力,数以亿计的潜在药物等待被发现。下一个伟大的抗病毒药物(或抗抑郁药或抗炎药)可能已经在实验室的某个地方,之前被忽视了(提出一些适应症需要很长时间)。深度学习可以告诉我们哪些化合物值得测试。”
人工智能为不同领域的新发现提供了令人兴奋的可能性;然而,采用这种技术是很困难的 仍然较低.充分发挥人工智能的潜力需要关键利益相关者之间的培训、信任和协调。