与机器学习自动化药物发现

文章

发表:2021年4月16日

Neeta Ratanghayra, MPharm

希望这篇文章的一个免费的PDF版本吗?

完成下面的表格,我们将电子邮件您的PDF版本“用机器学习自动化药物发现”

名字*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

你愿意接受进一步的电子邮件通信技术网络吗?188金宝搏备用

听与

喋喋不休地说

0:00

注册免费听这篇文章

谢谢你！听这篇文章使用上面的球员。✖

阅读时间:

传统的路径药物开发是漫长的、昂贵的和患有高失败率——科学家们测试数以百万计的分子,但是,只有少数临床前或临床试验进展。

拥抱创新,特别是自动化技术,是一种必不可少的可以减少复杂性与药物发现和规避相关的高成本和时间为市场带来一种药物。

自动化在药物发现的崛起

将自动化可以使寻找药物更便宜、更有效和更少的耗时。过去几十年见证了一个新方法的使用和戏剧性的增长技术在药物发现。

大规模数据集和先进算法的可用性已经更多的利益和推动的重大改进人工智能(AI)的使用。人工智能可以提供实质性的改进许多药物开发阶段从目标识别,减少了时间的临床试验。

机器学习(ML),人工智能的一个子集,是一个快速发展的领域越来越多地利用许多制药公司。集成毫升的方法在药物开发过程可以自动化重复的数据处理和分析任务。

机器学习,数据驱动决策

毫升的解决方案基于大数据的建模和分析。数据可以来自不同来源(例如,数据存储库,内部实验和出版物)和不同格式进行聚合,存储和分析准备数据挑战尽管是必要的。

毫升列车系统自主进行推断和决策没有任何外部支持。决策时,系统学习,提高了从过去的经验——从它提供的数据中包含和理解相关的模式。然后,通过模式识别和分析,系统提供了“结果”,这可能是一个预测或分类。

大致分为毫升任务三个类别 :监督学习、无监督学习和顺序学习。数据毫升可以两种类型——标记和未标记。

监督学习依赖于标签数据集,作为教练教学模型或机器。训练后,该模型可以预测和决策的新数据。深入学习和支持向量机,常用在生物环境中,属于监督学习。深度学习使用人工神经网络(ann)在大型数据集确定高度复杂的模式。

无监督学习识别的关系或无标号数据中的模式。独立模型学习通过观察并创建集群中观察到的模式和关系的数据集。

顺序学习允许一个代理,这是一个目标明确的实体,在交互式环境中学习使用自己的行为和经验反馈。连续的学习依赖于试验和错误做出一系列的决定。

机器学习的方法对药物发现激增

毫升的方法可以应用在早期药物发现几个步骤:

预测目标结构
确定和优化“点击”
探索新配体的生物活性
设计模型,预测药物的药代动力学和毒理学特性的候选人

接下来的部分将重点介绍如何使用毫升的例子为药物重定位和发现新的抗生素。毫升的应用策略来提高图像分析和加速药物发现也将被讨论。

自动化连接你的药物发现工作流程

药物发现通常被认为是一个复杂的拼图,连接工作流和数据是必不可少的部分。考虑到未来的实验室,一个灵活的和完全集成的解决方案可以帮助您无缝连接科学工作流和数据有效地自动化。下载本指南来发现如何增加轻易得到的胜利,同时提高再现性和生产力,在不影响数据质量。

下载指南

赞助内容

使用深度学习预测药物引起基因表达的变化

DeepCE ,小说深度学习计算机模型由俄亥俄州立大学的研究人员开发,有助于预测基因表达之间的相关性和药物反应。使用模型,团队已经确定十药物再利用COVID-19候选人。两种药物(环孢霉素和anidulafungin)获得监管部门的批准;其余八目前调查组和被测试在不同的适应症。

DeepCE依靠公开数据的两个主要来源:L1000 DrugBank。

L1000是一个国立Health-funded数据存储库,为药物发现提供“药物签名”项目。药物签名被定义为细胞时,细胞内的基因表达变化是暴露于药物。L1000数据集目前包含超过一百万个基因表达谱的化学(小分子药物)扰乱人类细胞系。细胞系代表的器官组织,如肾脏和肺。
DrugBank包含信息的化学结构和性质大约11000批准和试验性药物。

通过比较与药物化合物包含在DrugBank L1000数据,研究人员可以预测药物在不同细胞系的影响和不同的基因。但是,俄亥俄州立大学的研究团队面临的一个关键挑战。药物L1000内签名不完整,只覆盖潜在的一小部分化合物。L1000所没有的基因,研究小组使用了一个深度学习的方法。通过运行整个L1000 DeepCE模型训练数据集通过一种算法针对特定化合物及其剂量。

“我们建立了一个深度学习模型,DeepCE,使用神经网络图(每个化合物的化学结构转换为一组向量,每个代表一个原子的本地子结构),净多头关注(捕捉药物相互作用和基因基因相互作用)和几个前馈网翻译化学、基因和药物信息药物引起的基因表达谱。因此,我们可以比较预测基因表达谱中所有11179种药品DrugBank COVID-19患者的基因表达谱和所选化合物最负相关性,”解释平张,计算机科学与工程助理教授和俄亥俄州立大学生物医学信息学。

根据张,“这种方法使及时药物为未知的疾病,如COVID-19再利用,这是有用的在当前的冠状病毒大流行和未来突发公共卫生事件的事件。基于桥接药物和疾病的理论,一旦我们从患者感染疾病签名SARS-CoV-2变异,我们可以快速排名预测更准确的推荐新病人军团。”

扩大抗生素医疗设备与深度学习的方法

耐抗生素细菌的快速崛起是一个问题全球关注。因此,迫切需要发现新的抗生素。专家预测如果不采取行动,耐药性疾病可能是到2050年每年造成1000万人死亡。

为了解决这个挑战,一个团队的研究人员在麻省理工学院(MIT)训练深神经网络预测与抗菌活性分子的能力。通过执行预测在多个化学库,研究人员发现一种新型抗生素,halicin命名。

Halicin结构有别于传统抗生素和显示杀菌具有广谱杀菌系统发育谱的病原体,包括结核分枝杆菌和特拉肠杆菌科。

乔纳森·斯托克斯班廷研究员麻省理工和哈佛大学,是该研究的第一作者,这是最近发表在细胞。斯托克斯阐述了如何确定halicin,“我们训练有素的深度学习模型的集合~ 2500分子对于那些抑制的增长大肠杆菌在体外。这个模型学习了化学结构与抗菌活性之间的关系的方式允许我们显示模型组化学物质它从未见过的,它可以使预测这些新分子是否具有抗菌活性大肠杆菌不信。”

一旦训练,模型测试Broad研究所药物再利用中心,图书馆的~ 6000种化合物。从图书馆,模型选择的一个分子,Halicin,预计将有很强的抗菌活性。Halicin,具抗糖尿病药物最初调查,发现了几十个菌株进行了测试,对许多耐药细菌包括工作艰难梭状芽胞杆菌、鲍曼不动杆菌,结核分枝杆菌。Halicin也发现低毒性预测在人类身上。

毫升模型可以探索,在网上大型化学空间,可以使用传统的繁琐和昂贵的调查方法。根据斯托克斯”,毫升作为药物发现工具很可能会发挥重要作用在我们如何发现新的抗生素。作为预测工具,适当的训练模型将使我们探索广阔的化学空间在网上,这是足够大,我们将无法经验屏幕在实验室这个数的化合物。目前,我们可以屏幕可能几百万分子实验室大规模,相比在网上预测,达到数十亿化合物”。

毫升的方法可以利用药物开发每一阶段的管道。“超越化学预测发现新的抗生素在临床前阶段,我相信机器学习方法可以显示效用在药物开发管道的每个阶段,我们作为科学家的重要问题是可以接受的训练数据集,以培养能够做出合理的预测模型在药物开发的更高级的阶段,”斯托克斯说。

基于图像分析的药物发现

基于图像的分析是一个战略的信息存在于生物图像处理、分析和提取图像特征,然后聚合为概要文件。这些图像资料可以开采捕捉相关模式和揭示意外的生物活性,如疾病的未知的机制——这个重要信息可以应用在药物发现过程。

基于图像的分析可以用来识别特定疾病表型和探索疾病的机制。它也可以用来预测药物的活动,如作用机理和毒性。

安妮卡彭特高级主管的成像平台广泛的麻省理工学院和哈佛大学的,和她的团队的生物学家和计算机科学家先锋发展中图像分析和数据探索解决方案。

“基于图像的分析是强大的,因为看图片中的模式可以加速药物发现的几乎每一个步骤,从构建多元化而紧凑的化学库主要检查化验,为表型屏幕目标反褶积,生物标记的识别和诊断。甚至最近被证明能够消除需要一些生物活性的主要由虚拟筛选预测从现有的图像,”卡彭特解释道。

由于增长的图像,研究人员开始利用毫升策略像深度学习提高相关信号的提取图像资料,加速药物发现。

“大多数领域原理实验证明使用经典的图像处理和机器学习技术,所以我认为我们将看到一个加速领域运用深度学习特征提取方法和预测,“ 卡彭特说。

令人兴奋的可能性,但理解方法是关键

毫升可以帮助科学家和加速药物发现途径。毫升,结合专家知识时,可以减少消耗的速度,提高药物发现的过程。张阐述了它的潜力,“数以百万计的潜在药物等待发现。下一个伟大的抗病毒药物(抗抑郁或抗炎)可能已经在实验室,以前被忽视的(需要大量的时间提出了一些迹象)。深度学习可以告诉我们哪些化合物值得一试。”

人工智能提出了不同领域的新发现令人兴奋的可能性;然而,采用这种技术仍然较低。利用人工智能以充分发挥其潜力将需要培训、信任和关键利益相关者之间的协调。

基因组学研究