大数据分析方法对药物发现

文章

发表:2019年1月18日

乔安娜•欧文斯博士

希望这篇文章的一个免费的PDF版本吗?

完成下面的表格,我们将电子邮件您的PDF版本“大数据分析的方法对药物发现”

名字*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

你愿意接受进一步的电子邮件通信技术网络吗?188金宝搏备用

听与

喋喋不休地说

0:00

注册免费听这篇文章

谢谢你！听这篇文章使用上面的球员。✖

阅读时间:

大数据一直是流行词在药物发现,但随着分析方法越来越复杂,其潜在的开始实现。我们看的一些最新进展为药物发现大数据分析。

基于图像的细胞分析

安妮卡彭特博士的实验室广泛研究所是致力于确保生物学家可以得到最多的图像来解决任何问题或疾病领域工作。

”的一部分工作是针对取代一些生物学家做单调乏味的工作,”木匠说,“而大数据挖掘是专注于做生物学家可以做,即使他们有无限的时间。”

实验室开放著称的工具CellProfiler和CellProfiler分析师所使用的许多顶尖的制药公司,允许用户来衡量,我和交互式地探索形态数据从图像复杂的生理样品在高吞吐量。

“例如,如果你想找到能够控制肺结核药物,”卡彭特解释说,“你可以在培养皿中感染细胞,然后测试十万个药物对细胞。然后您可以使用CellProfiler分析这些细胞的图片,看看哪些感染。”

同样,它能找到小说患病和健康细胞形态学差异。“如果我把图像从双相情感障碍患者的细胞和细胞从匹配控制,我可以问“这些群体有什么区别?假设我们发现了一个独特的线粒体表型,这告诉我们处理的能量细胞与双相情感障碍。“你不仅了解可能的机制是什么,你现在有一个与疾病相关的形态学表型筛选成百上千的药物。

这种方法已经显示临床的承诺。递归制药、建立在广泛研究所开发的相关技术,已经有两个临床候选人脑海绵状畸形和神经纤维瘤病2型,是与武田发现罕见病药物使用人工智能。

此外,CellProfiler通过个性化药物对患者有直接影响。“研究人员在维也纳在临床试验中使用我们的软件,¹从病人肿瘤细胞,生长在一道菜,然后测试数百种不同的人类治疗每个病人样本,”木匠说。“然后他们使用我们的软件来测量细胞是否应对这些药物。很酷CellProfiler有直接的影响。”

机器学习和深入学习

机器学习依赖于被许多例子显示的数据和被给予“正确”答案的数据。算法学习如何预测正确答案为一组新的数据基于以前的经验。

在经典的机器学习是一个中间步骤,涉及人类用户决定哪些特性可能是有用的分析。但这是限制,因为我们可能无法捕捉的一切可能。

深度学习是机器学习的一个独特分支,以原始形式的数据和查找模式,没有之前的“知识”。

在图像分析中,例如,一个经典的机器学习方法将识别细胞和测量很多关于细胞的特性,如识别核心区域,或测量有多少绿色或蓝色染色。,该算法可以告诉用户哪些细胞特定疾病。

深度学习的算法不知道核区域或染色与这种疾病。它可以识别一长串的特性但可能会错过一些东西。所以,深度学习使用图像的像素和寻找规律。

再利用基于图像的分析,寻找新的药物靶点和机制

雨果Ceulemans博士在詹森研发、科学计算科学主任,领导是谁,一个科学家小组得出的数据应用机器学习和人工智能在小分子药物发现的支持。他的团队最近发表的数据显示,它是可行的,把现有的基于图像的分析来探索新的目标和化学空间。²

“传统观点认为,如果你建立一个定制的图像分析与一定的机制或目标,生成的图像的运动只会通知这些目标或机制设计,“Ceulemans解释道。”,但如果你认为,使用的细胞图像分析主机成千上万的目标除了你看着,和所有这些目标都暴露在化学在屏幕上。许多这些目标和机制将转化为形态变化。如果你干扰这些目标或机制,即使你没有打算,它将触发改变你可以看到用显微镜。这正是我们努力我的。”

在最近的研究中,研究小组将一组化合物和不看着化学,而是在显微镜图像的分析设计一个机制。然后他们交叉将这与其他验证分析——一个特定的药物问题活动一系列目标和机制以前回答。

他们发现一组图片告诉数以百计的验证分析结果,原始图像的屏幕没有设计。

”这意味着什么,如果你现在开始一个新的药物发现项目,需要评估药物在一个昂贵的生理测定如干细胞,可以开始分析的一套小点的,然后问,“已经存在广泛的图像数据集填补空缺吗?”。的图片我们有成千上万,数百万在某些设置,文档的化合物,我们可以更大的化学空间”。

更多元化的化学,更大的药物发现的起点,和更大的机会的药物会使它在整个管道,Ceulemans解释道。虽然这样的机器学习永远不会取代生理分析,它可以大大降低实验的数量需要在那些复杂的模型。

数据科学家们总是在寻找其他类型的数据,存在或可能产生潜在的合作,Ceulemans说。他看到一个新兴的角色——大数据分析不仅可以用于帮助选择现有的化合物来测试,但也可以用来提出新颖的化合物首先使,然后测试。

“这些数据点的成本更高因为化学合成不是免费的。人工智能可以使一个更大的影响。虽然这是困难的,最新的方法正变得越来越强大。除此之外,我们看到一个新的世界,我们不仅会帮助药物发现选择现有的化合物和提出新的,还提供指导如何合成。”

大数据机器学习做好准备

在牛津大学的布莱恩·马斯登博士的团队正致力于大数据的不同方面,它是如何捕获、管理和提出了应用机器学习技术。他的团队的一部分结构基因组学协会(国网公司),世界领导人在解决人类蛋白质的结构。他们生产的数据不是经典大数据,如图像或大套组学数据,但它是高度复杂的数据显然不适合数据挖掘。

使用一个叫做钻石光源在牛津郡的组织,他们进行fragment-based筛查对人类蛋白质的目标识别潜在的绑定,可以发展成为化学探针或药物先导物。这些屏幕产生数以百计的数据集在一个短的时间。

“数据集是非常复杂的,因为他们显示化合物是否已绑定,而重要的是感兴趣的以及它们如何结合蛋白质,“马斯登解释道。“可能有数百,甚至数千人,这些信息一起给我们一个指纹的蛋白质我们可能会发现制药的空间。”

一般来说,这些数据需要分析计算化学家谁会单独看每一个结构。“他们需要一个很好的记忆,发现模式。当你有一百的这些东西你必须很好甚至远程定位模式的机会。”这就是机器学习擅长,马斯登的目标是采取的结构蛋白质分子结合,像一个图像,转换成表示。

“我们正在做的一件事是我们是否可以使用机器学习,特别是深度学习,识别哪些片段最好绑定,因此哪些我们应该沉化学资源,把它们变成化学探针或甚至导致分子。”

“深度学习算法非常适合图像分析,寻找细分或模式匹配。对我们来说是很有意义的尝试和代表我们的问题一样,电脑可能会看到图像,即使它看起来不像一个图像。然后我们可以直接插入现有的机器学习算法,而不是重新发明轮子和提出一个具体的解决我们的问题。”

在药物发现的未来大数据

大数据分析在药物研发提供比宣传更希望这些天,但仍存在需要解决的挑战。

“已经有很多人在应用这些方法在临床汇挖掘临床数据,“Ceulemans评论。“但目前可用的数据量已经比发现领域的限制。“直到现在,即使分子信息或序列信息收集的审判将是病人最多只有几百。但随着基因组测序成本的降低有几个计划连接分析病人材料大规模临床信息。

“我看到很多工作我描述之间的同源性的发现,我们尝试匹配最有前途的相关分析,“Ceulemans说。”在这种情况下它将匹配最佳治疗患者或患者匹配试验。以前的数据量已经具有挑战性但我认为我们附近的点与数据集数据挖掘分析将开始牵引的地方。”

另一个持续的挑战,站在使用机器学习的方法是质量和标准化的数据,马斯登说。“五年前,我们谈论的是机器学习作为一种新的方式来处理所有的数据我们有坐在档案。我们认为我们只需要把数据转换成一个机器学习工具,它将解决我们所有的问题。“然而,数据是否已被证明过于嘈杂的规范化的方式自然使用的机器学习算法。

“我认为人们意识到这一事实的挑战仍然存在在如何创建数据集清洁、连贯和可比性。机器学习仍然是一个伟大的办法但是人们不得不思考他们尝试和捕捉复杂的数据。”

引用

1。Snijder Bet al。基于图像的体外药物筛选咄咄逼人的血液学的恶性血液病患者:从一个单臂中期业绩,非盲、试点研究。柳叶刀Haematol。2017;12日,595 - 606
2。Simm Jet al。再利用高通量图像分析使生物活性预测药物发现。细胞化学杂志。2018;25日:611 - 618

信息学

信息学