我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

模块化方法是生物信息学的前进方向吗?


想要一个免费的PDF版本的这个行业洞察?

填写下面的表格,我们会将PDF版本的“模块化方法是生物信息学的前进方向吗?”

188金宝搏备用科技网络有限公司需要您提供给我们的联系信息,以便就我们的产品和服务与您联系。您可以随时退订这些通讯。有关如何退订的信息,以及我们的隐私惯例和保护您隐私的承诺,请查看我们的隐私政策

在两部分博客系列的第一部分中,我们将与Misha Kapushesky博士讨论生物信息学模块化方法的优势Genestack.作为欧洲生物信息研究所的团队负责人,我们还了解了Misha从研究所到工业界的转变。


Ruairi Mackenzie (RM):当你还是一个团队领导的时候欧洲生物信息学研究所有没有遇到过什么挑战,让你有了创建Genestack的灵感?

米沙·卡普什斯基(MK):是的。当我2001年来到该研究所时,它才成立几年,我的第一个角色是程序员。我的首要任务之一是采用一组模块,也就是我们所说的数据管理器,并使它们在更广泛的意义上对社区可用,这样他们就可以自己进行简单的分析。我的第二项任务,是并行完成的,是整理公共数据,这样人们就可以访问数据,这样他们就可以进行分析。一个主要的挑战是把这两件事结合起来。一方面,我们有分析数据的工具,另一方面,我们有数据本身,基本上是压缩文件的存档。为了加入这两个工具,人们会下载zip文件,然后重新上传到这些工具中。当我成为团队领导后,我们建立的第一件事就是建立一种机制,允许他们检查档案中的数据,而不需要通过这个分析过程;这是一种代号表达图谱.这个工具真的是一个巨大的成功,这是第一个工具,一个大型的公共数据收集不仅仅是一个档案文件下载,而是真正的东西,你知道,你可以询问“这个基因何时何地活跃?””“在什么条件下?等等。

随之而来的挑战是“如何在这种情况下查看自己的数据?”制药公司开始问我们是否可以提供这种工具,这种环境,在本地进行分析。我们使之成为可能,我们将工具与数据一起分发,并提供一些支持。制药公司付给我们一些钱让我们在EBI做这件事。

我意识到,如果我能让这样的工具易于使用,那就太棒了。将数据与正确的分析工具放在一起并构建良好的交互式数据挖掘接口的基础设施是缺失的。我们在世界上做这件事最好的地方。

这就是促使我创办这家公司的挑战,因为SaaS提供商的最终工作不是开发可复制的基础设施;他的工作就是提供最优的数据。但我注意到,随着世界上数据量的增加和数据生产成本的下降,每一家制药公司、每一家生命科学研究机构、每一家生物技术公司、每一家消费品公司、每一家医疗机构都将面临同样的挑战。

我们花了三年的时间来建立第一个地图集,我想要有一个基础设施,我可以在一个演示会议上完成,你知道,在30分钟内。只要抓取这些模块,把它们拉到一起,然后,你就有了自己的表达式集。这就是它背后的动力。


RM:你认为模块化方法是许多科学家数据困境的答案——这种方法如何帮助?

可:拥有模块是至关重要的。这是我认为目前业界几乎所有人都认识到的事情之一,而拥有一个由相对独立和可替换模块组成的系统的原因是,它能给你灵活性,给你寿命,让你能控制系统的信息。

如果你看看在不同的研发组织中发生了什么,他们处于科学和技术的前沿,他们做事的方式,数据挖掘过程往往是过时和复杂的,所以到目前为止,他们基本上有两个选择。

一种选择是在内部构建一切。也许可以外包一些关键元素,但让我们构建自己的数据管理基础设施。然而,当它完成时,基础设施将不会考虑任何数据类型或工具已经出来,我们必须重新做一次。你不需要看很远就能看到这样的例子;就在上个月,在2018生物信息技术世界大会

所以,第二种选择是:你引入一个服务提供商,他为你创建了一个基础设施,这很好,因为你可以快速启动,这对服务提供商也很好,因为你被锁定了。你必须为此付出代价,因为移动数据既困难又昂贵。

因此,人们现在真正追求的是这两者的结合。这就是我们的选择权给你的。我们说的是,通过为你提供一组模块,你可以挑选,你可以为自己建立一个组学数据生态系统。

您可以创建非常灵活和可优化的数据架构。所以,我们采用最基本的,普通的,底层,我们的模块是紧凑的。这些是常见的用户路径,对于所有类型的数据管理来说都是基础,甚至不是特定于生物的。

然后我们为不同的路径开发单独的模块这些模块独立工作。事实上,如果你在研究基因组数据,如果你发现有一个比基因堆栈更好的模块,你就可以获取它。这意味着你可以使用自己的分析管道;你可以使用开源包;你可以使用像Spotfire这样的商业分析提供商。我们是相当不可知论的,我们提供了几个模块构建块,您可以使用它们来构建一个多层系统。

我们拥有与其他东西集成的能力,但关键是我们很容易引入捕捉新出现的数据类型的模块。如果说多元组学的世界有一个不变的规律,那就是它总是在变化。每隔两三年,仪器就会有新的进展。我们有了微阵列,然后我们进入了下一代测序,现在我们进入了单细胞分析的世界。所以,它是移动的,每两三年我们就会有一个新的东西。你每次都要开发新的模块。

我们有一个可以随着行业发展而发展的系统,它提供了一个灵活的数据架构,这意味着组织,在这种情况下,制药公司,可以控制我们提供的哪些部分他们可以使用,哪些部分他们可以从行业的其他部分引进。所以我认为这是一个重要的发展,提供第三种方法,介于定制供应商解决方案和内部构建之间。

Misha Kapushesky接受了技术网络科学作家Ruairi J Mackenzie的采访188金宝搏备用

与作者见面
Ruairi J Mackenzie
Ruairi J Mackenzie
高级科学作家
广告
Baidu