模块化方法生物信息学的发展方向吗?
在两部分的第一篇博客系列中,我们讨论模块化方法的优点与Misha Kapushesky博士,生物信息学的创始人和CEOGenestack。以前欧洲生物信息学研究所的团队领导,我们也了解美莎从研究所产业。
Ruairi Mackenzie (RM):当你还是一个团队的领导者欧洲生物信息学研究所你遇到的一个挑战,启发你设置Genestack ?
米莎Kapushesky(可):是的。当我2001年来到学院,它只有几岁了,我的第一个角色是作为一个程序员。之一,我的第一个任务是把一组模块,我们称之为数据管理者,让他们可以在更广泛的意义上说,社区,这样他们可以运行简单的分析。我的第二个任务,并行完成,组织公共数据,这样人们可以获得数据,这样他们可以做分析。和一个主要挑战是加入这两件事。一方面我们有工具来分析数据,另一方面我们有存档的数据本身的zip文件。加入他们两个,人们会下载zip文件,然后重新上传这些工具。当我成为团队的领导者,我们设置的第一件事是一种机制,允许他们询问坐在档案的数据,而不必把它通过这个分析过程;这是一个代码调用表达图谱。这个工具是一个主要的成功,是第一个工具在一个大型的公共数据收集不仅仅成为一个归档文件下载,但真正的东西你可以询问,你知道——问“这个基因活动是在何时何地?”“在什么条件下?”等等。
的挑战出现“如何在这种情况下我认为我自己的数据?“制药公司开始问我们是否我们可以让这个工具,这样的环境下,在本地可用来分析。我们可能和我们一起分发工具与数据,并提供一些支持。制药公司支付我们一些在EBI这样做。
我意识到什么是伟大的如果我能让这样的工具容易使用。的基础设施将数据和正确的分析工具,构建好的交互式数据挖掘接口失踪了。我们是世界上最好的地方。
这是那种挑战让我开始了这个公司,因为最终一个SaaS提供者的工作不是开发可复制的基础设施;他的工作是真的在为数据服务是最优的。但是我注意到的是,作为世界上数据量增加和数据生产的成本下降,每一家制药公司,每一个生命科学研究机构,每一个生物技术,每一个消费品公司,每一个医疗机构,将具有相同的挑战。
我们花了三年时间建造第一个阿特拉斯,我想要一个基础设施,可以在演示会话中,你知道,在30分钟。只有抓住这些模块,把他们在一起,恩,你有自己的表达图谱。这是其背后的推动力。
RM:你认为模块化方法是许多科学家的数据问题的答案——这种方法如何帮助?
可:有模块是至关重要的。这是其中之一,我认为现在业内几乎每个人都承认,为什么有一个由相对独立的系统和可替换的模块给你的灵活性,给你长寿和给你控制的信息系统。
如果你看看会发生什么在不同研发组织中,在科学和技术的前沿,他们做事的方式,数据挖掘的过程往往是过时的和复杂的,所以,到目前为止,基本上有两个选择。
一种选择是建立内部的一切。也许外包一些关键元素,但是让我们构建我们自己的数据管理基础设施。然而,在完成的时候不会考虑任何数据类型的基础设施或仪器,我们必须再做一次。你不需要费力就能看到这样的例子;好简洁的陈述有早在上个月2018年世界会议上看到你。
所以,第二个选择是:你将在一个服务提供者为你创建一个基础设施,它的好,因为你可以得到快速、服务提供者也很好,因为你被关起来了。你有支付移动数据是困难和昂贵的。
因此,现在人们真正追求的是这些的组合。这是我们的选择给你。我们要说的是,通过为您提供一系列的模块,你可以选择,你可以建立自己的组学数据的生态系统。
您可以创建一个非常灵活的和optimizable数据架构。所以,我们承担最基本的,常见的,我们的基本层和该模块紧凑。这些都是常见的用户路径对各种基本数据管理、甚至特定的生物。
然后我们为不同的路径,这些模块开发各个模块独立工作。事实上,如果你观察基因组数据,如果你看到有一个更好的模块比Genestack你可以抓住它。这意味着您可以使用自己的分析管道;您可以使用开源包;您可以使用商业分析提供者Spotfire等管道。我们很不可知,我们提供几个模块构建块,您可以用它来建立一个多层次的系统。
我们有这个能力整合与其他东西,但关键是,它很容易为我们介绍模块获取新的数据类型。如果有一个常数multi-omics世界总是改变。每两到三年,有一个新的进展都在仪器。我们有微阵列,然后我们去了下一代测序,现在我们在单细胞分析世界。因此,移动,每隔两三年我们有一个新事物。每次你必须开发新的模块。
我们有一个系统,可以发展工业,它提供了一个灵活的数据结构,这意味着组织,制药公司在这种情况下,在控制部分我们能提供他们可以使用,哪些部分可以从其他行业。所以我认为是一个重要的发展,提供有一个定制的供应商解决方案之间的第三条道路或建筑内部。
米莎Kapushesky与Ruairi J Mackenzie说,科学技术网络作家188金宝搏备用