构建蓝色大脑联系
开放获取和数据来源现代科学研究,两个关键主题。尤其是在神经科学的大挑战一天完全理解大脑是可能只有通过大规模协作。不仅仅是实验室在一个组织之间的合作,甚至在几个单独的组织,而是在一个更大的规模。甚至成百上千的实验室,在世界范围内,可以结合和比较他们的数据建立一个全面的大脑的图片。这是背后的团队蓝色大脑的视觉关系,欧洲职业足球联盟的一部分蓝脑计划教授领导的亨利·马克莱姆。他们建造的,仍然是建筑,一个名为“蓝脑关系”的数据集成平台,他们认为将使这种合作。开放获取的系统记录,组织,存储、描述和跟踪实验和计算神经科学数据的格式,使数据比研究人员。
从早期的讨论后的角色neuroinformatics蓝色大脑部分经理,我们采访了撒母耳Kerrien Neuroinformatics软件工程和数据和知识工程,蓝脑关系和至关重要的数据来源。
杰克陆克文(小):请为我们提供一个概览的蓝色大脑联系?
撒母耳Kerrien (SK):蓝色大脑的关系是关键因素,连接我们所做的一切。我们刚刚开源技术,使它在网上公开,通过GitHub。现在每个人都可以使用我们正在构建的数据集成平台,我们很自豪。这个平台是一个知识图的核心,作为一个数据存储库,为研究人员提供存款的地方他们的实验和计算数据。系统还可以作为元数据目录,允许用户将他们的数据尽可能多的细节。这个组件的一大特点是,它是不可知论者的领域。这意味着它不仅仅是建立神经科学。当然,它将支持神经科学蓝色大脑和潜在的其他机构,但我们也设计好了,这样用户可以设计自己的域。它可以用于任何从天文学到药理学的发展,它并不重要。你可以自由设计自己的实体,自己的人际关系,从那时起开始记录你所关心的数据。我们觉得这是尚未完成,这是小说,我们希望我们将帮助神经科学引导。
定义的结构域是通过实体创建的模式。我们使用形状约束语言(SHACL)开放标准定义的World Wide Web Consortium (W3C),允许您真的要存储描述实体的知识图以及与其他实体的关系。举个例子,如果我是关心电生理数据的记录我能创建一个域,一个主题,我可以描述我关心的动物包括其物种,应变,年龄和性别。创建一个关系,一个大脑切片,大脑切片更从这个话题。我可以继续像这样,一个神经元来自大脑切片和电生理学数据集来自一个神经元。这样做我现在记录我的数据从何而来,从特定的动物,从这片,从神经元。任何人都可以查询系统发现所有的神经元从给定的动物或一个给定的部分或全部的数据集来自老鼠。你可以问有趣的问题。这就是为什么数据来源作为一个一流的公民在蓝色大脑。我们希望我们的数据集成平台将帮助其他人在社区提供机会采用了这个方法。
我们正在设计一个数量的这些领域促进特定数据集的集成。例如,特定的数据在空间的重新定位的重要性。我们也有一个专注于细胞电生理学记录和神经元形态学重建我们使用来构建我们的模拟。建设这些领域是我们计划的一部分我们手头的所有数据移动到蓝色大脑联系尽快。
现有数据集的集成到平台是非常重要的,我们这些领域成熟开始将数据推送到蓝脑关系使它可用于我们的科学家。该数据集成平台对我们来说是一个重要的里程碑,我们已经在努力促进技术和让人们知道它是可用的。试图促进新员工的新员工培训是非常重要的。我们很自豪我们取得了。
JR:你提到过几次出处了。为什么这是一个重要的概念?
SK:出处是我们如何跟踪数据的来源以及跟踪您的数据是如何被使用和应用到其他数据集。你可能需要一个电生理学数据集,开始培训一个数学模型来像真正的神经元。你可以记录该模型从何而来。反过来这允许您评估的质量数据通过查看生成的,该协议用于生成。然后你可以建立信任在您使用的数据。如果足够的信息已经沿着这起源跟踪捕获它甚至允许你复制特定的实验,我们知道在科学并不总是一件容易的事情要做。但是,我想强调,如果捕获足够的信息成为可能。出处至上的另一个原因是让数据和算法的归因,尤其是与协作,承认所有的贡献,是至关重要的科学家的价值高的东西。最后,蓝色大脑中的知识图的关系也是一个语义搜索引擎提供的能力问复杂的科学问题在实体及其关系。这些搜索可以非常深远的系统构建处理大量数据,满足高使用率。 Properly recording provenance makes all of these features possible.
JR:你有提到有很多不同类型的数据和数据来源。什么挑战现在和你如何努力克服它们?
SK:神经科学是汇集了许多不同领域的科学,因此,数据的异构性生成的领域是非常广泛的。这本身是一个巨大的挑战。绝对是不容易满足各种数据类型。现在,当我们讨论的数据量,我想说有不同的方式来看待这个问题。一种方法是看大量的单个数据集。阿特拉斯或重建学习的大脑是一个很好的例子。我们今天最大的一些数据集例如,大脑成像一个鼠标可以为单个图像生成7到8 tb堆栈。需要澄清的是,我说的是片大脑,在高分辨率成像,然后处理它们创建一个图像栈。所有这些数据必须被处理后,这是另一个挑战。处理这类大型数据集不是微不足道的。 Thankfully, technology is moving on, and now there are plenty of high performance computing frameworks, like Apache Spark, that provide an efficient framework to carry out this work. That’s one way to look at large sizes, a single dataset being really huge.
数据集也可以有非常大的数字,和许多,许多文件。电生理记录的数据是这些案件之一。一个电生理学实验在单个神经元可以很容易地在短时间内产生一千痕迹。的实验室的神经在洛桑联邦理工微型电路技术(EPFL)研究所,由亨利·马克拉姆已经生成这种数据集十多年了,导致数百万的数据集需要仔细综合一起,这样就可以分析了。这是另一件你可以看看——数据量和相关的挑战。数据集的总数,你必须照顾和集成到一个系统,也同样重要。
到目前为止,我只提到数据在实验室里产生,同样重要的是要记住,在蓝色的大脑也有计算数据生成即处理数据的结果。例如,我们的科学家最近通过追溯生成神经元形态大脑神经元通路的片。创造更多不同类型的神经元处理我们在模拟过程,涉及重新创建特定类型的神经元大量有机模拟创造更多微妙的变化。携带出来你可以谈论成千上万的神经元产生计算再一次,这是所有数据,需要注册。在所有正在运行的模拟在蓝色大脑我们生成字节或潜在pb的数据,根据具体细节和神经元的数量你想要添加到您的模拟。
JR:所有的数据,您的团队能够参与出版物吗?
SK:除了关注了前面介绍的各种活动,我们发表了论文文本挖掘和注释。现在的开源蓝色大脑联系,我们准备进一步出版物我们的工作,这是非常激动人心的。这是一个巨大的项目,我们已经工作好几年了,我们在很大程度上集中建设今年从早期的平台。通过这个,我们积累了大量的知识和经验,这是很重要的,我们转移到社区通过出版物。
JR:接下来是什么对你和你的团队现在蓝脑关系已经被释放?
SK:除了出版,是很重要的国家释放蓝脑Nexus远未结束的游戏。大量的工作有待完成,加强平台,并将其部署到生产蓝色大脑。我们已经建立了很多领域,将允许所有数据的细粒度集成蓝色大脑目前处理成一个系统,最好是有组织的。大规模集成是至关重要的在确保科学家得到直接访问所有的数据来自这个项目。目前,一些数据可能只是共享记忆棒或在本地保存,这就避免了被其他科学家利用其他地区的项目。我想并不是每个人都知道多少工作进入集成所有的数据,把它变成蓝色大脑关系将是一个巨大的任务。一个任务,我们已经开始为我们构建数据集成平台,但还需要做更多的工作。我认为这将弥补我们工作的大部分。但是,最后,我们应该能够将一切联系在一起,并提供统一的访问这些数据在蓝色大脑的每个人。
2018年1月11日,欧洲职业足球联盟蓝脑计划宣布开源蓝色大脑联系,你可以在这里阅读完整的故事。
撒母耳Kerrien说杰克,资深编辑技术网络。188金宝搏备用