构建蓝色大脑连接
开放获取而且数据来源这两个关键主题在现代科学研究中无处不在。尤其是在神经科学领域,有一天完全理解大脑的巨大挑战可能只有通过大规模合作才能完成。不仅仅是单个组织的实验室之间的合作,甚至是几个独立组织之间的合作,而是更大范围的合作。也许全世界成百上千的实验室可以结合和比较他们的数据来建立一个全面的大脑图像。这是EPFL的一部分,蓝色大脑Nexus背后的团队的愿景蓝脑计划教授领导亨利·马克莱姆.他们已经建立并仍在建立一个名为“蓝大脑Nexus”的数据集成平台,他们相信这个平台将实现这种协作。一个用于记录、管理、存储、描述和跟踪实验和计算神经科学数据的开放访问系统,其格式使数据能够在研究人员之间更好地进行比较。
从之前关于角色的对话开始蓝脑的神经信息学,我们采访了神经信息学软件工程和数据与知识工程部门经理塞缪尔·克里恩(Samuel Kerrien),讨论了蓝脑连接和数据来源的至关重要性。
杰克·路德(JR):你能给我们介绍一下蓝脑Nexus吗?
塞缪尔·克里恩(SK):蓝色大脑连接是将我们所做的一切联系在一起的关键因素。我们刚刚将这项技术开源,并在网上通过GitHub.现在每个人都可以使用我们正在构建的数据集成平台,我们对此感到非常自豪。该平台的核心是作为数据存储库的知识图谱,为研究人员提供存放实验和计算数据的地方。该系统还充当元数据目录,允许用户尽可能详细地描述他们的数据。该组件的一个重要特性是它与领域无关。这意味着它不仅仅适用于神经科学。当然,它将支持“蓝脑”的神经科学和其他潜在的研究所,但我们也设计了它,以便用户可以设计自己的领域。它可以用于从天文学到药理学发展的任何领域,这并不重要。你可以自由地设计你自己的实体,你自己的关系,并从那时开始记录你所关心的数据。我们觉得这是一些还没有被完成的事情,这是非常新颖的,我们希望我们能帮助神经科学引领这条路。
定义域是通过通过模式创建的实体结构来实现的。我们使用形状约束语言(SHACL一种由万维网联盟(W3C)定义的开放标准,它允许您真正描述想要存储在知识图谱中的实体以及它们与其他实体的关系。例如,如果我关心电生理学数据的记录,我可以创建一个域,其中有一个主题,我可以在其中描述我所关心的动物,包括它的物种、品系、年龄和性别。创建一个关系,比如大脑切片大脑切片是从这个主题衍生出来的。我可以这样继续,一个神经元来自大脑切片,也许电生理学数据集来自一个神经元。在这样做的过程中,我现在记录了我的数据集来自哪里,来自哪个特定的动物,来自哪个切片,来自哪个神经元。然后,任何人都可以询问该系统,以找到来自给定动物或给定切片或所有来自小鼠的数据集的所有神经元。你可以开始问一些有趣的问题。这就是为什么数据来源在蓝大脑被视为一等公民。我们希望我们的数据集成平台将有助于为社区中的其他人提供采用这种方法的机会。
我们目前正在设计一些这样的域,以促进特定数据集的集成。例如,特定数据在空间中的重新定位现在是很重要的。我们还专注于细胞电生理学记录和神经元形态重建,我们正在使用它们来构建我们的模拟。构建这些域是我们计划的一部分,我们将尽快将我们拥有的所有数据转移到Blue Brain Nexus。
将现有数据集集成到平台中是非常重要的,所以随着这些领域的成熟,我们开始将数据推送到Blue Brain Nexus中,供我们的科学家使用。这个数据集成平台对我们来说是一个重要的里程碑,我们已经在努力推广这项技术,让人们知道它是可用的。努力帮助新人适应新环境是很重要的。我们为我们所取得的成就感到自豪。
JR:你已经提到过几次出处了。为什么这是一个如此重要的概念?
SK:出处是我们跟踪数据来源的方式,也是跟踪您的数据如何被使用和派生到其他数据集的方式。你可以用一个电生理学数据集,开始训练一个数学模型,让它表现得像真正的神经元。你可以记录下这个模型的来源。反过来,这允许你通过查看谁生成了数据,他们使用哪种协议来生成数据来评估数据的质量。然后你就可以在你使用的数据中建立信任。如果沿着这条来源线索捕获了足够多的信息,它甚至可以让你重现特定的实验,正如我们所知,在科学中,这并不总是一件容易的事情。但是,我想强调的是,如果获取了足够多的信息,这就成为可能。将来源放在首位的另一个原因是允许数据和算法的归属,特别是在合作的情况下,承认所有的贡献是至关重要的,这是科学家高度重视的。最后,Blue Brain Nexus中的知识图谱也是一个语义搜索引擎,提供跨实体及其关系提出复杂科学问题的能力。这些搜索可能具有难以置信的深远意义,因为该系统是为处理非常大量的数据而构建的,并满足高使用率。 Properly recording provenance makes all of these features possible.
JR:你提到有很多不同类型的数据和数据源。这带来了什么挑战,你是如何克服这些挑战的?
SK:神经科学汇集了许多不同的科学领域,因此,该领域产生的数据的异质性非常广泛。这本身就是一个巨大的挑战。满足各种数据类型的需求绝对不容易。现在,当我们谈论数据量时,我想说有不同的方式来看待它。一种方法是查看单个数据集的绝对容量。绘制或重建大脑就是一个很好的例子。例如,我们今天拥有的一些最大的数据集,对单个小鼠大脑的成像可以为单个图像堆栈生成7到8 tb。明确地说,我说的是取大脑的切片,对其进行高分辨率成像,然后对其进行处理,以创建图像堆栈。所有这些数据都必须在以后进行处理,这本身就是另一个挑战。处理这种大型数据集并非易事。 Thankfully, technology is moving on, and now there are plenty of high performance computing frameworks, like Apache Spark, that provide an efficient framework to carry out this work. That’s one way to look at large sizes, a single dataset being really huge.
数据集也可以非常多,有很多很多的文件。电生理数据记录就是其中之一。在单个神经元上进行电生理学实验,很容易在短时间内产生上千条痕迹。的神经微电路实验室École理工学院Fédérale洛桑由Henry Markram领导的EPFL研究所已经生成这类数据集超过十年,导致数百万个数据集需要仔细集成,以便可以一起分析。这是你可以关注的另一件事——数据量和相关的挑战。数据集的总数,你必须照顾和集成到一个系统,是同样重要的。
到目前为止,我只提到了在实验室产生的数据,同样重要的是要记住,在蓝大脑也有我们生成的计算数据,即处理数据的结果。例如,我们的科学家最近通过追踪大脑切片上的神经元通路来生成神经元形态。为了创造更多我们在模拟中处理的神经元类型的多样性,有一个过程,包括重新创建大量特定类型的神经元,并有细微的变化,以创建更有机的模拟。为了实现这一点,你可以说是计算生成了数十万个神经元,这些都是需要注册的数据。在Blue Brain运行的所有模拟中,我们正在生成tb或pb级的数据,这取决于您想要添加到模拟中的神经元的确切细节和数量。
JR:有了这些数据,你们的团队是否能够参与到任何出版物中?
SK:除了专注于我前面描述的各种活动之外,我们还发表了关于文本挖掘和注释的论文。现在,随着蓝脑Nexus的开源,我们正在准备进一步出版我们的工作,这真的很令人兴奋。这是一个巨大的项目,我们已经做了好几年了,从今年年初开始,我们就把重点放在了平台的建设上。通过这些,我们积累了很多知识和经验,所以我们通过出版物将这些知识和经验传递给社会是很重要的。
JR:《Blue Brain Nexus》发布后,你和你的团队下一步打算做什么?
SK:除了发行游戏,我们还必须声明,发行《Blue Brain Nexus》远不是游戏的终点。在加强平台并将其部署到Blue Brain的生产中,仍有许多工作要做。我们已经建立了很多领域,这些领域将允许“蓝大脑”目前正在处理的所有数据细粒度集成到一个组织更好的系统中。大规模整合对于确保科学家直接获取整个项目的所有数据至关重要。目前,一些数据可能只是在一个记忆棒上共享或保存在本地,这阻止了其他科学家在项目的其他部分使用它。我想不是所有人都意识到整合所有数据需要做多少工作,将其推送到Blue Brain Nexus将是一项艰巨的任务。在构建数据集成平台时,我们已经开始了这项任务,但还有很多工作要做。我认为这将是我们今后几年的主要工作。但是,最终,我们应该能够把所有东西集中在一起,并为Blue Brain的每个人提供对所有这些数据的统一访问。
2018年1月11日,EPFL的蓝脑项目宣布了蓝脑Nexus的开源,你可以在这里阅读完整的故事。
Samuel Kerrien接受了技术网络高级编辑Jack的采访。188金宝搏备用