对象存储如何帮助管理研究数据?
今天的“残羹冷炙”的基础数据可以明天的突破。作为我们保持较长时间的数据难以共享和重用数据,就关键的数据是准确的编目和容易获取。虽然一直被誉为救世主可伸缩性危机从文件系统对象存储仍然利基之外的网络级部署。
对象存储是什么? 对象存储是一种存储大量文件,而不必担心他们生活或管理一个文件夹的文件系统。对象存储可以分布在许多网站,包括全球。这确保数据依然可用即使在主要网站失败,可以允许更快的访问数据从远程位置。 |
并行文件系统很善于运营多个pb作为一个单独的文件系统,但对于一些的数据量正变得不是一个技术问题,而是一个人的问题。目录结构过于繁琐的用户导航和一个新的工作流是必要的。在这个空间,对象存储可以真正繁荣。
世界各地的
在OCF我们与许多对象存储厂商合作。许多使用擦除编码来减少开销的复制能力。当你要位置弹性,对象存储开始变得不可战胜。通常,当我们需要文件可用即使整个建筑脱机时,我们最终将数据存储至少三次,通常镜像副本的数据在两个不同的网站,定期与第三复制保存到一个单独的灾难恢复站点。three-site对象存储,擦除编码可以用来降低这三份大约1.7册。它通过把文件并生成一些奇偶校验位,这样每个站点存储文件的一部分,和足够的额外信息来填空如果一个网站的数据丢失。
最大的缺点是,如果使用擦除编码,每个站点没有对象的完整副本。当一个擦除编码对象检索,一个网站的网络传输和compute-overhead整个物体需要重新进行组装。结果-空间有效分散存储对象本质上是缓慢的。
团队合作
一个对象存储应该存储库或共享数据的方法。我们不应该试图替换文件存储对象,而是结合使用的优点来实现更多。
作为高性能计算(HPC)的专家和研究数据存储,我与HPC视图对象存储的帽子。在HPC的土地,许多最大的数据集是由科学仪器像高分辨率显微镜,光谱仪和测序。在基于对象的工作流中,这些工具生成的文件可以立即objectized,用适当的元数据标记研究员等项目,仪器设置,应该共享的数据采样和条件(例如根据一些资金的身体)。由此产生的对象然后摄取到保存的对象存储。
如果研究人员需要重新输出他们能做的,他们可以很容易地缓存整个项目在本地系统上。
与数据记录在一个对象存储解决方案的元数据管理系统,它可以发布和共享,给研究人员想要更多的数据没有额外的资金能够查询过去的项目类似的仪器和样品。
集成高性能计算
尽管对象商店往往是太慢了高性能计算资源,有效地支持programmatical自然对象的接口允许他们进入HPC工作流集成。
HPC系统通常由一个集群的计算服务器共享高速文件系统被称为存储。调度程序粘用于很多计划和开始计算在计算服务器上工作。经常调度器可以设置的前期准备数据,复制数据的工作需要到集群的划痕存储,调度运行工作之前做好了准备。对象存储解决方案提供一个API(应用程序编程接口)来访问数据,这使得它简单的所需的文件被复制的对象存储的一部分作业提交脚本。
同样,任何输出写入HPC的临时文件存储可以组装成一个对象,并发布到对象存储在工作完成之后。对象不仅可以标记日期-时间,但也包括任何输入参数并提交脚本,让研究人员管理和定位更容易从许多相似但不同的迭代输出。
推动人工智能
越来越多的我们的生命科学的客户采用人工智能(AI)和基于对象的工作流就太好了。对于人工智能,您通常需要大量的数据,通常不止一个从业者可以生成。
把成千上万的输出文件的能力,标记是什么采样和从潜在的数以百计的观察项目,将是一个宝库的人工智能研究人员想要扩大自己的数据集。
总之,尽管我没有预见到对象存储替换文件存储为活跃的研究数据,他们提供了杰出的方法来管理和有效地保护数据,在地理上分散的解决方案programmatical接口以支持研究计算系统。
马丁·埃利斯是一个售前工程师OCF