我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

高性能计算灾难恢复的圣杯是什么?


想要这篇文章的免费PDF版本?

填写下面的表格,我们会将PDF版本的“高性能计算灾难恢复的圣杯是什么?”

听与
喋喋不休地说
0:00
免费注册收听这篇文章
谢谢你!用上面的播放器听这篇文章。
阅读时间:

灾难恢复(DR)是确保在发生自然灾害、网络或硬件故障或人为错误时快速恢复组织的应用程序、数据和硬件的重要过程。在本文中,我们将探讨公共云如何使理想的DR成为现实。

尽管DR在计算诞生之初就出现了,但将其应用于研究计算的兴趣在大约十年前就开始激增。随着公共云的出现和可用性,人们对DR的兴趣重新燃起,更多参与研究计算的组织开始意识到DR的可能性。在高性能计算(HPC)中,对DR的需求随着学术界和研究组织中首席信息官的角色不断增加而出现,他们已经认识到HPC在维持组织运转中的价值和重要作用。

众所周知,使用HPC的前5%的商业组织在DR上投入了大量资金,并为位于异地数据中心的冷集群支付了高昂的价格,以便在可能发生灾难的罕见情况下使用。这种方法不仅会导致巨大的开销,而且还提出了如何确保冷集群保持最新且数据始终可用的挑战。

公共云带来了新的可能性

随着公共云的可用性,管理费用可以大大降低,组织不必预先购买所有硬件;因此,您可能会在公共云中拥有一些看起来非常像您的集群的东西。

在过去,研究机构利用主要的公共云厂商提供的软件作为服务,这些厂商提供了在其云上运行的一系列应用程序。这允许您的用户在灾难恢复场景中运行相同的应用程序。

但是,这种方法是有局限性的,因为您可能有相同的应用程序,但是您需要特定集群的应用程序的确切版本。例如,计算流体动力学公司可能确信ANSYS或OpenFOAM是在云上运行的,但这是他们实际版本的ANSYS吗?它是否拥有所需的确切库;它有同样的环境吗?你想要引入的最后一件事是额外的可变性层,如果灾难发生,在困难时期可能会发生什么。

HPC DR的终极目标是在需要时为您的HPC安装提供一个精确的镜像。因此,位于公共云上的DR集群与您的活动集群的环境完全相同;使用与正常情况下派生结果的应用程序相同的库和特定版本。

组织需要仔细检查他们想从DR服务中得到什么。他们需要问自己,这是一种替代服务,是一种完全相同的服务,还是立即从灾难中恢复?这些决定将对整合灾难恢复计划所涉及的成本产生巨大影响。

在灾难中管理数据存储

云计算中HPC容灾的一个主要挑战是数据存储。我们的许多客户都希望塑造他们的公共云战略,并利用公共云存储作为其存储基础设施的一层,以及DR战略。

如果您已经有了公共云策略,那么确保在正确的情况下拥有正确的数据集并不难。然而,如果你还没有一个公共云策略,它就变得更具挑战性。咨询经验丰富的系统集成商非常重要,他可以确定在紧急情况下您的数据可以转移到云中,或者更恰当地说,确保定期向公共云提供正确的数据,以便在紧急情况发生时,您已经在公共云中拥有数据。

镜像的好处

在公共云中复制现有的HPC基础设施不仅支持容灾,还可以在公共云上提供多个HPC系统,以满足不同的需求,无论是容灾、计划停机期间的破坏能力、测试、开发或扩展。例如,如果需要测试一项新技术或软件,可以在“镜像”(公共云上的HPC基础设施)上进行测试,如果运行成功,就可以将其引入本地HPC系统。

在HPC中增加了DR的需求

在过去的五年里,公共云的成本已经变得更容易接受,因此更多的组织也更容易获得它。在这段时间内,公共云平台提供的产品类型也大大扩展了。亚马逊冰川现在是一种常见的存储服务,大多数人都知道这是在公共云中存储数据最便宜的方式,所以人们现在希望利用这一点。

高性能计算灾难恢复现在可以成为现实。复制现有的HPC基础设施是每个运行高性能或研究计算的人都应该考虑的问题,因为数据和使用这些数据的能力是保持组织运行的关键。总有人担心成本问题,但重要的是要考虑在灾难发生时你真正需要什么。确定需求、优先级工作负载和优先级数据集是确保您拥有适当的DR的核心,特别是对于HPC。

Mahesh Pancholi是OCF高性能计算、存储和数据分析集成商的研究计算专家。

广告
Baidu