高性能计算灾难恢复的圣杯是什么?

文章

发布日期:2019年3月12日

|作者:Mahesh Pancholi, OCF研究计算专家。

想要这篇文章的免费PDF版本?

填写下面的表格，我们会将PDF版本的“高性能计算灾难恢复的圣杯是什么?”

名字*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

您是否希望收到来自技术网络的进一步电子邮件通信?188金宝搏备用

听与

喋喋不休地说

0:00

免费注册收听这篇文章

谢谢你！用上面的播放器听这篇文章。✖

阅读时间:

灾难恢复(DR)是确保在发生自然灾害、网络或硬件故障或人为错误时快速恢复组织的应用程序、数据和硬件的重要过程。在本文中，我们将探讨公共云如何使理想的DR成为现实。

尽管DR在计算诞生之初就出现了，但将其应用于研究计算的兴趣在大约十年前就开始激增。随着公共云的出现和可用性，人们对DR的兴趣重新燃起，更多参与研究计算的组织开始意识到DR的可能性。在高性能计算(HPC)中，对DR的需求随着学术界和研究组织中首席信息官的角色不断增加而出现，他们已经认识到HPC在维持组织运转中的价值和重要作用。

众所周知，使用HPC的前5%的商业组织在DR上投入了大量资金，并为位于异地数据中心的冷集群支付了高昂的价格，以便在可能发生灾难的罕见情况下使用。这种方法不仅会导致巨大的开销，而且还提出了如何确保冷集群保持最新且数据始终可用的挑战。

公共云带来了新的可能性

随着公共云的可用性，管理费用可以大大降低，组织不必预先购买所有硬件;因此，您可能会在公共云中拥有一些看起来非常像您的集群的东西。

在过去，研究机构利用主要的公共云厂商提供的软件作为服务，这些厂商提供了在其云上运行的一系列应用程序。这允许您的用户在灾难恢复场景中运行相同的应用程序。

但是，这种方法是有局限性的，因为您可能有相同的应用程序，但是您需要特定集群的应用程序的确切版本。例如，计算流体动力学公司可能确信ANSYS或OpenFOAM是在云上运行的，但这是他们实际版本的ANSYS吗?它是否拥有所需的确切库;它有同样的环境吗?你想要引入的最后一件事是额外的可变性层，如果灾难发生，在困难时期可能会发生什么。

HPC DR的终极目标是在需要时为您的HPC安装提供一个精确的镜像。因此，位于公共云上的DR集群与您的活动集群的环境完全相同;使用与正常情况下派生结果的应用程序相同的库和特定版本。

组织需要仔细检查他们想从DR服务中得到什么。他们需要问自己，这是一种替代服务，是一种完全相同的服务，还是立即从灾难中恢复?这些决定将对整合灾难恢复计划所涉及的成本产生巨大影响。

在灾难中管理数据存储

云计算中HPC容灾的一个主要挑战是数据存储。我们的许多客户都希望塑造他们的公共云战略，并利用公共云存储作为其存储基础设施的一层，以及DR战略。

如果您已经有了公共云策略，那么确保在正确的情况下拥有正确的数据集并不难。然而，如果你还没有一个公共云策略，它就变得更具挑战性。咨询经验丰富的系统集成商非常重要，他可以确定在紧急情况下您的数据可以转移到云中，或者更恰当地说，确保定期向公共云提供正确的数据，以便在紧急情况发生时，您已经在公共云中拥有数据。

镜像的好处

在公共云中复制现有的HPC基础设施不仅支持容灾，还可以在公共云上提供多个HPC系统，以满足不同的需求，无论是容灾、计划停机期间的破坏能力、测试、开发或扩展。例如，如果需要测试一项新技术或软件，可以在“镜像”(公共云上的HPC基础设施)上进行测试，如果运行成功，就可以将其引入本地HPC系统。

在HPC中增加了DR的需求

在过去的五年里，公共云的成本已经变得更容易接受，因此更多的组织也更容易获得它。在这段时间内，公共云平台提供的产品类型也大大扩展了。亚马逊冰川现在是一种常见的存储服务，大多数人都知道这是在公共云中存储数据最便宜的方式，所以人们现在希望利用这一点。

高性能计算灾难恢复现在可以成为现实。复制现有的HPC基础设施是每个运行高性能或研究计算的人都应该考虑的问题，因为数据和使用这些数据的能力是保持组织运行的关键。总有人担心成本问题，但重要的是要考虑在灾难发生时你真正需要什么。确定需求、优先级工作负载和优先级数据集是确保您拥有适当的DR的核心，特别是对于HPC。

Mahesh Pancholi是OCF高性能计算、存储和数据分析集成商的研究计算专家。