我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

南非CHPC如何应对应对COVID-19大流行的前所未有的计算需求

南非CHPC的Lengau超级计算机和OpenStack生产云正在重新定义计算资源的前进道路。由南非大学提供。

想要这篇文章的免费PDF版本?

填写下面的表格,我们会将PDF版本的“南非CHPC如何应对应对COVID-19大流行的空前计算需求”

听与
喋喋不休地说
0:00
注册免费收听这篇文章
谢谢你!用上面的播放器听这篇文章。
阅读时间:

南非高性能计算中心(CHPC)已经加入了融合超级计算和云基础设施的高性能计算中心的行列。每秒1.3千万亿次Lengau超级计算机一直是欧洲大陆上速度最快的机器。在2020年初添加其OpenStack生产云,允许用户开始利用协调的通用计算和存储资源。但是,当南非于2020年3月26日因COVID-19而实行封锁时,该国的计算需求远远超过了Lengau和OpenStack生产云提供的资源。

CHPC的超级计算


作为非洲大规模计算的一个重要中心,南非CHPC支持学术和工业研究,最近参与了识别SARS-CoV-2南非变体的工作。安装于2016年的Lengau集群及其Lustre并行文件系统已被用于几个具有超级计算级资源的旗舰项目,包括高级天气模型 储能材料,以及猫鼬数组.它还向商业项目提供资源,以支持通过南非发展合作组织以及非洲其他国家,包括加纳和肯尼亚。2017年,CHPC加入平方公里阵列(SKA)为项目提供计算能力SKA的科学数据处理器(SDP).SKA的大部分正在南非建造。


艺术家对平方公里阵列(SKA)天线5公里直径中央核心的印象(作者:SPDO/TDP/DRAO/Swinburne Astronomy Productions,由南非大学提供)。

自从Lengau安装以来,越来越多的CHPC研究和行业用户已经影响了CHPC的计算环境,需要重新审视他们的基础设施。

“除了超级计算,研究人员还需要非高性能计算的通用计算支持,”高性能计算资源技术经理Dora Thobye说。“他们想要远程存储数据,所以他们需要一个更典型的处理和存储环境,而不是Lengau和Lustre并行文件系统。”

CHPC开始通过在VMware虚拟机上构建的虚拟化环境来满足这些需求,同时仍然使用Lustre。但是根据CHPC的说法,不断增长的需求阻塞了Lustre文件系统,这使得Lengau的性能降低了30%到40%。解决存储挑战让CHPC架构师走上了不同的方向。

CHPC主任Happy Sithole博士解释说:“就像大型强子对撞机的Atlas探测器的数据一样,SDP数据的计算将在许多国家和用户之间共享。”

支持Atlas的计算模型基于云服务,这将CHPC引向了内部部署的私有云。

“考虑私有云有几个原因,”Sithole说。“因为我们支持许多政府和企业,所以我们需要解决他们的问题,比如实例将部署在哪里以及数据主权。我们希望对其架构、访问和安全性有更好的控制。私有云的选择让我们的利益相关者更有信心。”

与剑桥大学的英国科学云(也是SKA项目的主要成员)一样,CHPC云是在OpenStack和OpenStack CEPH存储软件上构建的。

“OpenStack为世界各地的用户提供了一个透明的环境来分析SDP数据,”Sithole补充道。OpenStack为我们现有的异构计算需求和未来融合的基础设施提供了基础,这些基础设施可以同时提供超级计算和通用服务。”

新系统构建在Supermicro TwinPro服务器上,采用第二代英特尔至强可扩展处理器,每个节点有3tb内存。1.5 pb的机械磁盘和超过220 TB的Intel SSD驱动器创建了一个具有分级存储架构的CEPH存储集群,用于短期和长期存储。

Thobye评论道:“新的云系统旨在支持许多与正在进行的研究相关的虚拟工作,比如自定义工作流、令人愉快的并行工作负载和网络托管。”

CHPC技术人员于2020年3月23日投入使用,开始将用户从VMware系统迁移到新的OpenStack生产云系统。然后,在2020年3月26日,由于COVID-19,该国进入封锁状态,一切都改变了。

应对大流行


政府的各个机构都在争夺计算能力。卫生部需要大量的计算和存储资源来处理人口跟踪和追踪以及其他相关数据。高等教育和培训部需要资源来解决远程学习项目,再加上电视空白分析和可用带宽分析,以达到边远社区。bet188真人解决SARS-CoV-2研究的其他计算和数据密集型项目包括DNA测序和病毒研究。Lengau得到了尽可能多的利用,但是OpenStack生产云(最初为更少的用户群体设计了足够的资源)却不堪重负。

Thobye解释说:“由于大流行以及它给我们带来的所有新用户,我们的计算和存储资源即将耗尽。”

CHPC向英特尔和戴尔寻求帮助,以升级他们全新的云系统。OpenStack生产云扩展包括以下内容:

· 15个新的计算节点使用Dell PowerEdge R640服务器和Intel Xeon Gold 6248处理器

· 26个新的存储节点,使用Dell PowerEdge R740XD2服务器,配备Intel Xeon Silver 4208、4210和4214处理器

· 60tb热数据存储,采用Intel SSD DC硬盘

· 480tb的机械存储

此次扩容于2020年年中完成,并投入生产,总容量为2212个计算核,1.3 PB的冷存储和130tb的热存储(英特尔ssd)。现有OpenStack生产云基础设施之上的额外存储和计算能力为用户提供了所需的资源和响应时间。

Sithole博士评论道:“工作负载现在消耗60%到100%的计算能力,这取决于活动。

扩展后的云支持高等教育和培训部、卫生部、大学研究以及其他公共和私人项目正在进行的大流行活动,以满足大流行的需求。但这也为南非CHPC的未来铺平了道路。

开辟了新的前进道路


世界各地越来越多的高性能计算中心正在创建混合基础设施。计算密集型的并行性能集群正在与数据分析、人工智能/机器学习(AI/ML)和私有云架构融合,在一个基础设施保护伞下解决广泛的用户需求。英国科学云的部分任务是支持SDP,不列颠哥伦比亚的西蒙弗雷泽大学建立了他们的云来处理来自大型强子对撞机Atlas探测器的数据。

“OpenStack为数据中心用户提供了不同的产品,”Sithole说。“这一实现是朝着正确的方向迈出的一步,使我们的数据中心成为一个融合的环境。我们认为这是计算密集型和数据密集型计算之间的连续体。它使我们能够在相同的基础设施中轻松支持高性能计算研究和通用云计算。”


根据Sithole博士的说法,云还带来了许多新工具,使用户能够利用新环境。人工智能(AI)和机器学习(ML)库、容器化和其他资源将帮助想要实现AI工作负载的用户,并探索解决科学问题的新方法。

Thobye表示:“云平台进一步使CHPC能够收集必要的技术和运营专业知识,以开发、提供和运营一个全国联邦OpenStack平台。”“它将为大型项目(如平方公里阵列等)提供虚拟环境中的全球连接。”

在大流行袭击南非之前,CHPC正在试用英特尔的其他技术,如英特尔Optane持久内存和英特尔Optane存储。CHPC希望这些用于分层存储器和存储的技术能够提高大内存处理的性能和效率,使更多的数据更接近处理复合体。这种接近性对于与大量数据(如SKA)交互的工作负载非常重要。这些技术还可以加速基因组测序和组装。

一旦人们接种了疫苗,病毒得到控制,CHPC的OpenStack生产云将能够支持许多其他活动。南非发展合作组织(SADC)的更多商业成员可以利用便捷的计算和存储资源。人们正在探索新的天气模型,以帮助非洲了解和应对其独特的天气事件,例如去年年底袭击莫桑比克的热带气旋查拉内和今年年初登陆的埃洛伊塞,以及气候变化的影响。

Sithole博士总结说:“一旦疫情超越了我们,我们在非洲就会面临不同的挑战。OpenStack平台为我们提供了人工智能和其他工具,有助于为非洲的独特问题找到解决方案。其中一个挑战是传染病问题。比如埃博拉,但埃博拉并不是非洲人面临的最严重的疾病。我们从COVID中学到的是,你无法独自解决这些问题。每个人都必须齐心协力,为我们所面临的问题找到解决办法。希望这将加速CHPC平台的普及,这样我们也可以为这些独特的非洲问题找到解决方案。”

本文是英特尔编辑计划的一部分,旨在突出由高性能计算和人工智能社区通过先进技术推动的前沿科学、研究和创新。bet188真人内容的发布者拥有最终的编辑权,并决定发表什么文章。

与作者见面
广告
Baidu