HPC集群平台搭建

HPC集群平台搭建,第1张

以两台电脑为例,现在在两台电脑上都安装好了Ubuntu19.04

一台机子的名称为npuheart0,ip为192.168.1.105

另台机子的名称为npuheart1,ip为192.168.1.106

先更新一下两台机器的系统:

安装ssh以及其他一些杂七杂八的软件

用名称代替IP地址,方便通信。

在第一台机子上的修改:

在第二台机子上的修改:

每台电脑上进行以下 *** 作,创建一个新用户,使MPI并行的配置和其他用户隔离。

两台机器将会通过SSH通信,并且通过NFS共享数据。

下面以npuheart0为例子:

hosts 文件是当前目录下的文件,内容是:

https://mpitutorial.com/tutorials/running-an-mpi-cluster-within-a-lan/

HPC群集是什么?很多用户都一片茫然HPC群集有什么作用?更是无所思绪。在win2008系统下,HPC群集又发挥着怎样的功效呢?既然有这么多疑问,那就让我们一起去探索下win2008的HPC集群吧。

HPC 群集用户角色有两种类型:管理员和用户。HPC 群集管理员有权管理 Windows HPC Server 2008 的所有方面。HPC 群集用户有权管理他们提交到群集的任务和作业。尚未添加到群集的用户或组不能访问群集资源。

(一)了解用户角色

有两种类型的 HPC 群集用户角色:

管理员。HPC 群集管理员有权管理 Windows HPC Server 2008 的所有方面,包括配置 HPC 群集网络、部署和管理节点以及配置 HPC 作业计划程序服务。群集管理员还可以提交和管理由其他用户在群集中创建或提交到群集的作业、任务和作业模板。

用户。HPC 群集用户有权管理他们提交到群集的任务和作业。如果由 HPC 群集用户提交的作业失败,此用户能够诊断、修复并重新提交该作业。虽然 HPC 群集用户可以看到由其他用户提交的作业,但他们无法删除这些作业或重新提交它们。此外,HPC 群集用户无法查看作业详细信息,以及不是自己提交的作业所对应的任务。

Active Directory 域服务 (AD DS) 是运行 Windows HPC Server 2008 的先决条件,因为用户和计算机的身份验证过程依赖于 AD DS 提供的服务。在安装 Windows HPC Server 2008 之前,如果将要用作头节点的计算机添加到 Active Directory 域,则"域管理员"组将添加到本地"管理员"组,"域用户"组将添加到本地"用户"组。

安装时,Windows HPC Server 2008 使用头节点上的用户和组的本地设置,在群集上分配管理员和用户权限。本地"管理员"组的所有成员(包括"域管理员")将作为 HPC 群集管理员添加,本地"用户"组的所有成员(包括"域用户")将作为 HPC 群集用户添加。

要点

如果您不希望域中的所有用户都有权访问群集,则可以从 HPC 群集用户列表中删除"域用户"组,然后添加为 HPC 群集用户专门创建的其他域用户组,或者添加单独的域用户。

可以在 HPC 群集管理器中手动添加 HPC 群集用户或 HPC 群集管理员,前提是他们不是"域用户"组或"域管理员"组的成员。

HPC 群集管理员作为每个节点的本地"管理员"组的成员,会自动传播到群集中的所有节点。HPC 群集用户作为每个节点的本地"用户"组的成员,也会以相同的方式传播。

(二)添加或删除用户和管理员

如果要将群集访问权授予组织中的其他成员,则需要将这些成员作为用户或管理员添加到群集中。而且,可以删除在安装期间默认情况下添加的用户或管理员。

添加或删除群集的用户:

在"配置"的"导航窗格"中,单击"任务列表"。

在"任务列表"中,单击"添加或删除用户"。

将用户添加到群集:

在" *** 作"窗格中,单击"添加用户"。将出现"选择用户或组"对话框。

键入要添加的用户的用户名,然后单击"检查名称"。有关详细信息,请在"选择用户或组"窗口上,单击"示例"。

对要添加的所有用户重复前面的步骤。

在添加完用户之后,单击"确定"。

将管理员添加到群集:

在" *** 作"窗格中,单击"添加管理员"。将出现"选择用户或组"对话框。

键入要添加的管理员的用户名,然后单击"检查名称"。有关详细信息,请在"选择用户或组"窗口上,单击"示例"。

对要添加的所有管理员重复前面的步骤。

若要删除用户或管理员,请在"用户"列表上选择它,然后在" *** 作"窗格中,单击"删除"。

其他注意事项

不能从群集管理员的列表中删除域管理员帐户。

要打开 HPC 群集管理器,请单击"开始",指向"所有程序",单击"Microsoft HPC Pack",然后单击"HPC 群集管理器"。如果出现"用户账户控制"对话框,请确认所显示的是您要执行的 *** 作,然后单击"继续"。

win2008系统下的HPC集群用户管理是管理系统的一个重要组成部分,作为HPC集群管理员有权管理win2008系统的所有方面,而作为用户的权限是管理用户所提交到群集的任务和作业。关于win2008HPC群集还和陌生的用户可以从这里开始学起。

北京——2022年1月18日 ,近日,亚马逊云 科技 宣布推出专为紧耦合高性能计算(HPC)工作负载构建的全新实例Amazon Elastic Compute Cloud (Amazon EC2) Hpc6a。Amazon EC2 Hpc6a实例搭载了第三代AMD EPYC处理器,与计算优化型Amazon EC2实例相比,用于HPC工作负载的性价比提升高达65%,进一步扩展了亚马逊云 科技 的HPC计算选项组合。客户通过Hpc6a实例可以更经济、高效地在亚马逊云 科技 中扩展HPC集群,运行计算密集型工作负载,如基因组学、计算流体动力学、天气预报、分子动力学、计算化学、金融风险建模、计算机辅助工程和地震成像。客户可以按照即用即付的低成本模式,按需使用Hpc6a实例,而无需预付费用。

众多不同行业机构都使用HPC解决他们最复杂的学术、科学和业务问题。然而,有效使用HPC的成本很高,为了处理大量数据,HPC集群需要具备强大的计算力、高性能的内存和存储,以及低延迟的网络。一些机构通过在本地构建基础设施来运行HPC工作负载,这需要高昂的前期投资,包括冗长的采购周期、监控软硬件更新等持续的管理开销,而当基础设施变得过时且必须升级时,又必然会面临灵活性受限的挑战。许多行业客户选择在云中运行其HPC工作负载,充分利用云提供的安全性、可扩展性和d性。众多工程师、研究人员和科学家通过亚马逊云 科技 运行其最大型、复杂的 HPC 工作负载,并选择使用具有增强网络的Amazon EC2实例(例如C5n、R5n、M5n和C6gn)来扩展高性能紧耦合HPC工作负载,这些工作负载需要实例间高水平通信,处理数千个相互依赖的任务。虽然这些实例的性能能够满足大多数 HPC 用例,但随着需要解决的问题越来越困难,工作负载不断扩展,规模可能增长至需要亚马逊云 科技 中的数万台服务器处理,客户希望在运行HPC工作负载时最大限度地提高性价比。

新的Hpc6a实例专为在云中大规模运行 HPC 工作负载提供最佳性价比。HPC6a实例将HPC工作负载性价比提升高达65%,可在一系列集群规模(多达数万个内核)中执行复杂计算。默认状态下,Hpc6a实例搭载了网络接口Elastic Fabric Adapter (EFA)。EFA网络具有低延迟、低抖动和高达100 Gbps的网络带宽,可帮助客户提高运营效率,对于实例间有大量通信的工作负载可以快速交付计算结果。 Hpc6a 实例搭载了主频可高达3.6 GHz频率的第三代 AMD EPYC 处理器,并提供 384 GB 内存。使用 Hpc6a 实例,客户可以更经济高效地通过HPC解决他们最大、最困难的学术、科学和业务问题,并以高性价比获得亚马逊云 科技 服务的诸多优势。

亚马逊云 科技 Amazon EC2副总裁David Brown 表示:“通过为几乎所有类型的工作负载持续创新,并推出新的专门构建的Amazon EC2实例,我们为客户一些最关键的业务应用提供了超高的性价比。虽然高性能计算帮助解决了科学、工程和商业等领域一些最困难的问题,但对于许多机构而言,有效运行 HPC 工作负载仍然非常昂贵。Hpc6a实例专为HPC工作负载构建,可以帮助客户在几乎任何规模的 HPC 集群中将性价比提升高达65%,消除客户对成本的顾虑,专注于解决核心业务问题。”

AMD服务器业务高级副总裁兼总经理Dan McNamara 表示“我们很高兴能够继续与亚马逊云 科技 合作,为他们的客户提供用于高性能计算工作负载的全新、强大的实例。AMD EPYC处理器正帮助各种规模的客户解决一些最困难、复杂的问题。从大学到企业再到大型研究机构,由第三代AMD EPYC处理器支持的HPC6a实例为更多全球客户带来强大的HPC性能,且具有云的可扩展性。”

客户可通过Amazon ParallelCluster(一种开源集群管理工具)使用Hpc6a实例,可与其他实例一起预置Hpc6a实例,并在相同HPC集群中灵活地为不同的工作负载运行不同的优化实例。Hpc6a实例基于Amazon Nitro 系统,Amazon Nitro将许多传统虚拟化功能卸载到专用硬件和软件,而具有更高性能、高可用性和更高的安全性,同时减少虚拟化开销。Hpc6a 实例可作为按需实例或预留实例购买,也可通过 Savings Plans 购买。 Hpc6a 实例现已在美国东部(俄亥俄)和 Amazon GovCloud(美国西部)区域推出,其他区域也将很快推出。

Maxar是一家地理空间智慧公司,与诸多创新企业和50多个政府合作监测全球变化、提供宽频通信,以及基于空间架构和地球智能的能力提供先进的空间 *** 作。“Amazon EC2 Hpc6实例的推出是亚马逊云 科技 又一次重大的发布,让Maxar能够继续满足并超越客户对大型计算工作流的要求,无论是加速数值天气预报工作负载的研究和运营,还是使用Maxar Precision3D 产品套件创建全球最优秀、先进和精确的数字孪生模型。” Maxar Technologies高级副总裁兼首席产品官Dan Nord 表示,“Hpc6a的AMD EPYC(Milan)处理器与EFA网络功能相结合,与其他可选项相比,帮助我们将性能提升了60%,同时更具成本效益。这让Maxar能够在自己构建的一套亚马逊云 科技 HPC集群配置中进行战略性选择,最大限度的满足客户需求,同时最大限度地提高灵活性和韧性。”

DTN的全球气象站网络提供超本地、准确和实时的气象情报,为企业提供可 *** 作的见解。 DTN首席技术官Lars Ewe 表示:“与亚马逊云 科技 合作,让我们能够更好地服务客户,为他们提供高分辨率天气预报系统,并为分析引擎提供数据。我们很高兴看到 Hpc6a 实例的高性价比,希望它将成为我们未来HPC工作负载的首选Amazon EC2 实例。”

TotalCAE在计算机辅助工程(CAE)高性能计算方面拥有超过 20 年的经验。 TotalCAE 通过管理客户的HPC工程环境和工程应用程序,来帮助客户消除IT难题,让客户专注于工程,而不是IT。 “TotalCAE平台让CAE部门可以轻松地获得亚马逊云 科技 的敏捷性和灵活性,只需单击几下即可用于数百个工程应用程序,例如Ansys Fluent、Siemens Simcenter STAR-CCM+和Dassault Systèmes Abaqus。” TotalCAE总裁 Rod Mach 表示,“作为亚马逊云 科技 HPC能力合作伙伴网络成员(HPC Competency Partner),我们帮助客户在云中运行其CAE 工作负载。通过HPC6a 实例,我们以更低的成本将计算流体动力学工作负载的性能提升了 30%,让 TotalCAE 能够为客户提供行业领先的性价比和云强大的可扩展性。”


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/bake/11834597.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-19
下一篇2023-05-19

发表评论

登录后才能评论

评论列表(0条)

    保存