博客

HPC

集群拓扑结构:什么是头节点?

2023.01.12 31分钟阅读

集群头节点的重要性


在集群工作中涉及管理各种组件,如交换机、存储、计算节点、应用程序、文件系统和工作负载等。这里面不受管理的服务器、存储和相互竞争的用户会话所产生的后果可能非常严重,导致资源短缺和潜在的风险。最终,用户请求将超过可用资源,导致结果不太理想…这就是头节点发挥作用的地方!

什么是头节点?


头节点(或登录节点)是一个已配置的系统,用于管理集群中其他服务器的活动。该节点充当计算资源协调的中心点,如分配和调度工作负载、管理资源,并充当与其他节点的外部通信的联系点。头节点在服务器集群的整体功能和组织中起着至关重要的作用。

在内部和外部,头节点与存储阵列和多个计算节点一起为集群提供服务。负责管理网络和配电,主节点的主要服务包括:

 

  1. 调度、资源管理和负载平衡:头节点负责协调和调度使用 Slurm、Moab 和 Torque 等管理器提交到集群的任务或作业。它有效地分配资源,并在计算节点之间实现负载平衡策略,以优化整体性能。

     

  2. 集群协调:它充当集群的中心协调点,管理不同节点之间的通信和数据交换。这包括分发软件更新、配置和其他集群范围的信息。

     

  3. 容错和冗余:即使在面临硬件故障或其他问题时,头节点也可以实现容错和冗余机制,以确保服务的可用性,并在某些组件出现故障时重新分配计算资源。

     

  4. 用户身份验证和授权:头部节点通常处理用户身份验证与授权。它验证用户凭据,确保某些授权用户可以访问某些群集资源。

     

  5. 监视和日志记录:头节点上的监视工具可以跟踪集群中各个节点的运行状况和性能。它记录事件和错误,为管理员提供解决问题和优化性能所需的信息。

     

  6. 文件系统管理:头节点通常配备有大型本地存储,并管理集群中所有节点都可以访问的共享本地文件系统。这确保了对数据的一致访问,并允许在计算过程中节点之间进行无缝数据交换。

     

  7. 集群安全:安全服务,包括防火墙和入侵检测/预防系统,通常在头节点上实现,以保护整个集群免受未经授权的访问和潜在的安全威胁。

     

  8. 集群通信和网络:主节点促进节点之间的通信,管理集群的网络基础设施。它确保了数据可以在内部节点和外部集群之间高效传输,用于并行处理任务。

集群通常由单个头节点组成,足以用于较小的集群,但不建议大规模使用。当对资源的需求升级时,更大规模的实施需要更稳健的策略,如果计算基础设施只容纳一个头部节点,则可能会造成巨大的压力。

 

选择多个头节点引入了冗余性和响应性,可以分配负载并增强故障恢复能力。多个头节点是一种常见的做法,因为它确保了对多个集群之间提供的资源和服务的冗余性和响应性。这是通过在不同集群的不同头节点上实现每个服务的多个实例来实现的,这就是全面计算基础设施的诞生。

 

头节点硬件建议

对于头节点,与传统计算服务器相比,其规范是非常独特的:

 

  • CPU:将具有高时钟速度的 CPU 优先于核的数量。双 CPU 配置也是一个强大的选择,使用 8 到 24 核范围的CPU可以获得更高的处理能力。这就足够了,因为较低的核数 CPU 通常具有更高的时钟速度。

  •     AMD EPYC 9174F(16C)、EPYC 9274F(24C)、Intel Xeon Scalable Gold 6434Y(8C)和 Xeon Scalable Gold6444Y(16C。

 

  • 内存:RAM 不是头节点的瓶颈。通常,每个核心 8GB 到 16GB 的 RAM 就足够了。

  •     例如,双 16 核设置应具有 128GB 或更多的 RAM。目标是 128GB 到 512GB 的范围。

 

  • 存储:由于大多数数据抽象和可视化都将通过头节点访问,因此拥有大量快速存储可以显著提高响应能力。在联泰集群,我们设置头节点以使用系统上的本地存储。选择具有快速读写速度的 SSD,以便与您的网络解决方案快速访问数据对。

  •     头节点具有充足的热插拔存储空间和存储空间。填充更多驱动器托架以在 RAID 中运行,以提高速度、冗余度和可靠性。更多的存储空间更好地容纳本地数据,以便分配给计算节点。我们建议在 200TB 左右,但您的存储容量取决于您的项目。

 

  • PCIe 扩展:任何额外的 PCIe 插槽都应用于高速网络,具体取决于存储类型。由于编排和任务分配是一项依赖 CPU 的任务,因此不太需要非常高性能的 GPU;没有 GPU 或单个 GPU 足以用于数据可视化。

  •     对于 GPU,请跳过为计算节点保留的高性能 GPU。跳过 RTX 6000 Ada,继续使用 RTX 4000 Ada。

  •     如果您有 1GbE,SATA SSD 可能就足够了,但对于快速 NVMe SSD,我们建议使用 10GbE 或 25GbE 网络。

  •  
仅将您的头节点用于头节点事务

同样值得一提的是,头节点有使用限制。不要将头节点同时用作计算节点。它的唯一目的是作为集群的管理器,让其他服务器提交计算工作负载,在工作负载管理器的上下文中充当“仅用于提交的节点”。

 

理想情况下,您不希望在头节点本身上运行计算程序。也就是说,任何要在集群上运行的程序都不应该在头节点上运行。所有使用都应限制在程序的头节点上,这些程序允许您配置集群程序并管理和查看数据。头部节点的宝贵计算资源应该只是管理集群;任何额外的工作负载都会占用头节点已经运行的少量计算资源,从而冒着运行效率低下的风险。

 

头节点和集群管理软件

由于集群管理软件,头节点能够执行管理任务。集群管理软件安装在头节点上,允许用户通过图形用户界面或访问命令行来管理集群,用户可以在命令行中从低参与度到高参与度管理整个集群。

 

在联泰集群,服务器解决方案提供 NVIDIA Base Command Manager,正式名称为 Bright Cluster Manager,为客户提供简单和灵活性。NVIDIA Base Command Manager for HPC 解决方案具有内置的自动化、集成的管理和监控功能,使您能够在裸机上部署完整的集群并对其进行有效管理。它为硬件、操作系统、HPC软件和用户提供单一的管理。NVIDIA Base Command 现已获得 NVIDIA AI Enterprise 许可证,该许可证具有更丰富的功能,可协助 AI 开发和硬件编排。

如果您有兴趣了解更多关于头节点和集群管理软件的信息,请立即与我们联系以获取更多信息。如果您有兴趣配置计算机服务器或头节点,可以同我们联泰集群讨论探索更多个性化服务器解决方案。

相关贴子

敬请登记。

登记
本网站受 reCAPTCHA 保护,适用 Google隐私政策和服务条款。