联泰集群-专注提供计算力!
登录
联泰集群服务电话 400-100-3811
联泰集群

LTHPC COS集群操作系统

COS软件概述

在CoS中操作系统组件被抽象地拆分成可复制和重复引用的对象,根据配置的引导在内存、网络、磁盘中进行自由分布。以逻辑上的一个单一映像为全部数据中心硬件提供操作系统。硬件在统一的操作系统映像控制下工作,可自动地、自然地实现实时的强一致性维护,无需再借助第三方的用户态进程。

将硬件部署和系统运行有机统一,部署系统就是启动系统,使得物理硬件的添加、删除、替换都可自动完成。通过统一的数据中心系统描述语言定义所有的硬件同构和异构差异,自动进行偏置化处理。 所有功能、角色、配置信息都通过一个集中的xml格式描述语言进行定义,定义可分级、分组并具有继承性。

COS软件特性

· 高可用

CoS的中心管理节点(映像服务节点)可以使用多节点,也可以运行于可靠的多副本文件系统之上。一台与工作节点相同配置的服务节点,根据网络条件可支持数千台到上万台服务节点运行。根据业务需要,可配置系统无单点瓶颈和单点故障。

· 高可靠

CoS可以为数据中心的高可靠运行提供支持。这是由于操作系统映像独立于具体硬件集中管理,可避免节点本地硬件故障导致的系统崩溃。系统可在启动时刻和运行中自动检验硬件发现问题,特别验证网络性能是否下降。由于部署即运行,硬件恢复和替换之后,无需重新安装操作系统及做相应配置即可快速恢复到原始服务状态。

· 高可信

集中管理的映像可在中心管理节点上进行严格的安全限制,甚至可以设置操作系统关键目录对工作节点只读。由于工作节点客户端看到的只是系统内核的运行实例,无法在内核物理文件中植入诸如rootkit之类的病毒。CoS即可在很大程度上避免病毒植入,而且即便发生系统被劫持事件,也很方便快速恢复到原始可信状态。

· 易维护

由于单一映像驱动整个数据中心硬件运行,在系统中任意节点都可以完成管理操作,任何配置、系统软件、应用软件的安装、修改都可实时反应到工作节点上。无需一一登录工作节点,也不需要设置专门的后台进程来负责同步和配置一致性维护。操作复杂性从O(n)变为O(1)。

· 高通量

通过优化配置的作业调度引擎,高通量调度模块可实时监督万量级的物理节点,以接近实时的方式监控管理万量级的计算任务。将分散在各工作节点硬件软件,如CPU,内存,加速卡、软件等抽象为一个全局资源池,可支持排他的、共享的使用;对用户、组进行无限制级别的分级和分组,按帐号、按组、按级别对资源使用进行约束。

· 高融合

CoS可以对硬件架构的差异进行屏蔽和抽象,可以将2路、4路、8路以及大规模SMP机器,以及将Intel CPU,AMD CPU的工作节点进行整合,使差异架构的节点运行在相同的操作系统物理映像。

CoS支持在虚拟机和物理机之间共享相同的系统映像,操作系统映像可在虚拟机之间、物理机之间、虚拟机和物理机之间无缝迁移。根据实际运行需要,服务器的计算角色和存储角色可自由转换。

CoS架构图

COS功能介绍

· 集群配置

全局设置,NFS设置,电源设置,收集设置等。

· 收集设置

手动或者自动收集需要添加的节点信息,这个过程会自动收集并保存节点的硬件信息,不需人工干预收集如 MAC 地址等信息,可大大简化操作人员工作复杂性,减少操作失误。

· 用户管理

方便添加/删除集群用户和组。

· 资源调度管理

资源调度管理集成SLURM (Simple Linux Utility for Resource Management),是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它以一种共享或非共享的方式管理可用的计算节点(取决于资源的需求),以供用户执行工作。SLURM 会为任务队列合理地分配资源,并监视作业至其完成。如今,SLURM 已经成为了很多最强大的超级计算机上使用的领先资源管理器。

支持查看历史作业信息,分配资源,提交批处理作业,取消作业,系统控制,查看节点与分区状态,查看队列状态,执行作业等。

· 集群监控管理

集群监控采用一个可扩展的分布式监控系统,用于高性能计算系统,如集群和网格。 它基于针对联盟集群的分层设计。 它利用了广泛使用的技术,如用于数据表示的XML,用于紧凑型便携式数据传输的XDR以及用于数据存储和可视化的RRDtool。 它使用精心设计的数据结构和算法来实现非常低的每节点开销和高并发性。 该实现非常强大,已被移植到广泛的操作系统和处理器体系结构中,目前正在全球数千个群集中使用。 它已被用于连接学校园和世界各地的集群,并可扩展以处理2000个节点的集群。