LTHPC高性能计算集群系统

软件介绍

联泰集群高性能计算集群系统可应用于能深度学习与人工智能及高性能计算等场景。通过此平台能帮助研究和开发人员解决计算密集型、海量数据处理等业务的计算需求,如科学研究、气象预报、计算模拟、军事研究、CAD/CAE、生物制药、基因测序、图像处理等,缩短需要的大量计算时间,提高计算精度。
联泰集群高性能计算集群系统让使用者通过易用的web图形操作界面,高效的使用HPC计算集群中的各种计算资源。简化使用者以往要通过命令方式提交集群计算作业的繁琐操作,提高整个团队的工作效率。同时我们针对计算资源提供核心指标的监控统计数据,以方便相关使用者来进一下优化作业任务、高效的调度计算资源。

核心功能

联泰HPC高性能集群管理平台主要有作业管理、监控管理、用户管理3大主模块。具有以下的核心功能特点:

01.集群管理可视化

平台使用者可以通过图形可视化的交互方式来方便的管理集群使用中的节点、分区、作业等功能;可以增加新分区、提交维护作业;可以查看相关作业节点的性能。

02.自动化作业管理

使用者只要按要求把作业脚本提交到平台,管理平台会自动把作业分发到特定分区的计算节点,按约定时间启动作业任务。使用者直接在管理平台就可以查看实时的作业计算结果;并随时查看作业的运行状态。

03.多分区资源分配

平台支持把集群中不同配置的服务器划分到不同的计算分区;支持针对不同的使用者分配不同性能的计算节点。最终使用者可以把对CPU、GPU、内存等要求比较大的任务提交到计算能力强的分区。

04.节点自动SSH管理

管理人员需要建立每一台服务器的用户与密码文档,需要通过SSH工具,输入密码登录到具体的每一台服务器去做计算节点的维护,工作效率也很低。在联泰集群高性能计算集群系统中,支持管理人员直接通过WEB端连接到具体的计算节点做节点运维,不需输入计算节点服务器的帐号数据。对于大型的集群环境,极大的提升了运维效率。

05.计算资源监控管理

联泰集群高性能计算集群系统同时提供计算节点性能监控功能。管理人员可以通过资源监控管理功能来查看各个分区的使用情况,合理的给新增加的用户分配计算资源。普通使用者可以查看有权限的分区哪个比较空闲,有针对性的把作业提交到特定的分区。使用者也可以查看作业提交后的计算节点运行监控指标,进一步优化作业脚本。

06.多种硬件场景部署

平台支持CPU、GPU等X86服务器部署,也支持云端服务器平台部署。支持TCP/IP,支持InfiniBand 高速网络。多样式场景的支持可以满足用户不同部署环境的要求; 也可以随时根据客户的计算量的升级,提供升级后的部署解决方案。

07.适配多种存储方案

平台可支持NFS/CIFS,Lustre文件系统;集群管理平台也支持商用存储解决方案。