联泰集群-专注提供计算力!
登录
联泰集群服务电话 400-100-3811
联泰集群

深度学习之GPU集群

HPC性能——采集分析器

性能采集和分析系统:可提供全方位详细的节点运行信息,包括CPU,内存,硬盘,网络:Infiniband、以太 网,文件系统,IO,系统Inode,系统中断,内存Cache(Slab),进程(组),系统环境(电源,风扇,温 度)等各个子系统的详细性能参数,支持各级别显示细节的定制,不同用户/组分别对应不同的profile,每个用 户又可进一步按节点分组分别制定个性化的采集策略。
  • 灵活构架:可扩展到多个层次的监控。监控节点也可任意扩展。
  • 支持大规模数据分析,进行大规模数据的MapReduce分析。
  • 完善的功能:实现了集群分析、监控、报警、数据持久化等多种功能为一体。
  • 监控项多:涉及计算机硬件、操作系统、作业和环境数据等各个方面。
  • 高效性:轻量级守护进程在对集群不造成压力的情况下实现了动态多功能监控。
  • 在统一界面上对比列出每一时刻系统内各软硬件的状态,以事件的时序为基准对系统运行所发生的事件进行存档、 统计、分析、追溯和比对即可发现系统性能瓶颈。

HPC资源管理器

资源管理器:提供与并行环境紧密集成的作业管理、调度工具和记账系统,支持并兼容各种MPI版本,例如: Intel MPI、Mvapich,Mvapich2,Mpich,Mpich2,OpenMpi,Hpmpi等,运行作业时统一的提交作业界面, 用户不需考虑不同的MPI版本之间的差别。
支持队列管理、 最细粒度资源分配、公平竞争调度、基于拓扑结构的调度、饥饿作业调度、绝对优先级调度、作 业Array调度、GPU/CPU调度、自定义调度策略、资源预留、并行作业和串行作业、定制定价策略、详细记账 统计报表 为用户定制基于监控数据的用户行为、作业行为和系统行为分析和挖掘,支持管理员更细粒度的资源分配,或者 优化用户程序的运行环境;

HPC产品特点

集群操作系统COS正是应这一需求而开发的一套集群系统运行时环境。 集群操作系统COS能提供:在全局一致的系统映像下,通过简单的策略配置即可实现系统电源管理、存储管理、IO优化等。 集群操作系统采取硬件裸机接管的策略,用户/集成商只需完成系统的上架和硬件互联,后续从系统部署、测试直到应用程序上线一 系列工作都可在较少人工干预下由集群操作系统CoS自动实施。 集群操作系统COS正是应这一需求而开发的一套集群系统运行时环境。 集群操作系统COS能提供:
  • 一个真正的全局单一系统。即用户只需为整个计算集群安装一个份操作系统,用这一份操作系统管理跨所有节点的并行计算。
  • 可根据应用需求和系统规模,灵活地实现节点动态分组与重构、灵活定义节点的角色和功能。
  • 支持硬盘的灵活使用:可以使用本地硬盘启动系统(如同传统的COW),也可仅把本地硬盘作Swap,作某个或某几个mount点, 甚至直接关闭本地硬盘。
  • 通过支持灵活定义系统内的各种mount点,来解决运行时IO瓶颈问题。
  • 支持采用多管理节点(头节点)构成分布式服务环境共同为计算节点集群提供服务,具有良好扩展性。
  • 提高系统的可靠性和软件运行效率。
  • 简化系统管理的复杂性。