联泰集群-专注提供计算力!
登录
联泰集群服务电话 400-100-3811
联泰集群

LTHPC异构AI资源管理平台

异构AI资源管理平台面向大规模异构计算基础设施管理,能够实现深度学习计算资源管理、调度、应用的自动化,可广泛应用于教育、科研、遥感、医疗、能源、政府等行业领域,能够大幅提升计算基础设施资源利用效率,降低数据中心总体拥有成本,提升人工智能研发创新效率。

文件系统概述

平台功能架构

资源管理

-资源配额和分区

· 支持用户资源分区,可根据分区类型进行作业调度,提供资源配额、创建任务可根据剩余配额进行配置。

-资源监管

· 提供全局资源监控视图(仪表盘),包括GPU使用率、显存使用率、CPU使用率和内存使用率等资源信息。

· 提供用户节点运行状态监控,主要包括节点主机名称、主机类型、主机状态、运行时间、kubernetes版本和每台主机节点的资源信息。

容器管理

-容器管理

· 容器管理模块主要针对开发测试需求,支持快速创建多种深度学习开发调试环境。

· 提供基于WebSSH的在线容器访问接口

· 支持容器在线转换为模板,上传镜像仓库。

-容器监控

· 容器监控主要对容器的运行状态进行监控,包括CPU、内存、GPU、显存等资源的动态监控情况。

模型训练

-深度学习框架

· 平台预集成优化配置的Tensorflow、Caffe、Pytorch、Cntk、Torch、Keras、Mxnet和Darknet等多种主流深度学习计算框架,并支持通过读取分布式云平台镜像仓库更新现有深度学习框架的版本。

-模型并行训练

· 支持单机多GPU(Tensorflow、Caffe、Torch、PyTorch、CNTK、Keras、Mxnet、Darknet)的并行训练任务

· 支持基于MPI的Tensorflow和Caffe多机多GPU并行训练

· 支持GPU分组,可针对不同的GPU型号对作业进行调度

作业管理

-作业操作

· 提供用户对作业的克隆、终止、日志查看等功能。

· 展示用户作业的分类信息,所属框架和运行状态等

-作业日志

· 提供用户进入文件管理的界面,方便用户对脚本、日志、训练输出等文件进行操作。

· 实时输出模型训练日志,并展示在前台页面上,可及时掌握实际的训练过程。

监控与文件管理

-作业监控

· 提供训练作业监控管理功能,包括作业运行百分比、作业运行状态(等待、运行、失败、结束等)、作业日志和图表输出、GPU资源监控等

-文件管理

· 提供集成的Jupyter环境,支持用户基于WEB界面往服务器端上传代码文件、数据文件,支持修改文和下载等常用操作,支持在线查看输出日志,无需命令行,方便快捷。

系统管理

-用户管理

· 支持部门设置、用户创建/审批、优先级设置、用户禁用/启用等用户管理功能。

-资源监控

· 提供主机、容器的CPU、GPU、内存、磁盘、网络等资源的动态监控图表。

-镜像管理

· 提供基于Harbor的镜像仓库,可实现项目管理,镜像上传,镜像管理,镜像权限设置等功能。

动态调度

超参调优

-功能描述

· 提供基于改进贝叶斯Bayes优化的超参数智能调优方法,支持GD、ADAM、Momentum等优化器,支持学习率、动量、指数衰减等超参数的智能调优。

-优势和价值

· 从传统的调参过度到自动化的智能调参

· 能够快速地选择最佳的超参数集和模型

MPI分布式训练

-功能描述

· 支持基于MPI的Tensorflow和Caffe多机多GPU并行训练,提供通信优化解决方案。

-优势和价值

· 有效的利用集群资源

· 提升模型训练的加速比

支持Infiniband

-技术要点

· Infiniband SR-IOV 技术是一种基于硬件的虚拟化解决方案,可提高性能和可伸缩性。SR-IOV 标准允许在容器之间高效共享 PCIe设备,并且它是在硬件中实现的,可以获得能够与本机性能媲美的 I/O 性能。

· GPU集群节点间以及容器节点间均采用InfiniBand RMDA通信

-优势和价值

· 性能--从容器环境直接访问硬件,有效提升满足深度学习的性能要求

· 成本降低--节省成本和运营开销

产品特性