博客
用绿色算力重新定义边疆的巍峨硅谷
PART.01
项目概述
为了以全域数字化转型为牵引全面提升社会治理体系和治理能力现代化水平,加快数字 xx 县市基本能力建设,优化基层社会治理综合信息平台各项功能,开展全域数字化转型试点,强化数字人才队伍建设。 在新疆北部的戈壁深处,一场以“绿电赋能算力破局”为主题的创新实践正悄然展开。这座曾以传统能源产业著称的边疆小城,依托富集的风光资源、独特的区位优势和超前布局的算力基础设施,走出了一条资源型城市数字化转型的示范路径。
PART.02
项目需求
作为该县市算力产业核心承载区,各级单位加速推进算力基础设施建设,一期计划要建设 128P 算力智算中心,二期则扩容至 1000P 算力集群投产运行,项目建成后将为互联网、金融、医疗、制造等行业提供定制化、一站式算力服务,满足其在大模型、大数据分析、复杂模拟运算等方面的多样化算力需求。
PART.03
痛点分析
人工智能(AI)技术快速发展,智能算力已成为一种核心基础资源,算力基础设施建设热度持续不减,同时也对智算中心的建设提出了提质增效的要求。当前智算中心面临着智算、超算、通用计算三种不同算力的使用需求,而不同用户对 IaaS、PaaS、MaaS 或 SaaS 不同层次的算力形式有着不同的使用需求,无法统一,底层资源难以灵活转换。如何统一管理复杂多样的算力应用、解决异构算力和资源的调度、提高算力资源利用效率,成为建设智算中心要面对的新挑战。
1) 智算、超算和通用算力难以统一管理:当前智算中心面临着比以往更多样、更复杂的算力需求,不同的应用场景对算力供给的形式、资源、性能要求完全不同,智算中心由此就面临着资源统一管理、高效分配、灵活调度的难题;
2) 异构算力使用门槛较高:大模型时代后 AI 模型算法的研发与训练严重依赖于大规模的异构算力,但此类算力在使用中面临多重挑战,如算力资源的合理调度、异构算力硬件的适配与集成、复杂的基础软件与依赖工具的部署与配置等;
3) 国产芯片适配难度大:国产芯片产品研发快速发展,将成为未来智算算力的主力;而在智算中心建设和运营中,国产芯片适配面临着驱动适配、软硬件协同优化、接口标准不统一、产品成熟度不一致的各种问题;
4) 大模型应用困难:大模型在各行业的落地应用是实现 AI 技术价值的关键环节,而如何快捷地基于行业、领域知识构建大模型应用,并结合算力发布成为大模型服务提供给最终用户使用,这个过程也面临着复杂的算力配置与调度、工程化规范化问题;
5) 跨区域、跨中心算力协调配置要求高:随着国家针对算力建设的战略统一布局,提出了实现跨区域、跨算力中心的算力管理和协调配置的要求,将形成算力并网、调度和运营体系,促进算力资源高效对接,面对这一新的课题,算力中心建设需要从架构到底层技术做好准备,以实现针对未来算力服务标准、规范的适配和对接;
6) 安全问题突出:大模型等算力应用随着其普及将面临越来越的数据安全与网络安全问题,因此建设智算中心还必须对算力应用、算力集群本身提供必要的网络安全防护,确保智算中心中数据资产、设备资产的安全。 可见,智算算力的建设将不仅仅是算力设备的堆砌,还必须建设一套灵活、高效、易用的软件基础平台,用于面对复杂、多样的算力用户需求,为智算中心的运营提供有力的支撑。
PART.04
解决方案
结合用户痛点和对需求的分析,本智算中心由商业板块智算子系统、创新板块超算子系统、数字政府板块 IDC 子系统、配套高速网络设备以及高性能存储系统组成,搭配联泰智算中心一体化云平台 LtAIDC + 应用安全防护子系统 LtSEC,基于对异构算力的适配和优化,利用算力优化调度技术、弹性资源调度技术,结合最新的安全防护产品,针对 AI 技术的特点和需求,为智算中心提供一套灵活易用、高效安全的一体化智能算力基础设施软件层解决方案,同时解决跨区域、跨算力中心的算力资源协调管理和优化配置问题,旨在面向复杂、多样的算力消费需求提供便捷、易用、高效的异构算力资源,为 AI 技术发展和成果应用提供更加充沛的动力。
一期设备投入情况:
◆ 商业板块智算子系统: 提供 768 个高性能 X86 计算核心; 16TB DDR5 内存; 智算算力(FP16)≥128PFlops; 5TB HBM3 GPU 显存; 400G 无阻塞计算网络和 200G 无阻塞存储网络。 一套全闪分布式存储提供 138T 裸容量,读写 IO 40GB/s; 通过 LTAIDC 算力云平台搭建统一异构计算资源池。
◆ 数字政府板块 IDC 子系统: 提供 6400 个高性能 ARM 计算核心; 6.25TB 共享内存; GPU 智算算力(FP16)≥2.9PFlops; GPU 推理算力(init8)≥5.8PFlops; 一套分布式存储提供 1.29P 裸容量; 通过 LTAIDC 算力云平台搭建统一异构计算资源池。
◆ 创新板块超算子系统: 提供 4480 个高性能 X86 计算核心; 8.75TB HBM 高速缓存; 35TB DDR5 内存; 100G IB 网络; 国产 AI 节点提供 640 个高性能 X86 计算核心; 1.25TB HBM 高速缓存;5TB DDR5 内存;100G 以太网网络; 国产 GPU 智算算力(FP16)≥894TFlops 一套分布式存储提供 1.1P 裸容量,读写 IO 8GB/s, 通过 LTAIDC 算力云平台搭建统一异构计算资源池。
二期设备投入情况:
提供 6144 个高性能 X86 计算核心; 128TB DDR5 内存; 智算算力(FP16)≥1024PFlops; 40TB HBM3 GPU 显存; 400G 无阻塞计算网络和 200G 无阻塞存储网络; 一套全闪分布式存储提供 0.98P 裸容量,读写 IO 90GB/s; 通过 LTAIDC 算力云平台搭建统一异构计算资源池。
◆ 整体平台的软件架构
PART.05
用户收益
智算中心在部署验收完成及半年的试运行后,用户对本次方案的使用情况和具体服务高度赞赏,其具体用户收益如下:
商业板块智算子系统提供:
应用用途:人工智能大模型自然语言训练、人工智能大模型内容生成训练、人工智能神经网络深度学习训练、大模型内容生成推理、大分子模拟生物制药等科学计算。
创新板块超算子系统提供:
应用用途:气象模拟、流体力学空气动力、分子动力学与量子力学、化学等科学计算。
数字政府板块 IDC 子系统提供:
应用用途:通用计算 政务应用、云手机应用、云游戏应用、大数据分析、大模型应用推理、人工智能应用推理等通用计算。
相关贴子
-
HPC
北京某生物医疗单位国产 AI 计算集群项目落地,助力蛋白质科研创新
2025.04.03 22分钟阅读 -
HPC
重塑高性能计算新标准--联泰集群 GA4228 G3
2024.07.26 20分钟阅读 -
HPC
分子动力学专用超算平台:让药物研发快人一步
2025.04.18 23分钟阅读