关于HPE Cray 打造的 Frontier超级计算机正式通过百亿亿次级测试的激动人心的消息让我对它的存储系统感到好奇。我将我的灰质指向各种报告和技术文档,以更好地了解其大规模并行结构并编写 Frontier 存储的初学者指南。
被警告。它包含很多三个字母的缩写。HPE 的百亿亿级Frontier超级计算机具有:
一个完整的 Orion 文件存储系统;
基于多层Lustre并行文件系统的ClusterStor E1000存储系统,Orion分层;
集成到 Cray EX 超级计算机中的系统内 SSD 存储设置,本地 SSD 通过 PCIe 4 直接连接到计算节点。
Lustre ClusterStor 系统有一个巨大的磁盘容量层,前端是一个较小的 NVMe SSD 层。这些反过来又链接到为 Frontier 核心提供数据的近计算节点 SSD 存储容量。
猎户座
Oak Ridge Leadership Computing Facility (OLCF) 将 Orion 作为中心范围的文件系统。它使用 Lustre 和 ZFS 软件,并且可能是世界上最大和最快的单一 Posix 命名空间。猎户座分为三个等级:
480x NVMe 闪存驱动器元数据层;
基于 E1000 SSU-F 设备的 5,400 倍 NVMe SSD 性能层和 11.5PB 容量;
基于 E1000 SSU-D 设备的 47,700 倍 HDD 容量层和 679PB 容量。有 40 个 Lustre 元数据服务器节点和 450 个 Lustre 对象存储服务 (OSS) 节点。
元数据服务器管理文件系统的元数据操作,并设置有两个处于主动:被动关系的节点。每个链接到一个元数据目标系统,该系统包含该服务器的所有实际元数据并配置为 RAID 10 阵列。
还有 160 个 Orion 节点用于路由。此类 LNET 路由节点在直接连接的客户端与远程、网络连接的客户端计算和工作站资源之间运行网络结构或地址范围转换。它们使计算集群能够与单个共享文件系统通信。
路由和元数据服务器节点的存在是为了管理和使大容量 Lustre 存储设备、对象存储服务器 (OSS) 及其对象存储目标 (OST) 之间的非常快速的数据移动成为可能。HPE Cray 的ClusterStor阵列用于构建 OSS 和 OST 结构。
Frontier 拥有超过 700PB 的 Cray ClusterStor E1000 容量,峰值写入速度 >35 TB/秒,峰值读取速度 >75 TB/秒,随机读取 IOPS >150 亿。
ClusterStor 支持 Lustre 的两种后端文件系统:
LDISKFS 提供最高的性能——在吞吐量和 IOPS 方面;
OpenZFS 提供了更广泛的存储功能集,例如数据压缩。
两种后端文件系统的结合创建了一种经济高效的设置,用于为运行建模和仿真 (mod/sim)、AI 或高性能数据分析 (HPDA) 工作负载的集群高性能计算节点提供单个共享命名空间。
Orion 基于 ClusterStor E1000 存储系统混合可扩展存储单元 (SSU)。这种混合 SSU 有两个对象存储服务器 (OSS),它们链接到一个性能优化的对象存储设备 (OST) 和两个容量优化的 OST;总共三个组件 OST:
24 个 NVMe SSD 以提高性能(E1000 SSU-F 用于闪存);
106x HDD 用于容量(E1000 SSU-D 用于磁盘);
106x 硬盘容量 (E1000 SSU-D)。
混合 SSU 是为 OCLF 开发的,但现在作为 E1000 配置选项普遍提供。它是原始或经典四路 OSS 设计的替代方案。示例混合 SSU-F 和 SSU-D 配置如下所示:
E1000 可扩展存储单元 – 全闪存阵列 (SSU-F )
ClusterStor E1000 SSU-F通过一对 Lustre 对象存储服务器 (OSS) 为文件系统提供基于闪存的文件 I/O 数据服务和网络请求处理,每个 Lustre 对象存储服务器 (OSS) 都配置有一个或多个 Lustre 对象存储目标 (OST) ) 来存储和检索提交给它的文件系统数据的部分。
SSU-F 是一个 2U 存储机箱,具有双 PSU、双主动:主动服务器模块(称为嵌入式应用程序控制器 (EAC))和 24 个 PCIe 4 NVMe 闪存驱动器的高可用性 (HA) 配置。
每个 OSS 在其中一个服务器模块上运行,形成一个节点,两个 OSS 节点作为 HA 对运行。在正常操作下,每个 OSS 节点拥有并操作 SSU-F 中的两个 Lustre 对象存储目标 (OST) 之一。如果发生 OSS 故障转移,则故障 OSS 的 HA 伙伴操作两个 OST。
通常,两个 OSS 都同时处于活动状态,每个都在其自己的可用 OST 的专有子集上运行。因此,每个 OST 都是主动的:被动的。
ClusterStor E1000 SSU-F 装有 24 个 SSD。对于吞吐量优化配置,大约两半容量分别配置有 ClusterStor 的 GridRAID 非集群奇偶校验和使用 LDISKFS 的备用 RAID 系统。对于 IOP 优化的 SSU-F 配置,使用不同的 RAID 方案来改进小型随机 I/O 工作负载。
每个控制器都可以配置两个或三个配置了 Multi-Rail LNet 的高速网络适配器,以利用每个 SSU-F 的最大吞吐量性能。ClusterStor E1000 配置可以扩展到许多 SSU-F 和/或与 SSU-D 结合以达到指定的性能要求。
E1000 可扩展存储单元 – 磁盘 (SSU-D)
E1000 SSU-D 为具有与 SSU-F 类似的 OSS 和 OST 功能的文件系统提供基于 HDD 的文件 I/O 数据服务和网络请求处理。具体来说,SSU-D 是一个 2U 存储机箱,具有双 PSU、双服务器模块 (EAC) 和 SAS HBA 的 HA 配置,用于连接到 JBOD 磁盘机箱。JBOD 的数量由客户按订单配置为 1、2 或 4。
每个 JBOD 配置有 106x SAS HDD 并包含两个 Lustre OST,每个配置有 ClusterStor 的 GridRAID 非集群奇偶校验和使用 LDISKFS 或 OpenZFS 的备用 RAID 系统。
与 SSU-F 一样,每个 OSS 在其中一个服务器模块上运行,形成一个节点,两个 OSS 节点作为 HA 对运行。通常每个 OSS 节点都拥有并运行 SSU-D 中的两个 Lustre 对象存储目标 (OST) 之一。如果发生 OSS 故障转移,则故障 OSS 的 HA 伙伴操作两个 OST。两个 OSS 同时处于活动状态,每个都在其可用的主动:被动 OST 的专有子集上运行。
ClusterStor E1000 可以扩展到许多 SSU-D 和/或与 SSU-F 结合以达到指定的性能要求。
评论
Frontier 的 Lustre/ClusterStor 系统是拆分的,用于元数据存储、基于闪存的数据存储和基于容量磁盘的存储的服务器和目标节点——以及用于数据引用或移动计算进程的路由器节点——与基本数据存储处理分离,并使整个分布式结构能够并行高速运行。
Frontier 需要这样一个复杂的多组件系统,以保持其计算节点为其提供所需的数据,并带走(写入)它们产生的数据,而不会因 IO 等待而冻结核心。当超大规模 IT 系统接近百亿亿次时,它们很可能需要数据存储和数据访问管理节点之间的这种结构分离。它们甚至可能已经在超大规模数据中心的深处使用。
【公司名称】四川旭辉星创科技有限公司
【代理级别】成都惠普HPE服务器工作站总代理
【销售经理】熊经理
【联系方式】座机:028-85596747 手机:18244236404
【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913
友情链接: 成都惠普服务器总代理成都HP工作站代理商四川慧与存储器代理商成都服务器总代理成都H3C服务器总代理四川HP图形工作站总代理 成都戴尔服务器工作站总代理 成都联想服务器工作站总代理 成都浪潮服务器总代理 成都华为/超聚变服务器总代理 成都华三(H3C)服务器总代理 四川戴尔台式机笔记本销售中心 四川联想服务器总经销商 成都dell台式机笔记本直销中心
四川旭辉星创科技有限公司 Copyright 2021-2022 hpezdl.com 版权所有ICP证:蜀ICP备2021010826号-3
请用微信扫描二维码