西部数据通过 MLPerfa Storage V2 测试结果,验证其真实场景下的 AI 存储性能

随着 AI 工作负载的复杂性和规模与日俱增,存储系统能否跟上加速计算基础设施的发展步伐,已成为影响整体性能的关键因素。

西部数据(NASDAQ: WDC)近日公布其 MLPerf Storage V2 测试结果,验证了旗下 OpenFlex Data24 4000 系列 NVMe-oF 存储平台在真实场景中的应用能力。这些结果证实,OpenFlex Data24 EBOF(高速网络全闪存储扩展柜)能够满足现代 AI 工作负载的严苛需求,并以一种经济高效的方式,为现代 AI 基础设施提供了卓越性能、更高效率和更强的可扩展性。

面向大规模 AI 的真实场景测试

西部数据的 OpenFlex Data24 NVMe-oF 存储平台将 NVMe 闪存的高性能扩展至以太网架构,从而为可扩展的分离式 AI 基础设施提供低延迟的共享存储。该平台的设计旨在简化部署、降低成本,并能随 GPU 需求的增长而同步扩展,可实现存储与计算资源的独立扩展,带来更高的灵活性。

为了模拟真实且严苛的部署场景——即存储系统必须与加速 GPU 基础设施保持同步,西部数据与 PEAK:AIO 合作开展了此次测试。作为一家高性能软件定义存储(SDS)提供商,PEAK:AIO 能够高速接收、缓存并分发海量数据。

此次通过验证的方案选用了铠侠 CM7-V 系列 NVMe 固态硬盘,当被部署在 OpenFlex Data24 机箱中时,可为众多 GPU 客户端节点提供持续、高性能的解耦式数据交付,在严苛的 AI 工作负载下仍然表现出色。

MLPerf Storage V2 基准测试结果

MLPerf 在 AI 基准测试领域业内是被广泛认可的权威标准。此次西部数据的MLPerf Storage V2 测试结果表明,其 OpenFlex Data24 存储平台的架构不仅具备大规模扩展性能,更兼顾了效率和实际部署中的经济效益,且不需要软件定义存储(SDS)层的情况下仍表现出色。

MLPerf Storage 采用 GPU 客户端节点,以评估存储平台在多并发 GPU 客户端环境下对分布式 AI 场景的支持能力。这些节点通过模拟 AI 服务器在训练或推理过程中访问存储的行为,从而生成真实环境下 GPU 工作负载的典型 I/O 负载模式。

MLPerf 存储套件中的 AI 训练测试,旨在衡量系统为 AI 工作负载提供服务的效率,这些工作负载在运行各种深度学习模型时,会对存储 I/O 的吞吐量和并发性等不同方面构成压力。MLPerf 主要使用以下两个关键的工作负载基准测试:

3D-UNet 工作负载

3D-UNet 是一种应用于医学影像和体积分割领域的深度学习模型。由于其庞大的三维输入数据集以及密集的数据流式读取模式,该模型对存储系统负载有更高的要求。因此,在展示多节点 AI 工作流中持续的高带宽与低延迟性能方面,3D-UNet 是一个更为严苛的基准测试。

在此模型中:

  • 西部数据的 OpenFlex Data24 实现了高达 106.5 GB/s(99.2 GiB/s)的持续读取吞吐量,足以使跨越三个物理客户端节点的 36 个模拟 H100 GPU 达到饱和状态,这证明了该 EBOF 能够轻松应对带宽密集型、高并行度的训练任务。
  • 在与配置 PEAK:AIO 软件的AI智算服务器配合使用时,OpenFlex Data24 能够提供 64.9 GB/s(59.6 GiB/s)的吞吐量,仅通过单个主服务器和单个客户端节点,即可使 22 个模拟 H100 GPU 达到饱和状态。

ResNet50 工作负载

ResNet-50 是一种广泛用于图像分类的卷积神经网络。它常被用作训练吞吐量的基准,因为它代表了计算与数据移动之间的一种均衡组合。该模型兼具随机和顺序 I/O 模式,并涉及中等大小的图像读取,因此非常适用于评估一个系统在处理对较小文件的高频访问和快速迭代周期方面的能力。

在此模型中:

  • 西部数据的 OpenFlex Data24 展现了其优秀性能,能够支持横跨三个客户端节点的 186 个模拟 H100 GPU 的运行,其出色的 GPU 与存储驱动器比率,充分体现了该平台对物理存储介质的高效利用。
  • 在与配置 PEAK:AIO 软件的AI智算服务器配合使用时,OpenFlex Data24 能够仅通过单个主服务器和单个客户端节点,使 52 个模拟 H100 GPU 达到饱和状态。

无论是对于刚刚开启 AI 之旅,还是已经扩展到数百个 GPU 规模的企业,西部数据 OpenFlex Data24 凭借其业界领先的连接能力,搭配 Western Digital RapidFlex™ 网络适配器,无需交换机即可连接多达 12 台主机。

这一数据存储平台为 AI 基础设施的增长提供了一种简化、可预测且高性能的路径,同时避免了某些其他方案所带来的高昂前期成本和功耗要求,使其成为企业安心扩展 AI 工作负载的理想选择。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1