搜索新聞

單存儲節(jié)點支持700+ GPU訓練！華瑞指數(shù)云首秀登頂MLPerf全球存力榜

來源：投影時代　更新日期：2025-08-06 作者：佚名

商顯市場最大的看點何在年度評選盛典獲獎揭曉 Infocomm China 深入報道

北京時間8月4日23時，全球最具權威的AI性能基準評測組織MLCommons®正式發(fā)布了最新一輪MLPerf™Storage v2.0存儲性能基準測試的結果。華瑞指數(shù)云ExponTech作為AI-Native企業(yè)級全場景數(shù)據(jù)基礎設施的領導者，與DDN, IBM, HPE, 華為，Hammerspace等眾多國際國內領先的廠商同臺競技，憑借創(chuàng)新技術方案和產品參與測試，取得極為出色的成績，多項指標位居世界第一。

本次測試中，ExponTech與合作伙伴英偉達，Scaleflux, AIC深度合作，采用了軟件，硬件均有顯著創(chuàng)新的產品方案，目標是驗證在AI場景下，采用新一代分布式存儲軟件棧驅動更加精簡，高效的硬件方案，達到更高的性能密度，容量密度和更低的成本，同時在網絡方面采用RoCE網絡，驗證其大規(guī)模組網能力以及整體存儲方案的大規(guī)模擴展能力和并行訪問能力。

硬件方面：

與其他參測者采用的許多臺高配置的存儲服務器+IB網絡的整體方案不同，ExponTech方案的存儲節(jié)點僅使用一臺2U的AIC盤框(JBOF F2026)，盤框本身沒有配置CPU和內存，沒有處理能力，主要提供很高的容量密度和硬件可靠性，2U空間可以最多配置26塊SSD盤，本次測試配置24塊Scaleflux CSD 5000帶壓縮功能的SSD盤。

盤框內插入4張英偉達Bluefield-3 DPU卡，每個DPU提供200Gbps*2 RoCE網絡帶寬。ExponTech WADP分布式存儲軟件完全運行于DPU內，提供高性能，高可靠，功能豐富的分布式存儲層。

網絡方面，采用4臺英偉達Spectrum-X 交換機組成一個2層的 RoCE 網絡, 驗證大規(guī)模組網時的擁塞控制能力�；谶@個2層RoCE網絡以及ExponTech WADP分布式存儲軟件，可以擴展到連接1024臺盤框，形成一個EB級容量，上百TB級存儲帶寬的超大規(guī)模高性能存儲池。

軟件方面：

ExponTech WADP (WiDE AI Data Platform) 分布式存儲軟件，該軟件基于完全自主研發(fā)的下一代分布式存儲引擎WiDE以及下一代分布式元數(shù)據(jù)引擎天樞構建，在相同的存儲池空間內，向上提供豐富的協(xié)議接口，包括塊存儲(NVMe-oF, vhost, iSCSi, CSI-NVMe-oF)，文件存儲（POSIX, NFS, SMB）, 對象存儲（S3），KV接口等。本次測試的WADP軟件，以分布式架構的方式完全運行于4張Bluefield-3 DPU內，每張DPU僅配置了一塊16核的CPU以及48GB內存，顯示了WADP軟件棧極其高效的硬件利用效率和IO處理能力。

部署架構圖：

單存儲節(jié)點支持700+ GPU訓練！華瑞指數(shù)云首秀登頂MLPerf全球存力榜

測試結果：

1、基于1個2U的存儲節(jié)點以及1個客戶端和2個客戶端的測試結果顯示，可以輕松滿足模型ResNet-50的訓練需求，單客戶端能夠支持的GPU卡的數(shù)量最高達到240塊，帶寬23.6GiB/s，在存儲節(jié)點硬件采用DPU+JBOF, CPU和內存都不是很強（AI 控成本）的前提下，依然領先參與測試的所有廠商方案，位居世界第一。具體的測試結果數(shù)據(jù)如下：

單存儲節(jié)點支持700+ GPU訓練！華瑞指數(shù)云首秀登頂MLPerf全球存力榜

通過上述測試數(shù)據(jù)測算，ExponTech WADP使用一個2U的存儲節(jié)點，在配置4個客戶端的場景下，可以支持超過700塊 A100 GPU訓練卡和約400塊 H100 GPU訓練卡的訓練需求，穩(wěn)定提供70+GiB/s的帶寬，逼近存儲節(jié)點網絡帶寬極限。ExponTech WADP也可以支持擴展到更多的2U存儲節(jié)點，形成大規(guī)模高性能存儲集群，支持超大規(guī)模的AI訓練場景。

2、MLPerf™ Storage v2.0測試新推出的檢查點(Checkpoint)工作負載專門針對分布式擴展系統(tǒng)中大型語言模型(LLM)的訓練場景，重點優(yōu)化訓練過程的備份與恢復速度。ExponTech WADP方案在Llama3-8B模型的實際測試數(shù)據(jù)位于全球領先水平。

單存儲節(jié)點支持700+ GPU訓練！華瑞指數(shù)云首秀登頂MLPerf全球存力榜

ExponTech WADP方案的實測寫帶寬16.9GiB/s, 略低于JINIST(采用Huawei OceanStor A800方案)的19.4GiB/s以及ANL(采用開源DAOS方案)的18.1GiB/s, 位居世界第三。但是值得注意的是，ExponTech WADP方案采用的存儲硬件配置遠低于前兩者，使用的物理盤容量僅為前兩者的1/5, 展現(xiàn)了極為優(yōu)異的存儲軟件棧效率。如果以Checkpoint寫入帶寬/容量來計算寫入效率，ExponTech WADP排名將遙遙領先居第一。

亮點總結：

超高密度與能效，僅使用單臺2U JBOF設備搭載DPU作為存儲節(jié)點，硬件配置規(guī)格遠低于其他的測試方案，展示出了超高的容量密度，性能密度和能效。

超高性能表現(xiàn)，在硬件規(guī)格非常低的前提下，依然展示了超高性能表現(xiàn)，在Resnet50模型訓練測試中，單客戶端支持的GPU卡數(shù)和帶寬排世界第一，Llama3模型的Checkpoint寫入帶寬排世界第三，但使用了最少的SSD盤數(shù)，以Checkpoint寫入帶寬/容量來計算寫入效率，ExponTech WADP方案排名將遙遙領先居第一，展示了WADP存儲軟件極為高效的硬件利用效率。

極致I/O效率，多輪測試均穩(wěn)定保持96%以上的GPU平均利用率（AU）。

彈性擴展能力，WADP分布式軟件架構可并行擴展到1024個節(jié)點，實現(xiàn)存儲容量，IOPS和帶寬的同步并行擴展，同時保持穩(wěn)定的微秒級時延。

可擴展網絡驗證，四臺NVIDIA Spectrum-X交換機搭建兩層RoCE網絡，擁塞控制表現(xiàn)優(yōu)異。結合ExponTech WADP分布式存儲軟件，方案可橫向擴展至超大規(guī)模AI訓練/推理場景。

存儲效率倍增，ScaleFlux CSD5000 SSD提供透明數(shù)據(jù)壓縮/解壓縮，在零性能損耗、無額外資源消耗前提下實現(xiàn)存儲容量與效率倍增。

首次參與即在MLPerf™ Storage v2.0 AI Storage基準測試中取得優(yōu)異成績，這一成就不僅彰顯了華瑞指數(shù)云ExponTech存儲技術的強勁實力，更標志著華瑞指數(shù)云ExponTech在業(yè)界又達成了一個關鍵里程碑。此次測試延續(xù)了WADP（以其子產品WDS名義）在2023年創(chuàng)下的SPC-1基準測試世界紀錄，印證了其在企業(yè)關鍵業(yè)務（SPC-1：全球存儲性能委員會）與AI工作負載（MLPerf Storage）領域的雙重競爭力，是目前全球唯一的一個能夠在SPC-1和MLPerf Storage上都能夠測試出頂級成績的分布式存儲軟件，成為真正覆蓋全場景的企業(yè)級AI統(tǒng)一平臺。在未來企業(yè)把AI工作負載與企業(yè)關鍵業(yè)務進行結合，實現(xiàn)AI能力在企業(yè)業(yè)務流程中全面落地的過程中，ExponTech WADP平臺將發(fā)揮出更加全面的價值。

未來，華瑞指數(shù)云ExponTech將在AI大模型領域持續(xù)深耕，不斷突破性能極限，打造全球領先的AI數(shù)據(jù)平臺，為企業(yè)賦能新質生產力。在統(tǒng)一的數(shù)據(jù)平臺產品上同時承載企業(yè)的核心生產系統(tǒng)和 AI 數(shù)據(jù)管道，幫助企業(yè)把核心生產數(shù)據(jù)與 AI 能力相結合，實現(xiàn) AI 在企業(yè)級場景的快捷落地。近期，華瑞指數(shù)云ExponTech將正式發(fā)布ExponTech WADP的最新版本，一款融合支持企業(yè)級生產業(yè)務和AI訓練推理業(yè)務，面向企業(yè)級AI的統(tǒng)一數(shù)據(jù)平臺底座產品，歡迎持續(xù)關注。

關于MLPerf™

MLPerf™是影響力最廣的國際AI 性能基準評測，由圖靈獎得主大衛(wèi)•帕特森（David Patterson）聯(lián)合谷歌、斯坦福大學、哈佛大學等頂尖學術機構共同發(fā)起成立，并于2023年推出 MLPerf™ Storage 基準性能測試，旨在公平公正且公開透明的統(tǒng)一基準來衡量 AI 工作負載的存儲系統(tǒng)性能。目前，MLPerf™ Storage 基準測試的最新版本為 v2.0，包含2類工作負載的測試：訓練（Training）和檢查點（Checkpointing），支持兩種模擬加速器（A100 和 H100），并涵蓋五種典型的模型訓練負載：3D-UNet，ResNet-50，CosmoFlow和Llama3。這些負載覆蓋了順序讀取、隨機讀取、小文件讀取等多種 I/O 場景，能夠全面評估存儲系統(tǒng)在不同場景下的吞吐量和延遲性能。

關于SPC-1

SPC-1（全球存儲性能委員會）是企業(yè)級存儲領域最權威的Benchmark評測，是一個專注于存儲行業(yè)供應商性能評測的中立機構。旨在評估存儲系統(tǒng)處理復雜請求和大規(guī)模數(shù)據(jù)的能力，對IO吞吐量、讀寫響應時間敏感度、工作負載動態(tài)變化、存儲容量利用率、用戶多樣化、數(shù)據(jù)持久性等多種數(shù)據(jù)特征進行嚴苛考量。

返回投影機頻道首頁