国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看

MLPerf揭榜:拆解“黃金標準”背后的AI存儲新姿勢

文 | 智能相對論(aixdlun)

作者 | 葉遠風

大模型正在進入普遍萬億參數(shù)時代。

一方面,算力的重要性近一步提升;另一方面,萬億參數(shù)的壓力同樣給到了存儲——如果說過去AI計算對存儲性能的需求似乎還不那么急迫,那么現(xiàn)在存儲性能能否跟上,正在很大程度上決定AI創(chuàng)新的成敗。

企業(yè)如何選擇最能契合需要的存儲產(chǎn)品方案?

不久前,全球權(quán)威AI性能評測組織公布最新MLPerf? Storage v2.0基準測試結(jié)果,這份權(quán)威榜單,除了直接給出企業(yè)如何選擇供應商的參考,更給出了一份存儲面向萬億參數(shù)時代如何演進的答案。

與真實場景需求共舞,MLPerf“黃金標準”再進化

2018年,早在大模型還沒起勢時,谷歌、英偉達、英特爾、哈佛大學等 70余家頂尖科技企業(yè)和學術(shù)機構(gòu)就聯(lián)合推動發(fā)起了MLPerf,要通過統(tǒng)一框架避免廠商自測的片面性,覆蓋訓練、推理、存儲、HPC等全場景測試,為用戶提供客觀采購依據(jù)。

到目前為止,MLPerf已經(jīng)被公認為AI硬件性能的“黃金標準”,全球頭部企業(yè)(英偉達、谷歌、AMD、華為等)均定期提交測試結(jié)果。

可以看到,無論發(fā)起者還是參與者都是當下最前沿的科技企業(yè),有著對AI計算發(fā)展最深度的理解,這使得MLPerf并非AI時代很多榜單那樣的“奧數(shù)競賽”(只為了刷分數(shù)而與現(xiàn)實需要脫節(jié)),而是一直來源于現(xiàn)實,并且指導現(xiàn)實技術(shù)進化。

因此,看待MLPerf榜單,絕不能僅僅從參數(shù)排行來看,而更應該關(guān)注它背后的規(guī)則邏輯,這些規(guī)則邏輯代表著AI計算實踐過程中最符合企業(yè)實際需要的現(xiàn)實。

典型如,MLPerf存儲基準測試在規(guī)則上的變化過程,去年該測試進行了一次適應性升級到了V1.0版本(這次是2.0版本,規(guī)則沿用),最大的不同是核心指標發(fā)生變化,即在給定的訓練模型和GPU型號下,存儲系統(tǒng)能支持的GPU數(shù)量,而非每GPU帶寬值或每計算節(jié)點帶寬值——這次的MLPerf存儲基準測試,其目標就是滿足一定加速器利用率的前提下,測試出存儲系統(tǒng)能夠支持的最大加速器數(shù)量以及能夠提供的最大帶寬。

規(guī)則變更的背景,是萬億參數(shù)時代到來,訓練數(shù)據(jù)集的規(guī)模正從TB級別上升至PB級,存儲系統(tǒng)必須具備強大的擴展能力和對大規(guī)模AI集群的支持能力,畢竟,支持更多的GPU數(shù)量將會決定系統(tǒng)性能的“上限”(固定資產(chǎn)投資方面也更能攤薄邊際成本),只糾結(jié)單個GPU性能數(shù)據(jù)的參考意義并不大。

華為OceanStor A系列存儲聯(lián)合濟南超級計算技術(shù)研究院(JNIST)的合作解決方案,在此次MLPerf測試中獲得單存儲設(shè)備、每U存儲設(shè)備及單客戶端性能等榜單上的全球第一,原因就在于此。

從直接的參數(shù)性能來看,在Training場景中,單臺8U雙節(jié)點架構(gòu)的OceanStor A800獲得單存儲設(shè)備性能第一,持續(xù)提供698 GiB/s的穩(wěn)定帶寬:

單臺2U雙節(jié)點架構(gòu)的OceanStor A600獲得每U設(shè)備及單客戶端性能第一,其中每U帶寬穩(wěn)定達108 GiB/s,單客戶端帶寬達104 GiB/s:

同樣的命題,顯著的領(lǐng)先,離不開華為OceanStor A800以單臺8U雙節(jié)點架構(gòu)可支撐255張H100 GPU訓練數(shù)據(jù)吞吐需求,而OceanStor A600以單臺2U雙節(jié)點架構(gòu)的可支撐76張H100 GPU訓練場景的吞吐需求。

不是有人“打榜”到了第一,而是一貫來源于實際需求的MLPerf在告訴業(yè)界什么才是最符合需要的,這才是“黃金標準”的內(nèi)涵。

如此,MLPerf也才能反過來引導和推進技術(shù)創(chuàng)新,帶來英偉達Blackwell的FP4精度、TensorRT-LLM框架優(yōu)化、Untether AI芯片能效提升等“榜單測試反哺技術(shù)創(chuàng)新”的經(jīng)典案例。

值得一提的是,多加速器支持并不是所有場景的AI存儲需求都十分迫切,那些足夠有實力的廠商要想充分體現(xiàn)自己在新需求下的能力,必須選擇更能壓榨性能的用例。因此可以看到華為存儲在MLPerf Storage Traning場景下3D U-Net、Resnet50、cosmoflow三個用例中,選擇了(在H100算力卡下)3D U-Net這個對存儲帶寬壓力最大的訓練用例,這樣才能將其多加速器支持進行最極致的展現(xiàn),充分表達存儲產(chǎn)品的性能。

“強化協(xié)同下的資源池化”——AI計算、存儲發(fā)展趨勢殊途同歸

不久前的世界人工智能大會上,384塊昇騰910C組合在一起昇騰384超節(jié)點成為全場焦點:

以更多的芯片數(shù)量進行AI計算,資源“池化”集群獲得高算力(昇騰384超節(jié)點總算力高達300 PFLOPS),類似的還有英偉達的NVIDIA GB200 NVL72集群系統(tǒng),72個GPU實現(xiàn)180 PFLOPS算力。

MLPerf在存儲方面評測規(guī)則及勝出廠商的玩法,其實與這種AI計算性能的發(fā)展邏輯同向而行。當多芯片資源的池化整合大大拉升AI計算的能力上限,對應地,存儲去支持更多的GPU數(shù)量、實現(xiàn)總帶寬突破而不糾結(jié)對單個GPU支撐能力數(shù)據(jù),也是大勢所趨。

在這個過程中,協(xié)同能力是關(guān)鍵——不能“無腦堆砌”,“強化協(xié)同下的資源池化”才有意義。英偉達用于卡間互聯(lián)的NVLink技術(shù)以及傳統(tǒng)銅纜傳遞數(shù)據(jù)支撐不起更龐大的集群,其集群算力比不過有光通信支持的昇騰超節(jié)點。

在AI存儲對多GPU的支持這里,也存在類似的現(xiàn)象。

由于多GPU計算存在“木桶效應”,在一個計算Step中,某一個GPU數(shù)據(jù)延遲會造成其他加速器“等待”,最終拖慢整個Step使得利用率降低、無法獲得預期的帶寬,存儲必須做到在高帶寬壓力下(意味著更多GPU),也能夠給訓練系統(tǒng)提供穩(wěn)定的低時延(提升利用效率),華為OceanStor A系列存儲正是與合作伙伴JNIST一起解決了這一“既要又要”難題才最終登頂榜首。

換句話說,在AI存儲這里,不是你想要支撐更多GPU就能支撐起來的,做好協(xié)同才能不斷提升帶寬上限,否則“加法”的效率會越來越低。

“屏蔽復雜性”,存儲創(chuàng)新回歸IT服務本質(zhì)

“強化協(xié)同下的資源池化”對企業(yè)而言究竟意味著什么?

答案是IT供應商的本質(zhì)任務——屏蔽復雜性,無論是AI計算還是AI存儲,企業(yè)只需要索求一個最終的結(jié)果,有限預算下更強大的算力或者更高的帶寬,各種復雜技術(shù)協(xié)同都由供應商來解決。

這個底層邏輯推動著那些優(yōu)質(zhì)存儲廠商的發(fā)展,登頂MLPerf的華為OceanStor A系列產(chǎn)品,在更體系化的層面是華為AI存儲解決方案的一部分,后者在更整體上幫助企業(yè)全面屏蔽復雜性,才有了前者的“出街”。

具體來看,數(shù)據(jù)在當下已經(jīng)成為企業(yè)的重要資產(chǎn),但過去普遍的基礎(chǔ)設(shè)施分開建設(shè)的做法,讓企業(yè)們形成了“煙囪式”數(shù)據(jù)孤島,這是數(shù)字化時代留給智能化時代的負面遺產(chǎn),它很“復雜”,嚴重影響到企業(yè)的AI創(chuàng)新。

而華為存儲站了出來,基于過去長期服務企業(yè)的經(jīng)驗,幫助企業(yè)“屏蔽復雜性”,構(gòu)建起了統(tǒng)一的AI數(shù)據(jù)湖解決方案。不管企業(yè)數(shù)據(jù)再亂、再復雜,需要支撐AI計算的時候,華為的方案創(chuàng)新都能幫助企業(yè)“抹平”數(shù)據(jù)到計算的鴻溝,智能分級流動,打破數(shù)據(jù)孤島,保證AI數(shù)據(jù)高效供給,大幅提升AI集群算力利用率,節(jié)省大模型訓練時間。

這是一種“瞌睡遇枕頭”式的創(chuàng)新,在這個創(chuàng)新體系中,除了OceanStor A系列,華為存儲還提供大容量存儲池,滿足企業(yè)多模態(tài)、萬億參數(shù)大模型容量訴求,以及數(shù)據(jù)保護全面保障數(shù)據(jù)安全。

順著這個思路往下看,很多存儲創(chuàng)新都更能夠被理解,例如當企業(yè)需要不同類型的數(shù)據(jù)范式時,華為存儲構(gòu)建PB級KV Cache全局共享資源池,不僅10倍提升推理吞吐,還內(nèi)置RAG知識庫,各種“雜七雜八”的數(shù)據(jù)形式都被支持,企業(yè)不需要直面這些“復雜性”,只需要放手發(fā)展自己的AI能力即可。

總而言之,MLPerf榜單的“登頂”者,向業(yè)界展現(xiàn)的是一系列圍繞市場最真實需要的存儲創(chuàng)新進化過程,這不是一次簡單的“打榜”,而是創(chuàng)新風向的指南針。

特別聲明:本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點,不代表DoNews專欄的立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)

標簽: AI
MLPerf揭榜:拆解“黃金標準”背后的AI存儲新姿勢
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號-1