近日,聯(lián)想萬全異構(gòu)智算研發(fā)團隊的論文《RNL: RoCE Network Loadbalance with AI Traffic Characteristics and Link Congestion Awareness》被IEEE CyberSciTech 2025大會成功接收,并即將收錄于IEEE DL和EI Indexed。
IEEE是全球最大的專業(yè)技術(shù)組織,其中CyberSciTech已成為衡量技術(shù)創(chuàng)新與學(xué)術(shù)價值的重要標(biāo)尺。作為聚焦人工智能、計算機與網(wǎng)絡(luò)技術(shù)的中高級國際會議,IEEE CyberSciTech每年吸引全球上千名頂尖專家學(xué)者參與。論文錄用率嚴(yán)苛,僅有三十余篇成果能通過前沿性與突破性雙重評審,被收錄至IEEE Xplore和EI數(shù)據(jù)庫。這些論文大多在業(yè)界被廣泛引用,具有深遠的國際影響力。
此次聯(lián)想被收錄的論文提出了一項創(chuàng)新性的RNL技術(shù),通過多維感知、路徑負(fù)載均衡優(yōu)化與增量流量遷移,有效解決了AI訓(xùn)練與推理場景中RoCE網(wǎng)絡(luò)負(fù)載均衡的長期難題。這一成果不僅獲得了國際學(xué)術(shù)界的認(rèn)可,更標(biāo)志著聯(lián)想在AI異構(gòu)計算網(wǎng)絡(luò)領(lǐng)域的技術(shù)實力步入全球前沿。

隨著大語言模型參數(shù)規(guī)模爆發(fā)式增長,AI集群規(guī)模不斷擴大,RoCEv2(RDMA over Converged Ethernet v2)已成為AI網(wǎng)絡(luò)的主流協(xié)議。然而,AI訓(xùn)練與推理基于通信原語(如all-gather、all-reduce)進行數(shù)據(jù)傳輸,這種模式容易導(dǎo)致網(wǎng)絡(luò)流量呈現(xiàn)“低熵、大象流”特征,極易引發(fā)負(fù)載不均和鏈路擁塞,嚴(yán)重制約帶寬利用率與整體性能。
面對AI業(yè)務(wù)對低延遲、高吞吐的嚴(yán)苛需求,傳統(tǒng)廠商主要通過專用硬件交換設(shè)備感知連接關(guān)系,實現(xiàn)負(fù)載均衡優(yōu)化,但方案高度依賴自身硬件生態(tài),成本高昂且靈活性不足。因此,行業(yè)亟需一種通用、高效且經(jīng)濟的解決方案。
針對上述痛點,聯(lián)想萬全異構(gòu)智算研發(fā)團隊創(chuàng)新性提出的RNL技術(shù),可以構(gòu)建“多維感知+路徑負(fù)載均衡+增量遷移”閉環(huán)體系,兼具算法創(chuàng)新與實用價值:
首先是多維感知機制,可以實時感知網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、AI任務(wù)網(wǎng)絡(luò)需求及RoCE鏈路負(fù)載狀態(tài),為動態(tài)調(diào)度提供數(shù)據(jù)基礎(chǔ)。
其次是路徑負(fù)載均衡優(yōu)化,通過虛擬-物理網(wǎng)絡(luò)映射與路徑評分算法,智能選擇最優(yōu)數(shù)據(jù)傳輸路徑,最大化帶寬利用率。
第三是增量流量遷移,該技術(shù)采用增量遷移策略,在鏈路流量調(diào)整時避免瞬時延遲,確保業(yè)務(wù)連續(xù)性。
與傳統(tǒng)方案不同,RNL基于通用RoCE交換機實現(xiàn)AI網(wǎng)絡(luò)優(yōu)化,無需綁定專用硬件,顯著降低了部署成本。其核心創(chuàng)新在于融合AI業(yè)務(wù)通信帶寬與時延評估算法,結(jié)合多維鏈路擁塞評估機制,實現(xiàn)對AI負(fù)載的精準(zhǔn)調(diào)度與網(wǎng)絡(luò)路徑的智能編排。
在實測環(huán)境中,RNL技術(shù)不僅展現(xiàn)出高可靠性,更體現(xiàn)出在提升AI業(yè)務(wù)效率與降低總擁有成本(TCO)方面的雙重優(yōu)勢。在性能提升方面,集合通信原語性能提升50%,帶寬利用率達85%,負(fù)載均衡離散度降低90%;AI推理場景下,TPS(每秒處理事務(wù)數(shù))提升26%,TTFT(首字節(jié)時間)時長減少 30%,TPOT(每輸出令牌時間)時長減少 22%;整體部署成本降低60%,為AI集群的規(guī)?;涞靥峁┝私?jīng)濟高效的網(wǎng)絡(luò)基礎(chǔ)。

RNL技術(shù)巧妙實現(xiàn)了成本與靈活性的雙贏。通過純算法創(chuàng)新,該技術(shù)在通用RoCE交換機上實現(xiàn)了同等甚至更優(yōu)的性能表現(xiàn)。這一突破不僅打破了傳統(tǒng)廠商的技術(shù)壟斷,更為用戶提供了高性價比、易部署的替代選擇,助力企業(yè)在AI競賽中快速構(gòu)建競爭優(yōu)勢。
目前,RNL技術(shù)已納入聯(lián)想萬全異構(gòu)智算平臺的落地規(guī)劃,這將進一步鞏固聯(lián)想萬全異構(gòu)智算平臺在AI異構(gòu)計算市場的技術(shù)壁壘,提升其行業(yè)影響力與核心競爭力。此前,聯(lián)想萬全異構(gòu)智算平臺已在教育科研、工業(yè)/制造、云計算、大數(shù)據(jù)等領(lǐng)域打造一系列標(biāo)桿案例:例如,在行業(yè)級&科研級智算場景,聯(lián)想與北大深度配合,共同打造了重大科技基礎(chǔ)設(shè)施算力平臺,減少運維成本50%,GPU資源利用率從70%提升至90%;在制造業(yè),聯(lián)想與吉利共同打造了標(biāo)桿級的智能算力集群,實現(xiàn)企業(yè)混合算力場景下的成本優(yōu)化。
未來,聯(lián)想計劃將RNL技術(shù)擴展至高性能存儲、HPC等場景,并引入深度學(xué)習(xí)算法優(yōu)化擁塞預(yù)測能力。同時,聯(lián)想將在千卡、萬卡節(jié)點的大型AI集群中驗證其綜合性能,持續(xù)推動AI網(wǎng)絡(luò)技術(shù)的創(chuàng)新與迭代。
此次聯(lián)想萬全異構(gòu)智算研發(fā)團隊的創(chuàng)新成果,不僅是其科研實力的集中展現(xiàn),更是聯(lián)想在前沿技術(shù)領(lǐng)域不斷追求、不斷突破的生動寫照。在AI大模型邁向萬卡級集群的背景下,聯(lián)想將繼續(xù)以技術(shù)創(chuàng)新為核心,持續(xù)打造穩(wěn)定、高效的智算引擎,助力AI技術(shù)的規(guī)模化落地,推動AI算力普惠新時代。