近日,聯(lián)想集團(tuán)宣布基于聯(lián)想問天WA7780 G3服務(wù)器,在行業(yè)內(nèi)首次實現(xiàn)單機(jī)部署DeepSeek-R1/V3 671B大模型,以低于行業(yè)公認(rèn)1TGB顯存(實際768GB)承載多并發(fā)用戶流暢體驗,可以滿足千人企業(yè)的使用需求,為行業(yè)樹立了企業(yè)級大模型部署新基準(zhǔn)。
聯(lián)想問天WA7780 G3大模型訓(xùn)推一體服務(wù)器
突破性能限制,樹立DeepSeek-R1大模型部署新基準(zhǔn)
作為全球關(guān)注的焦點,眾多企業(yè)正準(zhǔn)備在本地化部署DeepSeek大模型。然而,在落地實施過程中用戶普遍面臨以下關(guān)鍵決策難題:單機(jī)能否部署滿血版DeepSeek R1?所需最低配置是什么?如何確保高并發(fā)與吞吐量下的優(yōu)質(zhì)體驗?如何避免采購陷阱?
聯(lián)想此次突破為企業(yè)提供科學(xué)選型指南。針對行業(yè)公認(rèn)1TB顯存是千億參數(shù)大模型運(yùn)行基線的背景下,聯(lián)想研發(fā)團(tuán)隊通過專家并行優(yōu)化、智能訪存架構(gòu)升級及PCIe 5.0全互聯(lián)架構(gòu)創(chuàng)新,大幅提升了顯存利用率,從而實現(xiàn)了性能的提升。
據(jù)了解,聯(lián)想WA7780 G3服務(wù)器在2月初已實現(xiàn)單機(jī)768GB GPU顯存條件下部署DeepSeek 671B R1和V3滿血模型,并能滿足中小企業(yè)的并發(fā)需求。進(jìn)而通過聯(lián)想萬全異構(gòu)智算平臺的訪存優(yōu)化,專家并行調(diào)用策略等技術(shù)優(yōu)化手段,實現(xiàn)了單機(jī)一個月內(nèi)并發(fā)能力增長10倍, 同時還提升了每路用戶的TPOT、TTFT等綜合性能體驗
持續(xù)優(yōu)化升級,解決用戶體驗難題
聯(lián)想的這一創(chuàng)新成果揭示了設(shè)備選型的新維度,也提醒企業(yè)審慎評估各種測試數(shù)據(jù),摒棄對總吞吐量和總并發(fā)數(shù)等指標(biāo)的片面追求,而應(yīng)從用戶體驗出發(fā),關(guān)注這些指標(biāo)背后的隱藏信息,如數(shù)據(jù)精度等。實際上,如果將數(shù)據(jù)精度從FP8轉(zhuǎn)為int8或int4(即量化),雖能明顯改善性能表現(xiàn)(如更高并發(fā)量和高吞吐量),但會犧牲結(jié)果的準(zhǔn)確性,顯然這不是用戶所期望的。
需要特別指出的是,高吞吐量和高并發(fā)量也并不等同于用戶體驗好。若服務(wù)器GPU卡配置不高,局部通信瓶頸可能引發(fā)響應(yīng)延遲使體驗降級,這正是聯(lián)想著力解決的難點之一。
毫無疑問,聯(lián)想技術(shù)突破將有效破除大模型落地瓶頸,顯著加速大模型在企業(yè)的落地進(jìn)程。未來,聯(lián)想基礎(chǔ)設(shè)施業(yè)務(wù)群與聯(lián)想研究院ICI實驗室將繼續(xù)攜手合作,依托聯(lián)想萬全異構(gòu)智算平臺對DeepSeek平臺從AI預(yù)訓(xùn)練、后訓(xùn)練到推理的全流程進(jìn)行持續(xù)優(yōu)化,為客戶奉獻(xiàn)出性能更佳、性價比更高的產(chǎn)品和解決方案,以加速DeepSeek大模型的落地,推動新一輪生產(chǎn)力革命。