国产黄色无码在线播放,国产精品久久久久久久蜜臀

DoNews > 商業(yè) > 黃仁勛帶來“王炸”組合，ChatGPT又進(jìn)一步

黃仁勛帶來“王炸”組合，ChatGPT又進(jìn)一步

田小夢 2023-03-22 17:40:53

496095

分享到

撰文 | 田小夢

編輯 | 楊博丞

題圖 | NVIDIA

3月22日，在剛剛結(jié)束的GTC 大會上，NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛圍繞AI、芯片、云服務(wù)等前沿科技，帶來一系列“殺手級”技術(shù)和產(chǎn)品。

從OpenAI發(fā)布GPT-4，到百度發(fā)布文心一言，再到微軟將GPT-4接入自己全套辦公軟件Microsoft 365 Copilot，乃至昨日谷歌正式宣布開放 Bard 的訪問權(quán)限。在這AI的決定性時刻，黃仁勛也是激動地三次強調(diào)，“我們正處于AI的iPhone時刻”。

“如果把加速計算比作曲速引擎，那么AI就是動力來源。生成式 AI 的非凡能力，使得公司產(chǎn)生了緊迫感，他們需要重新構(gòu)思產(chǎn)品和商業(yè)模式?！秉S仁勛說道。

手握算力技術(shù)的英偉達(dá)自然是不會缺席AI產(chǎn)品。自今年年初ChatGPT爆火后，吸引了超過1億用戶，成為有史以來增長最快的應(yīng)用。英偉達(dá)的股價也是一路飆升，目前英偉達(dá)市值為6471億美元。

圖片來源：百度股市通

一、做AI界的“臺積電”

自十年前AlexNet面市以來，深度學(xué)習(xí)就開辟了巨大的新市場，包括自動駕駛、機器人、智能音箱，并重塑了購物、了解新聞和享受音樂的方式。隨著生成式AI掀起的新一波浪潮，使得推理工作負(fù)載呈階梯函數(shù)式增長。

對此，今日英偉達(dá)推出全新的推理平臺：四種配置—一個體系架構(gòu)—一個軟件棧，其中，每種配置都針對某一類工作負(fù)載進(jìn)行了優(yōu)化。

首先，ChatGPT等大型語言模型是一個全新的推理工作負(fù)載，GPT模型是內(nèi)存和計算密集型模型。同時，推理是一種高容量、外擴型工作負(fù)載，需要標(biāo)準(zhǔn)的商業(yè)服務(wù)器。為了支持像ChatGPT這樣的大型語言模型推理，黃仁勛發(fā)布了一款新的GPU——帶有雙GPU NVLink的H100 NVL，配備94GB HBM3顯存，可處理擁有1750億參數(shù)的GPT-3，還可支持商業(yè)PCIE服務(wù)器輕松擴展。

黃仁勛表示，目前在云上唯一可以實際處理ChatGPT的GPU是HGX A100，與適用于GPT-3處理的HGX A100相比，一臺搭載四對H100及雙GPU NVLINK的標(biāo)準(zhǔn)服務(wù)器的速度快10倍?！癏100可以將大型語言模型的處理成本降低一個數(shù)量級。”

其次，針對AI視頻工作負(fù)載推出了L4，對視頻解碼和編碼、視頻內(nèi)容審核、視頻通話功能等方面進(jìn)行了優(yōu)化如今，大多數(shù)云端視頻都在CPU上處理，一臺8-GPU L4服務(wù)器將取代一百多臺用于處理AI視頻的雙插槽CPU服務(wù)器。Snap是NVIDIA AI 在計算機視覺和推薦系統(tǒng)領(lǐng)域領(lǐng)先的用戶，Snap將會把L4用于AV1視頻處理生成式AI和增強現(xiàn)實。

再者，針對Omniverse、圖形渲染等生成式AI，推出L40，L40的性能是NVIDIA最受歡迎的云推理GPU T4的10倍。Runway是生成式AI領(lǐng)域的先驅(qū)，他們正在發(fā)明用于創(chuàng)作和編輯內(nèi)容的生成式AI模型。

此外，為用于推薦系統(tǒng)的AI數(shù)據(jù)庫和大型語言模型，推出了Grace Hopper超級芯片。通過900GB/s高速芯片對芯片的接口，NVIDIA Grace Hopper超級芯片可連接Grace CPU和Hopper GPU?！翱蛻粝Ｍ麡?gòu)建規(guī)模大幾個數(shù)量級的AI數(shù)據(jù)庫，那么Grace Hopper是最理想的引擎?！?/p>

與此同時，面對生成式AI的認(rèn)知將重塑幾乎所有行業(yè)的現(xiàn)狀。黃仁勛坦言稱:“這個行業(yè)需要一個類似臺積電的代工廠，來構(gòu)建自定義的大型語言模型。”

為了加速企業(yè)使用生成式AI的工作，黃仁勛發(fā)布了NVIDIA AI Foundations云服務(wù)系列，為需要構(gòu)建、完善和運行自定義大型語言模型及生成式AI的客戶提供服務(wù)，他們通常使用專有數(shù)據(jù)進(jìn)行訓(xùn)練并完成特定領(lǐng)域的任務(wù)。

NVIDIA AI Foundations包括NVIDIA NeMo是用于構(gòu)建自定義語言文本-文本轉(zhuǎn)換生成模型；Picasso視覺語言模型制作服務(wù)，適用于想要構(gòu)建使用授權(quán)或?qū)Ｓ袃?nèi)容訓(xùn)練而成的自定義模型的客戶，以及BioNeMo，助力2萬億美元規(guī)模的藥物研發(fā)行業(yè)的研究人員，幫助研究人員使用他們的專有數(shù)據(jù)創(chuàng)建、微調(diào)和提供自定義模型。

二、加深云服務(wù)體系

“云”也是此次發(fā)布會的重點之一，推出了NVIDIA DGX Cloud。

這項AI超級計算服務(wù)使企業(yè)能夠即時接入用于訓(xùn)練生成式AI等開創(chuàng)性應(yīng)用的高級模型所需的基礎(chǔ)設(shè)施和軟件。DGX Cloud可提供NVIDIA DGX AI超級計算專用集群，并配以NVIDIA AI軟件。

這項服務(wù)可以讓每個企業(yè)都通過一個簡單的網(wǎng)絡(luò)瀏覽器就能訪問自己的AI超級計算機，免除了購置、部署和管理本地基礎(chǔ)設(shè)施的復(fù)雜性。

黃仁勛表示：“初創(chuàng)企業(yè)正在競相打造顛覆性的產(chǎn)品和商業(yè)模式，老牌企業(yè)則在尋求應(yīng)對之法。DGX Cloud 使客戶能夠在全球規(guī)模的云上即時接入NVIDIA AI超級計算?！?/p>

目前，NVIDIA正與領(lǐng)先的云服務(wù)提供商一起托管DGX Cloud基礎(chǔ)設(shè)施，Oracle Cloud Infrastructure（OCI）首當(dāng)其沖，通過其OCI超級集群，提供專門構(gòu)建的RDMA網(wǎng)絡(luò)、裸金屬計算以及高性能本地塊存儲，可擴展到超過32000個GPU所組成的超級集群。微軟Azure預(yù)計將在下個季度開始托管DGX Cloud，該服務(wù)將很快擴展到Google Cloud等。

黃仁勛表示，此次合作將NVIDIA的生態(tài)系統(tǒng)帶給云服務(wù)提供商，同時擴大了NVIDIA的規(guī)模和影響力。企業(yè)將能夠按月租用DGX Cloud集群以便快速、輕松地擴展大型多節(jié)點訓(xùn)練工作負(fù)載的開發(fā)。

隨著云計算發(fā)展，在過去十年中，大約3000萬臺CPU服務(wù)器完成大部分處理工作，但挑戰(zhàn)即將到來。隨著摩爾定律的終結(jié)，CPU性能的提高也會伴隨著功耗的增加。另外，減少碳排放從根本上與增加數(shù)據(jù)中心的需求相悖，云計算的發(fā)展受功耗限制。

黃仁勛指出，加速云數(shù)據(jù)中心的CPU側(cè)重點與過去有著根本性的不同。過去數(shù)據(jù)中心加速各種工作負(fù)載，將會減少功耗，節(jié)省的能源可以促進(jìn)新的增長，未經(jīng)過加速的工作負(fù)載都將會在CPU上處理。在AI和云服務(wù)中，加速計算卸載可并行的工作負(fù)載，而CPU可處理其他工作負(fù)載，比如Web RPC和數(shù)據(jù)庫查詢。為了在云數(shù)據(jù)中心規(guī)模下實現(xiàn)高能效，英偉達(dá)推出Grace。

Grace包含72個Arm核心，由超高速片內(nèi)可擴展的、緩存一致的網(wǎng)絡(luò)連接，可提供3.2TB/s的截面帶寬，Grace Superchip通過900GB/s的低功耗芯片到芯片緩存一致接口，連接兩個CPU芯片之間的144個核，內(nèi)存系統(tǒng)由LPDDR低功耗內(nèi)存構(gòu)成（與手機上使用的相似），還專門對此進(jìn)行了增強，以便在數(shù)據(jù)中心中使用。

通過Google基準(zhǔn)測試（測試云微服務(wù)的通信速度）和Hi-Bench套件（測試Apache Spark內(nèi)存密集型數(shù)據(jù)處理），對Grace進(jìn)行了測試，此類工作負(fù)載是云數(shù)據(jù)中心的基礎(chǔ)。

在微服務(wù)方面，Grace的速度比最新一代x86 CPU的平均速度快1.3倍；在數(shù)據(jù)處理中，Grace則快1.2倍，而達(dá)到如此高性能，整機功耗僅為原來服務(wù)器的60%。云服務(wù)提供商可以為功率受限的數(shù)據(jù)中心配備超過1.7倍的Grace服務(wù)器，每臺服務(wù)器的吞吐量提高25%。在功耗相同的情況下，Grace使云服務(wù)提供商獲得了兩倍的增長機會。

“Grace的性能和能效非常適合云計算應(yīng)用和科學(xué)計算應(yīng)用?！秉S仁勛說道。

三、為2納米光刻技術(shù)奠基

隨著對芯片制造的精確度提升，當(dāng)前生產(chǎn)工藝接近物理學(xué)的極限。光刻即在晶圓上創(chuàng)建圖案的過程，是芯片制造過程中的起始階段，包括光掩模制作和圖案投影。

其中，計算光刻是芯片設(shè)計和制造領(lǐng)域中最大的計算工作負(fù)載，每年消耗數(shù)百億CPU小時，大型數(shù)據(jù)中心24 x7全天候運行，以便創(chuàng)建用于光刻系統(tǒng)的掩模版。數(shù)據(jù)中心是芯片制造商每年投資近2000億美元的資本支出的一部分，隨著算法越來越復(fù)雜，計算光刻技術(shù)也在快速發(fā)展，使整個行業(yè)能夠達(dá)到2納米及以上。

對此，在本次發(fā)布會上，黃仁勛帶來了一個計算光刻庫——NVIDIA cuLitho。

“芯片產(chǎn)業(yè)幾乎是每一個行業(yè)的基礎(chǔ)?！秉S仁勛介紹稱，cuLitho是一項歷時近四年的龐大任務(wù)，英偉達(dá)與臺積電、ASML和Synopsys等密切合作，將計算光刻加速了40倍以上。

NVIDIA H100需要89塊掩模版，在CPU上運行時，處理單個掩模版當(dāng)前需要兩周時間。如果在GPU上運行cuLitho，只需8小時即可處理完一個掩模版。

據(jù)介紹，臺積電可以通過在500個DGX H100系統(tǒng)上使用cuLitho加速，將功率從35MW降至5MW，從而替代用于計算光刻的4萬臺CPU服務(wù)器。借助cuLitho，臺積電可以縮短原型周期時間、提高產(chǎn)量、減少制造過程中的碳足跡，并為2納米及以上的生產(chǎn)做好準(zhǔn)備。

此外，臺積電將于6月開始對cuLitho進(jìn)行生產(chǎn)資格認(rèn)證，ASML正在GPU和cuLitho方面與NVIDIA展開合作，并計劃在其所有計算光刻軟件產(chǎn)品中加入對GPU的支持。

不難看出，從AI訓(xùn)練到部署，從系統(tǒng)到云服務(wù)，再到半導(dǎo)體芯片，黃仁勛打出了一套“組合拳”。站在AI的風(fēng)口，黃仁勛也透露出“勝券在握”的信心。