DoNews12月15日消息,據(jù)騰訊科技援引外媒報(bào)道,英偉達(dá)推出了新的Nemotron 3開(kāi)源模型系列,包括Nano、Super和Ultra三個(gè)尺寸規(guī)格,并配套了相關(guān)數(shù)據(jù)集和技術(shù),旨在構(gòu)建高性能的專用智能體AI系統(tǒng)。
三個(gè)版本,定位分明
Nemotron 3 Nano:300億參數(shù),活躍參數(shù)量30億,專為DGX Spark、H100和B200 GPU設(shè)計(jì),專注于目標(biāo)明確的高效任務(wù),是該系列的效率先鋒。
Nemotron 3 Super:1000億參數(shù),專為多智能體協(xié)同應(yīng)用設(shè)計(jì),強(qiáng)調(diào)高精度推理能力。
Nemotron 3 Ultra:約5000億參數(shù),具備龐大的推理引擎,面向最復(fù)雜的應(yīng)用場(chǎng)景,提供頂級(jí)的推理能力。
Nemotron 3 Nano現(xiàn)已上市,為構(gòu)建高吞吐、長(zhǎng)上下文的智能體系統(tǒng)奠定了基礎(chǔ)。
Super和Ultra版本將于2026年上半年推出,它們將通過(guò)更高的推理深度和注重效率的架構(gòu)增強(qiáng)來(lái)擴(kuò)展這一基礎(chǔ)。
在Artificial Analysis Intelligence Index v3.0基準(zhǔn)測(cè)試中,Nemotron 3 Nano在同等規(guī)模的模型中取得了領(lǐng)先的準(zhǔn)確率得分(52分)。

三大核心技術(shù),直指智能體痛點(diǎn)
為了支撐上述能力,Nemotron 3引入了三項(xiàng)緊密耦合的核心技術(shù)創(chuàng)新:
1.Mamba-Transformer MoE架構(gòu)
該架構(gòu)的創(chuàng)新之處在于將三種核心技術(shù)進(jìn)行了深度融合:高效處理長(zhǎng)序列的Mamba層、確保精密推理的Transformer層,以及實(shí)現(xiàn)可擴(kuò)展計(jì)算效率的MoE(專家混合)路由機(jī)制。它們共同構(gòu)成了一個(gè)高效協(xié)同的運(yùn)算整體。

圖:Nemotron 3采用混合架構(gòu),從而在最大化推理吞吐量的同時(shí),依然保持了頂尖的準(zhǔn)確性
Mamba層的核心優(yōu)勢(shì)在于能以極低的內(nèi)存開(kāi)銷(xiāo)追蹤長(zhǎng)距離的依賴關(guān)系,即使面對(duì)數(shù)十萬(wàn)乃至上百萬(wàn)Token的超長(zhǎng)序列,其性能依然穩(wěn)定。這為處理長(zhǎng)篇文檔、復(fù)雜代碼或持續(xù)對(duì)話提供了基礎(chǔ)。
Transformer層則通過(guò)其精細(xì)的注意力機(jī)制,專門(mén)負(fù)責(zé)捕捉任務(wù)中深層的結(jié)構(gòu)與邏輯。無(wú)論是代碼的語(yǔ)法關(guān)聯(lián)、數(shù)學(xué)公式的推導(dǎo)步驟,還是多步驟任務(wù)的規(guī)劃依賴,它都能進(jìn)行精準(zhǔn)建模,為模型賦予強(qiáng)大的推理能力。
MoE組件的作用是在控制計(jì)算成本的前提下,智能地?cái)U(kuò)展模型的能力。其原理如同一個(gè)由眾多專家組成的智庫(kù):對(duì)于每個(gè)輸入的Token,系統(tǒng)只會(huì)動(dòng)態(tài)調(diào)用最相關(guān)的一部分“專家”進(jìn)行處理,而非動(dòng)用全部資源。這種“按需調(diào)用”的模式,顯著降低了運(yùn)算延遲,并大幅提升了整體吞吐效率。
正因如此,這套混合架構(gòu)天然適配需要高并發(fā)處理的多智能體場(chǎng)景。想象一個(gè)由眾多輕量級(jí)AI助手組成的集群:它們可能同時(shí)在生成任務(wù)計(jì)劃、分析上下文信息或調(diào)用各種工具執(zhí)行工作流。該架構(gòu)能夠?yàn)槊總€(gè)并發(fā)的智能體實(shí)例提供高效、獨(dú)立的計(jì)算支持,從而確保整個(gè)系統(tǒng)流暢、敏捷地運(yùn)轉(zhuǎn)。
2.多環(huán)境強(qiáng)化學(xué)習(xí)訓(xùn)練
為了讓Nemotron 3的行為模式更貼近能夠解決實(shí)際問(wèn)題的智能體,英偉達(dá)在發(fā)布前對(duì)其進(jìn)行了關(guān)鍵一步的“實(shí)戰(zhàn)演練”,在名為NeMo Gym的開(kāi)源強(qiáng)化學(xué)習(xí)平臺(tái)中進(jìn)行后訓(xùn)練。

圖:Nemotron 3 Nano憑借其混合專家(MoE)架構(gòu)實(shí)現(xiàn)了最高的吞吐效率,并通過(guò)在NeMo Gym平臺(tái)上的強(qiáng)化學(xué)習(xí)訓(xùn)練,獲得了領(lǐng)先的推理準(zhǔn)確度
這個(gè)平臺(tái)提供了多種模擬現(xiàn)實(shí)世界的虛擬環(huán)境。在這些環(huán)境中,模型不再僅僅是回答單個(gè)問(wèn)題,而是被評(píng)估其執(zhí)行一連串復(fù)雜動(dòng)作的序列能力。具體任務(wù)可能包括:準(zhǔn)確調(diào)用一個(gè)應(yīng)用程序接口來(lái)查詢數(shù)據(jù)、編寫(xiě)一段能真正運(yùn)行并解決問(wèn)題的代碼,或者構(gòu)思一個(gè)包含多個(gè)階段、且最終結(jié)果可被驗(yàn)證的詳細(xì)計(jì)劃。
這種基于完整行為軌跡的強(qiáng)化學(xué)習(xí)訓(xùn)練,其核心目標(biāo)是讓模型“學(xué)會(huì)思考”,從而在真實(shí)的應(yīng)用中表現(xiàn)得更穩(wěn)定可靠。它能有效減少模型在長(zhǎng)鏈條任務(wù)中可能出現(xiàn)的“推理漂移”(即思維逐漸偏離正軌),并提升其處理具有固定邏輯和結(jié)構(gòu)化步驟的任務(wù)流程的能力。
一個(gè)經(jīng)過(guò)這種訓(xùn)練后變得“可靠”的模型,在實(shí)際部署時(shí),更不容易在執(zhí)行中途“卡殼”或做出前后矛盾的決策。同時(shí),這極大地降低了將前沿大模型轉(zhuǎn)化為解決具體領(lǐng)域問(wèn)題的“專家智能體”的門(mén)檻和成本。
3.100萬(wàn)Token上下文窗口
Nemotron 3的100萬(wàn)Token上下文窗口,使其能夠?qū)⑼暾娜蝿?wù)背景、歷史記錄和復(fù)雜計(jì)劃保存于單一“工作區(qū)”,實(shí)現(xiàn)真正意義上的長(zhǎng)程、持續(xù)推理。這消除了因傳統(tǒng)文本切割導(dǎo)致的信息碎片和邏輯斷層。
其實(shí)現(xiàn)得益于核心的高效混合Mamba-Transformer架構(gòu),它能在低內(nèi)存開(kāi)銷(xiāo)下處理超長(zhǎng)序列,而MoE(專家混合)路由機(jī)制則通過(guò)按需激活專家,將處理龐大上下文所需的實(shí)際計(jì)算量控制在可行范圍內(nèi)。
對(duì)于企業(yè)級(jí)的深度文檔分析、跨會(huì)話智能體協(xié)作或整體代碼庫(kù)理解等復(fù)雜任務(wù),這一能力能直接提升事實(shí)準(zhǔn)確性、保障邏輯連貫性,是構(gòu)建可靠、持久AI應(yīng)用的關(guān)鍵基礎(chǔ)。
即將推出的關(guān)鍵技術(shù)
為了在更大規(guī)模的Super和Ultra版本中實(shí)現(xiàn)更強(qiáng)的性能與效率,Nemotron 3引入了三項(xiàng)進(jìn)階的關(guān)鍵技術(shù):
潛在MoE:用相同成本調(diào)用更多“專家”

圖:標(biāo)準(zhǔn)MoE與潛在MoE架構(gòu)對(duì)比
Nemotron 3 Super 和 Ultra 采用了潛在MoE技術(shù)。在此設(shè)計(jì)中,模型的各個(gè)“專家”模塊并非直接處理原始的Token數(shù)據(jù),而是先在一個(gè)共享的、維度更低的潛在表征空間 中進(jìn)行運(yùn)算,再將結(jié)果轉(zhuǎn)換回Token空間。
這種設(shè)計(jì)的精妙之處在于,它能讓模型以基本相同的推理計(jì)算成本,動(dòng)態(tài)調(diào)用多達(dá)4倍的專家數(shù)量。這相當(dāng)于在不增加“腦力”負(fù)擔(dān)的情況下,顯著擴(kuò)充了可用的“專業(yè)智庫(kù)”,使模型能夠?qū)Ω⒚畹恼Z(yǔ)義差異、特定領(lǐng)域的抽象概念,以及需要多步推導(dǎo)的復(fù)雜推理模式,實(shí)現(xiàn)更精細(xì)、更專業(yè)化的處理。
多Token預(yù)測(cè):一次生成多個(gè)詞,提升響應(yīng)速度

圖:多Token預(yù)測(cè)技術(shù)允許模型在訓(xùn)練時(shí)同時(shí)預(yù)測(cè)未來(lái)多個(gè)Token,顯著提升模型的響應(yīng)速度
多Token預(yù)測(cè)技術(shù)改變了模型逐詞生成的慣例,允許其在一次前向計(jì)算中,同時(shí)預(yù)測(cè)后續(xù)的多個(gè)Token。這對(duì)于需要生成長(zhǎng)篇邏輯推理(如思維鏈)、結(jié)構(gòu)化輸出(如代碼、JSON)或未來(lái)行動(dòng)軌跡的任務(wù)而言,能顯著提高生成吞吐量。
其效果直觀體現(xiàn)為:在規(guī)劃、代碼生成或長(zhǎng)對(duì)話等場(chǎng)景中,智能體的響應(yīng)延遲更低,整體反應(yīng)更為敏捷流暢,極大地改善了交互體驗(yàn)。
NVFP4訓(xùn)練格式:高精度與低成本的平衡
Super和Ultra模型的預(yù)訓(xùn)練使用了英偉達(dá)自研的4位浮點(diǎn)格式NVFP4。該格式的核心價(jià)值是在訓(xùn)練與推理的成本與模型精度之間實(shí)現(xiàn)了業(yè)界頂尖的平衡。
專為Nemotron 3優(yōu)化的NVFP4訓(xùn)練方案,確保在25萬(wàn)億Token數(shù)據(jù)集上,訓(xùn)練過(guò)程既能保持穩(wěn)定,又能保證最終模型的準(zhǔn)確性。在實(shí)際訓(xùn)練中,絕大部分的浮點(diǎn)乘累加運(yùn)算都在NVFP4格式下高效完成,從而在控制巨量計(jì)算開(kāi)銷(xiāo)的同時(shí),鍛造出高性能的模型。
開(kāi)源Nemotron訓(xùn)練數(shù)據(jù)集
英偉達(dá)還將發(fā)布用于模型開(kāi)發(fā)全過(guò)程的開(kāi)放數(shù)據(jù)集,為如何構(gòu)建高性能、可信賴的模型提供了前所未有的透明度。
新發(fā)布的數(shù)據(jù)集包括:
Nemotron-預(yù)訓(xùn)練集:一個(gè)新的包含3萬(wàn)億Token的數(shù)據(jù)集,更廣泛地涵蓋了代碼、數(shù)學(xué)和推理內(nèi)容,并通過(guò)合成增強(qiáng)和標(biāo)注流程進(jìn)行了優(yōu)化。
Nemotron-后訓(xùn)練集 3.0:一個(gè)包含1300萬(wàn)樣本的語(yǔ)料庫(kù),用于監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí),是Nemotron 3 Nano實(shí)現(xiàn)對(duì)齊和推理能力的動(dòng)力來(lái)源。
Nemotron-RL數(shù)據(jù)集:一套精選的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集和環(huán)境,用于工具使用、規(guī)劃和多步推理。
Nemotron智能體安全數(shù)據(jù)集:一個(gè)包含近1.1萬(wàn)條AI智能體工作流軌跡的集合,旨在幫助研究人員評(píng)估和緩解智能體系統(tǒng)中新出現(xiàn)的安全與安保風(fēng)險(xiǎn)。
結(jié)合英偉達(dá)的NeMo Gym、RL、Data Designer和Evaluator等開(kāi)源庫(kù),這些開(kāi)放數(shù)據(jù)集使開(kāi)發(fā)者能夠訓(xùn)練、增強(qiáng)和評(píng)估他們自己的Nemotron模型。
英偉達(dá)生成式AI軟件副總裁卡里·布里斯基表示,公司希望展示其從前代模型中學(xué)習(xí)與改進(jìn)的承諾?!拔覀兿嘈牛覀兙邆洫?dú)特的優(yōu)勢(shì),能夠服務(wù)廣大開(kāi)發(fā)者,他們希望通過(guò)結(jié)合我們新的混合專家模型架構(gòu)和100萬(wàn)Token的上下文長(zhǎng)度,來(lái)獲得完全定制模型、構(gòu)建專用AI的靈活性?!辈祭锼够f(shuō)道。
英偉達(dá)表示,Nemotron 3模型的早期采用者包括埃森哲、CrowdStrike、Cursor、德勤、安永、甲骨文云基礎(chǔ)設(shè)施、Palantir、Perplexity、ServiceNow、西門(mén)子和Zoom等公司。