商業(yè)
“柴懟懟”29條視頻被下架;多國(guó)零售商停止向美國(guó)發(fā)貨;黃仁勛基本工資十年來(lái)首次增長(zhǎng) |Do早報(bào)
先來(lái)瀏覽新鮮的早報(bào)吧
方彥秋
3小時(shí)前
昨日,“深度求索”官方公眾號(hào)發(fā)布博文,宣布DeepSeek-V3模型正式上線并同步開(kāi)源。用戶可通過(guò)官網(wǎng)chat.deepseek.com與最新版V3模型進(jìn)行對(duì)話。
DeepSeek-V3是一個(gè)6710億參數(shù)的專(zhuān)家混合(MoE)模型,激活參數(shù)達(dá)370億,并在14.8萬(wàn)億token上進(jìn)行了預(yù)訓(xùn)練。該模型在多項(xiàng)評(píng)測(cè)中表現(xiàn)優(yōu)異,超越了Qwen2.5-72B和Llama-3.1-405B等開(kāi)源模型,性能比肩GPT-4o和Claude-3.5-Sonnet等世界頂尖閉源模型。
在知識(shí)、長(zhǎng)文本、代碼、數(shù)學(xué)和中文等方面,DeepSeek-V3均取得了顯著進(jìn)步,尤其在算法代碼和數(shù)學(xué)方面表現(xiàn)突出。生成速度提升至60 TPS,相比V2.5提升了3倍。
官方開(kāi)源了原生FP8權(quán)重,并提供BF16轉(zhuǎn)換腳本,方便社區(qū)適配和應(yīng)用。SGLang、LMDeploy、TensorRT-LLM和MindIE已支持V3模型推理。
此外,DeepSeek還調(diào)整了API服務(wù)價(jià)格,并設(shè)置了長(zhǎng)達(dá)45天的優(yōu)惠價(jià)格體驗(yàn)期。即日起至2025年2月8日,用戶可享受優(yōu)惠價(jià)格。