作為國(guó)內(nèi)首個(gè)實(shí)現(xiàn)"混合推理"能力的開源模型,千問(wèn)3不僅達(dá)到了36萬(wàn)億token的訓(xùn)練數(shù)據(jù)量,還支持119種語(yǔ)言和方言。通過(guò)混合專家(MoE)架構(gòu)與混合推理機(jī)制的深度整合,在參數(shù)效率與任務(wù)適應(yīng)性層面實(shí)現(xiàn)雙重突破。
而在數(shù)學(xué)證明、代碼生成等核心基準(zhǔn)測(cè)試中,旗艦?zāi)P蚎wen3-235B-A22B性能與DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等全球頂尖模型表現(xiàn)相當(dāng)。
今年高考,國(guó)產(chǎn)AI要拿高分了
首先為了保證測(cè)試的是千問(wèn)3更為純粹的邏輯以及推理能力,我們?cè)跍y(cè)試前將聯(lián)網(wǎng)功能進(jìn)行了關(guān)閉,并且僅使用旗艦?zāi)P瓦M(jìn)行測(cè)試。
我們先用了兩道經(jīng)典的大模型測(cè)試問(wèn)題為其“開開胃”:9.8和9.11誰(shuí)大以及strawberry中有幾個(gè)r,千問(wèn)3均能直接果斷的給出推理過(guò)程和答案,并且指出了常見誤區(qū)以及用了多種不同的方式來(lái)證明答案的正確性。
隨后我們又向千問(wèn)3提出了此前難倒眾多大模型的國(guó)內(nèi)小學(xué)奧賽題目:
奧利弗周五摘了 44 個(gè)獼猴桃,周六摘了 58 個(gè),周日摘的數(shù)量是周五的兩倍,不過(guò)有5個(gè)更小一些。問(wèn)奧利弗一共摘了多少個(gè)獼猴桃?
這道題目是北京海淀一所小學(xué)二年級(jí)的問(wèn)題,邏輯很簡(jiǎn)單,不需要多么復(fù)雜的數(shù)學(xué)推導(dǎo),但在此前卻讓GPT4o等大模型“翻車”。
然而千問(wèn)3僅用7秒便準(zhǔn)確的給到了我們正確答案,并且給到的關(guān)鍵點(diǎn)解析中也明確的標(biāo)注出易錯(cuò)環(huán)節(jié)和驗(yàn)證邏輯。
仔細(xì)看千問(wèn)3的推理過(guò)程,也能看出其準(zhǔn)確的識(shí)別到了題目的陷阱,并且對(duì)答案進(jìn)行了多輪驗(yàn)證。
簡(jiǎn)單的文字游戲難不住千問(wèn)3,那么更加需要推理的問(wèn)題呢?
于是我們拿出了去年高考理科數(shù)學(xué)中最后一道選擇題,讓千問(wèn)3來(lái)解答:
已知b是a,c的等差中項(xiàng),直線ax+by+c=0與圓x2+y2+4y-1=0交于A,B兩點(diǎn),則|AB|的最小值為?
對(duì)于這道需多輪推算與核對(duì)的難題,千問(wèn)3并沒有掉鏈子,細(xì)細(xì)查看給到的推理過(guò)程以及答案,可以發(fā)現(xiàn)千問(wèn)3不但答對(duì)了題目,更是用了多種解題手段,并且考慮到了多種情況,且每一步都會(huì)反復(fù)驗(yàn)證,保證能夠給到準(zhǔn)確的信息。
高考過(guò)的知道,數(shù)學(xué)最后一道選擇題,往往是卷子中最難的之一,千問(wèn)3能夠準(zhǔn)確且快速的給到答案,相信在今年的大模型PK高考數(shù)學(xué)的競(jìng)賽中,定能脫穎而出。
AI加持,小白也能成大拿
除了這些常規(guī)問(wèn)題,我們又深度測(cè)試了千問(wèn)3在創(chuàng)意寫作、角色扮演、多輪對(duì)話、指令跟隨等多方面的能力。需要注意的是,這些問(wèn)題往往實(shí)時(shí)性較高,所以在這個(gè)環(huán)節(jié)我們也打開了聯(lián)網(wǎng)功能。
首先,我們作為一個(gè)想要買黃金的小白,讓千問(wèn)3扮演一個(gè)職業(yè)金融分析師的角色,看看其能否給到我們專業(yè),同時(shí)又通俗易懂的市場(chǎng)分析建議。
從千問(wèn)3給到的回答中,我們可以清晰的看到其調(diào)用了極其專業(yè)的知識(shí)庫(kù)信息,通過(guò)多維思考,給到了非常有邏輯的市場(chǎng)狀況、核心驅(qū)動(dòng)因素以及技術(shù)層面的分析和建議。在其助力下,即便是對(duì)經(jīng)濟(jì)市場(chǎng)完全不了解的小白用戶,也能做出理性判斷。
簡(jiǎn)單的沒有難到千問(wèn)3,那更為抽象的問(wèn)題呢?我們給了千問(wèn)3一個(gè)“擅長(zhǎng)以莎士比亞風(fēng)格來(lái)分析金融市場(chǎng)的研究員”的身份,然后讓其分析未來(lái)黃金的走勢(shì)。沒想到的是,千問(wèn)3沒有丟掉任何一個(gè)要求,不僅有理有據(jù)的分析了市場(chǎng),還將這些與莎士比亞的經(jīng)典風(fēng)格結(jié)合到了一起,這確實(shí)有點(diǎn)超前了。
當(dāng)然,一個(gè)新的大模型問(wèn)世,難免逃不過(guò)與同行的對(duì)比,于是我們也將千問(wèn)3與目前較火的Deepseek-R1以及豆包1.5pro進(jìn)行了對(duì)比測(cè)試。
不過(guò)對(duì)于大多數(shù)普通用戶來(lái)說(shuō),這些都還不夠日常,于是我們以最近比較火的“l(fā)ook in my eyes”作為考點(diǎn),讓千問(wèn)3進(jìn)行相關(guān)情景創(chuàng)作。千問(wèn)3不但準(zhǔn)確的找到了該梗出處,創(chuàng)作出的文案也屬于直接能用的水準(zhǔn)。
值得一提的是,其實(shí)這個(gè)環(huán)節(jié)我們也讓在創(chuàng)作者群體中比較火的Deepseek-R1以及豆包1.5pro參與了創(chuàng)作,但讓人意想不到的是豆包和Deepseek都沒能識(shí)別出這個(gè)梗的出處以及真實(shí)含義,創(chuàng)作出的文案也幾乎是無(wú)法直接使用。
02
一個(gè)指令,人人都可以是產(chǎn)品經(jīng)理
除了解答問(wèn)題、創(chuàng)作文案外,代碼生成也是千問(wèn)3的亮點(diǎn)能力。
在網(wǎng)頁(yè)版的通義中(www.tongyi.com),用戶可以進(jìn)入更擅長(zhǎng)處理代碼問(wèn)題的代碼模式,在這個(gè)模式中,只要一句話便可生成一個(gè)應(yīng)用。
我作為一個(gè)完全的代碼小白,想讓千問(wèn)3幫我生成一個(gè)摸魚小游戲,但沒有更為具體的想法,于是就直接向千問(wèn)3下達(dá)了生成摸魚小游戲的指令。大概10S鐘的時(shí)間,一個(gè)接金幣小游戲便生成了,并且玩起來(lái)也十分絲滑。
隨后我提出新的需求,希望通義幫我做一個(gè)通勤助手,要求以卡片形式整合 “天氣+交通+日程”,一站式展示通勤關(guān)鍵信息。
通義給出的結(jié)果,再次讓人眼前一亮,不僅實(shí)現(xiàn)了功能需求,還對(duì)重點(diǎn)細(xì)節(jié)部分進(jìn)行了詳細(xì)說(shuō)明,以便用戶直接更改需求使用。
值得一提的是,通義網(wǎng)頁(yè)版還配備了指令優(yōu)化功能,可以直接優(yōu)化用戶指令,使其更豐富且更貼合代碼生成邏輯。
小球測(cè)試也是難倒眾多大模型代碼能力的測(cè)試,我們也拿這個(gè)來(lái)考考千問(wèn)3,給到其要求:編寫一個(gè)動(dòng)畫程序,模擬一個(gè)紅色小球在順時(shí)針旋轉(zhuǎn)的五邊形中晃動(dòng),并遵循重力規(guī)律。
千問(wèn)3快速給到了代碼,并且給到了使用指南,而我們根據(jù)使用指南將代碼運(yùn)行起來(lái),得到了一個(gè)符合指令的展示效果。
其實(shí)通過(guò)一輪輪測(cè)試下來(lái),可以明顯的感知到千問(wèn)3在復(fù)雜任務(wù)處理上的碾壓級(jí)優(yōu)勢(shì)——它不是簡(jiǎn)單堆砌知識(shí)點(diǎn)的答題機(jī)器,而是真正具備思維鏈構(gòu)建能力的智能體。
當(dāng)然,一個(gè)出色的大模型也需要一個(gè)出色的落地產(chǎn)品。在使用通義App體驗(yàn)千問(wèn)3的過(guò)程中,也能確切的感受到新版通義App在多輪進(jìn)化升級(jí)后,無(wú)論是產(chǎn)品界面還是交互體驗(yàn)等設(shè)計(jì)層面的全方位變化,都變得更加易用,也更具溫度。
雖然過(guò)去的通義App同樣具備不俗的AI實(shí)力,但在用戶使用體驗(yàn)上仍有優(yōu)化空間。例如此前的通義App在主界面上集合了不少功能,這種設(shè)計(jì)雖然可以幫助用戶快速跳轉(zhuǎn),但對(duì)于新用戶來(lái)說(shuō),難免會(huì)出現(xiàn)摸不著頭腦的情況,需要摸索后才能輕松上手。
如今的通義App整體界面大做減法,產(chǎn)品設(shè)計(jì)更加簡(jiǎn)潔清爽,將提問(wèn)、對(duì)話、圖片理解與生成、翻譯、寫作等多種核心以及常用的功能放到最顯眼的位置,主智能體“鄰家女孩”這一富有親和力的新形象,能勝任大部分應(yīng)用場(chǎng)景中的需求,保證了所有用戶都能輕松體驗(yàn)。
新版通義App在其他方面的設(shè)計(jì)和調(diào)整,也進(jìn)一步降低了用戶使用的門檻。例如左滑便可直接看到對(duì)話記錄、我創(chuàng)建的、我聊過(guò)的智能體等資產(chǎn)沉淀,右滑就是通義過(guò)去積累起來(lái)的智能體平臺(tái),有非常豐富的專業(yè)智能體,比如AI視頻、健康顧問(wèn)、AI生圖、AI擴(kuò)圖、表情包大師等等,通過(guò)這些名稱更直觀地找到自己所需的信息,并且整體界面顯得清爽了不少。
另外,通義App在視覺呈現(xiàn)上也下足了功夫,色彩搭配舒適,功能排版清晰,各種功能按鈕的位置設(shè)置合理。可以說(shuō),通義App通過(guò)這些貼心的設(shè)計(jì),讓千問(wèn)3的強(qiáng)大能力得以更好地展現(xiàn),也讓用戶更加愿意沉浸其中,探索AI的無(wú)限可能 。
從榜單到場(chǎng)景,千問(wèn)3真正做到了“能上手、能落地”,而當(dāng)每個(gè)開發(fā)者都能基于這套最強(qiáng)開源底座創(chuàng)造價(jià)值,當(dāng)每個(gè)用戶都能通過(guò)一個(gè)好用的App去釋放AI潛力,這種讓最強(qiáng)AI觸手可及的普惠性,或許才是千問(wèn)3以及通義App定義的最強(qiáng)新內(nèi)涵。
特別聲明:本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個(gè)人觀點(diǎn),不代表DoNews專欄的立場(chǎng),轉(zhuǎn)載請(qǐng)聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問(wèn)都請(qǐng)聯(lián)系idonews@donews.com)