国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看

人類的考試,考驗不了AI了

撰文 | 李信馬

題圖 | 豆包AI

2017年5月,當時世界圍棋排名第一的柯潔慘敗于AlphaGo,在機器是否會比人類更聰明這個事關全人類尊嚴的問題上,我們第一次有了一個確定性的答案。

一年前尚且能贏一局的李世石,成為人類棋手在AI面前最后的夕陽。

不過,人類善于尋找理由,比如將智力轉換為更復雜且難以解釋的“智慧”,那就顯得我們還在贏,還有是更“高級的”贏法。而且作為在智慧這條路徑上的先行者,人類可以既做選手又做裁判,給出一套套的測試標準,美其名曰測試AI,AI超過了人類水平,那是人類推動的科技進步,AI沒有超過人類,那人類再次贏贏贏。

但“青出于藍而勝于藍”這件事,雖然人類希望AI快點做到,可當快到像迎面而來的一陣冰雹猛地砸到臉上時,絕大多數(shù)人還是會不適應到懵逼。

最初,我們輕松地用游戲來測試AI,現(xiàn)在,人類能參與地最難的考試,也即將無法用來考驗AI了。

在一個周前,馬斯克發(fā)布了最新版的Grok-4,這款大模型,用老馬的話來說,“比所有領域的博士都聰明”。

而其在各項考試中的成績,可以說是怪物般的存在:

我們比較熟悉的SAT和GRE考試幾乎滿分,不太熟悉但更難的考試,GPQA(研究生水平問答)準確率為88.9%,AIME25(美國數(shù)學邀請賽)準確率為100%,USAMO25(美國數(shù)學奧林匹克競賽)準確率為61.9%。

最引人注目的是“人類最后的考試”(Humanity’s Last Exam,簡稱“HLM”),聽這個名字,大家就能知道它代表的意思。

這個考試是由 Scale AI 和 Center for AI Safety(CAIS)發(fā)布的,包含3000個高難度的問題,涉及超過100個學科,題目來自數(shù)百位不同領域的專家,可以說,這套試題涵蓋了人類智力任務中最具挑戰(zhàn)性的部分,足以用來衡量AI是否具備“類人智能”。

其中題目分為兩類,一類是簡答題(Exact-Match Questions),需要輸出一個完全匹配的字符串作為答案,另一類是選擇題(Multiple-Choice Questions),需要從五個或更多選項中選擇一個正確答案。

不過,前者占到了80%,而且數(shù)學相關的題目占到了全部問題的42%,所以不要指望碰運氣能刷出高分。

來自題庫的題目之一,感受一下無知的痛苦吧

據(jù)說,以普通人的水平,大概能答對5%的題目,而當時的大模型也紛紛折戟,沒有一個能超過10%。你問人類最多能打多少分?這不重要,反正題目也是人類出的。

但Grok-4的出現(xiàn),卻讓AI通過“人類最后的考試”的時間大大縮短了,達到了50.7%的準確率,成為首個突破50%的大模型。

這個分數(shù),高的驚人,但因為考試的難度過大,距離大家的生活又太遠,所以很難直觀的說明有多難得,不過好在,后來筆者找到了一個差不多所有中國人都能理解的參考系。

在Grok-4發(fā)布的差不多同一時間,上海交大聯(lián)合深勢科技團隊,使用 DeepSeek-R1-0528 作為驅動智能體的推理模型,在“人類最后的考試”上拿下了32.1%的新紀錄,可以說代表著國內大模型的最高水平。(雖然立刻就被趕超了)

而大概一兩周之前,國內的大模型正在集體測試另一套“國民考試”——高考試題。

比如,字節(jié)跳動 Seed 團隊就用最新推出的通用模型 Seed1.6 對2025年山東卷高考真題(題目源自網(wǎng)絡)進行測試,語數(shù)外采用新課標全國Ⅰ卷,其余科目為山東省自主命題,滿分750分,并找來了兩位來自重點高中、有聯(lián)考判卷經(jīng)驗的高中老師進行匿名評估和多輪質檢。

最終, Seed1.6 在理科和文科分別考取了648和683的高分,這個分數(shù)在山東省分別是4005名和211名,理科成績可以沖擊武漢大學,穩(wěn)妥些也能去華中科技大學;而文科成績,更是有把握沖擊清北,保底也能去上海交大和復旦大學。作為參照的 DeepSeek-R1-0528 ,理科和文科分別考取了615和631,上到985(個別名校除外)下到211也是選擇多多。(排名信息及志愿推薦來源:中國教育在線)

也有媒體用國產大模型測試了下高考遼寧卷,顯示騰訊元寶(混元T1)文科卷的分數(shù)還要更勝一籌,筆者查詢了下,其文科成績排到了全省第11名,屬于是清北招生辦爭相打電話,理科成績就遜色多了,但上個985還是沒問題的。至于DeepSeek,大致是沖擊985保底211的水平。

所以,以高考試卷為標準,那么DeepSeek和豆包、混元間幾十分的差距,是考上985和考上清北的差距;而以HLM為標準,DeepSeek和 Grok-4 差了接近40%的分值……

“比所有領域的博士都聰明”的真假還不確定,但在剛剛高考完的這一屆高三考生中,文科成績能超過AI的真的不多了。也許下一年,大模型們的高考成績,就要徹底吊打人類考生了,能考上清北的人被稱為天才,但天才努力跨過的門檻,只是AI的保底志愿。

但我更傾向于認為,就像人們對AI在圍棋領域對人類的碾壓再無興趣一般,高考,還有其他人類能參與的考試,包括“人類最后的考試”,最終都會呈現(xiàn)AI一邊倒的絕對優(yōu)勢,以至于讓人習以為常。

?可能到時候,人類會制定新的考試,但不再考慮將人類和AI進行對比,而是AI之間純粹的競賽;也可能將不存在這樣的考試或者變得很少,人們將更關注AI的應用落地和性價比,畢竟人類也好,AI也好,考試都只是過程之一,創(chuàng)造出價值才是最終的目的和結果。

不過到那時,人類在智慧上的優(yōu)越感,又要靠什么來維持呢?

標簽: AI
人類的考試,考驗不了AI了
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved
蜀ICP備2024059877號-1