se99综合91网,奇米影视亚洲首页777

DoNews > 商業(yè) > 人類的考試，考驗不了AI了

人類的考試，考驗不了AI了

原創(chuàng) 2025-07-18 17:55:00

174694

分享到

撰文 | 李信馬

題圖 | 豆包AI

2017年5月，當時世界圍棋排名第一的柯潔慘敗于AlphaGo，在機器是否會比人類更聰明這個事關全人類尊嚴的問題上，我們第一次有了一個確定性的答案。

一年前尚且能贏一局的李世石，成為人類棋手在AI面前最后的夕陽。

不過，人類善于尋找理由，比如將智力轉換為更復雜且難以解釋的“智慧”，那就顯得我們還在贏，還有是更“高級的”贏法。而且作為在智慧這條路徑上的先行者，人類可以既做選手又做裁判，給出一套套的測試標準，美其名曰測試AI，AI超過了人類水平，那是人類推動的科技進步，AI沒有超過人類，那人類再次贏贏贏。

但“青出于藍而勝于藍”這件事，雖然人類希望AI快點做到，可當快到像迎面而來的一陣冰雹猛地砸到臉上時，絕大多數(shù)人還是會不適應到懵逼。

最初，我們輕松地用游戲來測試AI，現(xiàn)在，人類能參與地最難的考試，也即將無法用來考驗AI了。

在一個周前，馬斯克發(fā)布了最新版的Grok-4，這款大模型，用老馬的話來說，“比所有領域的博士都聰明”。

而其在各項考試中的成績，可以說是怪物般的存在：

我們比較熟悉的SAT和GRE考試幾乎滿分，不太熟悉但更難的考試，GPQA（研究生水平問答）準確率為88.9%，AIME25（美國數(shù)學邀請賽）準確率為100%，USAMO25（美國數(shù)學奧林匹克競賽）準確率為61.9%。

最引人注目的是“人類最后的考試”（Humanity’s Last Exam，簡稱“HLM”），聽這個名字，大家就能知道它代表的意思。

這個考試是由 Scale AI 和 Center for AI Safety（CAIS）發(fā)布的，包含3000個高難度的問題，涉及超過100個學科，題目來自數(shù)百位不同領域的專家，可以說，這套試題涵蓋了人類智力任務中最具挑戰(zhàn)性的部分，足以用來衡量AI是否具備“類人智能”。

其中題目分為兩類，一類是簡答題（Exact-Match Questions），需要輸出一個完全匹配的字符串作為答案，另一類是選擇題（Multiple-Choice Questions），需要從五個或更多選項中選擇一個正確答案。

不過，前者占到了80%，而且數(shù)學相關的題目占到了全部問題的42%，所以不要指望碰運氣能刷出高分。

來自題庫的題目之一，感受一下無知的痛苦吧

據(jù)說，以普通人的水平，大概能答對5%的題目，而當時的大模型也紛紛折戟，沒有一個能超過10%。你問人類最多能打多少分？這不重要，反正題目也是人類出的。

但Grok-4的出現(xiàn)，卻讓AI通過“人類最后的考試”的時間大大縮短了，達到了50.7%的準確率，成為首個突破50%的大模型。

這個分數(shù)，高的驚人，但因為考試的難度過大，距離大家的生活又太遠，所以很難直觀的說明有多難得，不過好在，后來筆者找到了一個差不多所有中國人都能理解的參考系。

在Grok-4發(fā)布的差不多同一時間，上海交大聯(lián)合深勢科技團隊，使用 DeepSeek-R1-0528 作為驅動智能體的推理模型，在“人類最后的考試”上拿下了32.1%的新紀錄，可以說代表著國內大模型的最高水平。（雖然立刻就被趕超了）

而大概一兩周之前，國內的大模型正在集體測試另一套“國民考試”——高考試題。

比如，字節(jié)跳動 Seed 團隊就用最新推出的通用模型 Seed1.6 對2025年山東卷高考真題（題目源自網(wǎng)絡）進行測試，語數(shù)外采用新課標全國Ⅰ卷，其余科目為山東省自主命題，滿分750分，并找來了兩位來自重點高中、有聯(lián)考判卷經(jīng)驗的高中老師進行匿名評估和多輪質檢。

最終， Seed1.6 在理科和文科分別考取了648和683的高分，這個分數(shù)在山東省分別是4005名和211名，理科成績可以沖擊武漢大學，穩(wěn)妥些也能去華中科技大學；而文科成績，更是有把握沖擊清北，保底也能去上海交大和復旦大學。作為參照的 DeepSeek-R1-0528 ，理科和文科分別考取了615和631，上到985（個別名校除外）下到211也是選擇多多。（排名信息及志愿推薦來源：中國教育在線）

也有媒體用國產大模型測試了下高考遼寧卷，顯示騰訊元寶（混元T1）文科卷的分數(shù)還要更勝一籌，筆者查詢了下，其文科成績排到了全省第11名，屬于是清北招生辦爭相打電話，理科成績就遜色多了，但上個985還是沒問題的。至于DeepSeek，大致是沖擊985保底211的水平。

所以，以高考試卷為標準，那么DeepSeek和豆包、混元間幾十分的差距，是考上985和考上清北的差距；而以HLM為標準，DeepSeek和 Grok-4 差了接近40%的分值……

“比所有領域的博士都聰明”的真假還不確定，但在剛剛高考完的這一屆高三考生中，文科成績能超過AI的真的不多了。也許下一年，大模型們的高考成績，就要徹底吊打人類考生了，能考上清北的人被稱為天才，但天才努力跨過的門檻，只是AI的保底志愿。

但我更傾向于認為，就像人們對AI在圍棋領域對人類的碾壓再無興趣一般，高考，還有其他人類能參與的考試，包括“人類最后的考試”，最終都會呈現(xiàn)AI一邊倒的絕對優(yōu)勢，以至于讓人習以為常。

?可能到時候，人類會制定新的考試，但不再考慮將人類和AI進行對比，而是AI之間純粹的競賽；也可能將不存在這樣的考試或者變得很少，人們將更關注AI的應用落地和性價比，畢竟人類也好，AI也好，考試都只是過程之一，創(chuàng)造出價值才是最終的目的和結果。

不過到那時，人類在智慧上的優(yōu)越感，又要靠什么來維持呢？

標簽: AI

人類的考試，考驗不了AI了

掃描二維碼查看原文

分享自DoNews

關于我們| 電子協(xié)議| 合作聯(lián)系| 蜀ICP備2024059877號-1

網(wǎng)站信息

京公網(wǎng)安備11010802023059號

国产一区高清|日韩精品一区人妻|曰夲AV一区二区|美日韩一区二区三区|国产喷水在线观看|狼友网站成人大全|欧美日韩制服中文视频在线|久草加勒比手机在线|婷婷色综合无码专区|japanese 精品视频在线观看