作者:高藤
原創(chuàng):深眸財經(jīng)(chutou0325)
28日晚,許多人都在關(guān)注的第 66 屆國際數(shù)學(xué)奧林匹克競賽(IMO)公布了比賽結(jié)果。
中國隊不出所料地奪得頭籌,斬獲6 枚金牌。其中更是有兩位同學(xué)獲得滿分,以231分的團隊總成績碾壓全場。
對于這一已經(jīng)預(yù)料到的結(jié)果,網(wǎng)上反應(yīng)比較平淡,引發(fā)熱議的反倒是另一個賽道的OpenAI。
在用于評估AI大模型在數(shù)學(xué)競賽表現(xiàn)的MathArena.ai平臺上,對當(dāng)前最頂尖的AI公開大模型進行了測試。
OpenAI的o3與o4-mini、谷歌的Gemini 2.5、馬斯克家的Grok-4以及國產(chǎn)DeepSeek-R1等頂流AI模型全部出戰(zhàn)。
遺憾的是,AI大模型在這屆IMO上全軍覆沒。
在這場比拼中,得分最高的是谷歌Gemini 2.5拿到13分,也就是31%的分數(shù),連銅牌都夠不上。
就在大家紛紛認為這就是目前AI的上限時。
OpenAI團隊帶著最新開發(fā)的通用推理模型,拋出了一顆重磅炸彈:
在與人類完全相同的考試條件下作答,最終解出5道題,共獲得35分,達到IMO金牌分數(shù)線,成功拿到了金牌。
但事實真的是這樣嗎?
首先引發(fā)大家爭吵的就是消息發(fā)布的時間。
按照IMO的規(guī)定,所有成績都應(yīng)該在IMO閉幕的一周后再發(fā)布。
結(jié)果當(dāng)?shù)貢r間19日下午5點43分,閉幕式一結(jié)束,5點50分OpenAI的官方就發(fā)布了“AI剛好壓過金牌線”的消息。
七分鐘之差,既讓OpenAI鉆了規(guī)定的空子,還先其他參賽選手一步,在網(wǎng)絡(luò)上掀起了軒然大波。
這一行為讓不少網(wǎng)友為其他真實競爭對手打抱不平,畢竟搶跑的行為,本身就是對競爭對手的不尊重。
其次就是,金牌是誰認證的?
雖然官方一直說的都是“OpenAI壓上了金牌及格線”,但不少媒體為了省事,直接寫成“AI奪得金牌”。
此外,OpenAI并未接收到任何參加IMO的邀請,更不用說究竟是誰給AI評出的35分好成績。
這就相當(dāng)于自己在家里做了一套高考真題,對照答案評分后,得出了一個我是高考狀元,能上清華的結(jié)果。
國外有OpenAI以“奪冠”炒作,國內(nèi)也有AI寫高考作文吸睛。
今年高考語文考試一結(jié)束,各大AI公司迫不及待地讓自己的AI助手開始考試。
豆包、騰訊元寶、天工……一共16款產(chǎn)品,都在網(wǎng)上發(fā)布了自己寫的作文。
面對AI寫出來的作文,不少人站出來說“我覺得AI比我強”。
每每在這種測評的關(guān)鍵時刻,AI都會以出色表現(xiàn)“出圈”。
但到了生活中,AI假大空的想法、胡亂編造的數(shù)據(jù)、古今中外虛實大亂燉的文章模板,甚至連AI造假的事也層出不窮。
就算這樣,AI的使用率仍在不斷增長。
從學(xué)生用AI代寫論文,到上班白領(lǐng)依賴AI生成報告,再到媒體行業(yè)機器人撰稿占比突破40%,人類正經(jīng)歷一場前所未有的“思考能力危機”。
AI寫高考作文、壓線奪冠,每一次“出圈”都像是精心策劃。
拋開網(wǎng)絡(luò)上營銷號對AI的呼聲,值得讓我們思考的并不是AI會不會代替人類,而是我們總是習(xí)慣把思考的機會全部甩給AI,自己坐享其成。
以Cision發(fā)布的《2025全球媒體調(diào)查報告》為例,通過對19個國家3,126名記者的調(diào)研發(fā)現(xiàn),53%的記者已在工作中使用生成式AI工具。
在其他使用AI進行輔助的領(lǐng)域中,教育行業(yè)首當(dāng)其沖:
國內(nèi)的某高校調(diào)查顯示,使用AI輔助學(xué)習(xí)的學(xué)生中,僅28%能獨立完成復(fù)雜邏輯推導(dǎo),較五年前下降45%。
神經(jīng)可塑性研究表明,長期依賴AI會導(dǎo)致大腦神經(jīng)網(wǎng)絡(luò)重構(gòu),前額葉的決策區(qū)域活躍度下降20%,視覺皮層的信息處理區(qū)域卻變得異?;钴S。
換句話說,使用AI大量處理認知工作,會讓工作者參與創(chuàng)新所需的深層分析的過程大幅減少,思維出現(xiàn)"斷片"現(xiàn)象,產(chǎn)生認知依賴癥。
還會縮小人腦思考和機器思考之間的差距,弱化原創(chuàng)觀點和創(chuàng)造性方法所帶來的價值。
除此之外,過度相信AI的建議,可能會失去辨別能力,導(dǎo)致錯誤信息風(fēng)險增加。
AI之所以能夠高效產(chǎn)出內(nèi)容,就是因為它直接搬運或者套用海量數(shù)據(jù)庫中的表面規(guī)律,但卻不會主動核實事實。
2023 年,紐約市協(xié)助政府服務(wù)的AI 聊天機器人,建議企業(yè)主扣除員工消費來獲利,但真實的法律卻明確規(guī)定了老板不能扣取員工的小費。
再比如,政策明確規(guī)定企業(yè)必須接受現(xiàn)金,不得歧視沒有銀行賬戶的客戶。但是AI 卻說“餐廳可以不提供現(xiàn)金付款選擇”。
在面對具有信息變量的情況下,尤其是在涉及多變量分析時,AI就可能生成看似專業(yè)但邏輯不自洽的內(nèi)容。
如果不仔細甄別,這種“幻覺”現(xiàn)象不僅會誤導(dǎo)用戶,增加錯誤信息的風(fēng)險,還可能引發(fā)信任危機。
所以說,AI使用率的不斷提高已成必然,但我們該做的不僅是改進算法,讓人工智能更好的服務(wù)人類,而是如何才能在享受便利和堅守認知之間找到平衡。
首先,利用AI自身的算法能力,來監(jiān)管、優(yōu)化和安全應(yīng)用AI技術(shù)。
我們常見的AI主要分為,基于模板的自動化生成,和基于深度學(xué)習(xí)技術(shù)的自動化生成,這兩種類型。
而訓(xùn)練AI的原材料就是數(shù)據(jù)。
以O(shè)pen AI的第一個大模型GPT1為例,它有1.17億個參數(shù),到了GPT2,有15億個,而GPT3則增長到了1750億個,GPT4的參數(shù)更是達到令人震驚的1.8萬億個。
巨大的參數(shù)數(shù)量決定了AI模型如何對輸入數(shù)據(jù)做出反應(yīng),從而決定模型的行為。
將AI的行為舉止具象化,可以增進用戶對AI技術(shù)的理解,識別其潛在的偏差,有助于平衡用戶對AI的信任度和依賴度。
其次,還可以利用AI技術(shù)研究用戶的心理機制,成果可以作為改進AI模式的參考,避免引發(fā)引發(fā)過度依賴。
AI技術(shù)通過自然語言處理和情感計算,能夠?qū)崟r分析用戶的語言、語音和行為模式,識別潛在的心理健康風(fēng)險。
例如養(yǎng)老院使用機器人,通過聲波震顫識別老人的孤獨指數(shù),輔助早期篩查抑郁傾向。
在過度依賴AI的防控上,同樣可以運用它的算法,通過分析用戶的使用頻次、情感表現(xiàn)、面部表情等,來提供特定的“AI戒斷”方法,降低用戶的依賴程度。
結(jié)語:AI的發(fā)展已成必然,頻頻“出圈”的背后不再只是算法的精進,還有認知主導(dǎo)權(quán)的易主。如何在技術(shù)狂歡與認知危機交織的時代始終保持警惕,避免淪為算法的附庸,才是人類駕馭科技的關(guān)鍵。
特別聲明:本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點,不代表DoNews專欄的立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)