奧數金牌只是序章!OpenAI谷歌徹底打臉預言家,AI巨浪勢不可擋
2022年,預言家放言:到2025年,押注90%的概率AI拿不下國際奧數IMO金牌。
可謂言之鑿鑿,信心十足。
然而僅僅兩年,OpenAI與谷歌DeepMind雙雙擊碎了悲觀預言:
LLM不僅提前「封神」摘金,還打破了對AI能力邊界的想象。
從語言生成到邏輯推理,從通用能力到專業領域競技,生成式AI正以驚人的速度越過每一道人類設下的「智力高墻」。
預測錯得越離譜,AI給人的感覺就越震撼。
如今,幾乎可以確定,AI發展速度遠超過去幾年的主流預期。
巨變,才剛剛開始。
預言家集體翻車
剛剛,賓大沃頓商學院教授、生成式人工智能實驗室聯合主任Ethan Mollick非常篤定:過去,人們低估了AI發展的速度。

他舉了一個例子:
2022年,預測研究院(Forecasting Research Institute)邀請169名頂尖預測專家和學者評估AI進展。
當時,他們分別給出結論:到2025年,僅有2.3%和8.6%概率,AI能贏得國際數學奧林匹克金牌。

結果,被現實啪啪打臉:谷歌DeepMind的Gemini、OpenAI的ChatGPT,這兩個通用大模型拿下了2025年國際數學奧賽的金牌。

谷歌DeepMind和OpenAI爭奪AI史上第一塊「IMO金牌」:OpenAI搶先發布了自家結果,但谷歌DeepMind的模型成績獲得了IMO官方認證。
OpenAI先聲奪人,集體造勢,收獲了一大波流量:




據稱,為了尊重參賽學生,谷歌等到IMO官方認證成績后才公布了結果。

這是一個AI的歷史性時刻,標志著過去十年AI的巨大進步。
大語言模型,本為生成語言而生,但在數學上也遠超大部分人的想象。
OpenAI的研究科學家Noam Broen認為,當時的預測對LLM更悲觀:
而且需要注意的是,這些預測說的「任何」一種AI系統能奪得奧賽金牌。 如果換成是「大語言模型」這類通用AI系統,他們眼中的概率更低。

而且就在國際奧數成績發布前,MathArena測評了當時的可用的大模型,沒一個能拿到銅牌:

之后,不久傳來了AI獲得金牌的消息。

在數學推理上,LLM一再被低估。
預測研究院承認:AI在國際奧數競賽上,成績驚艷。

預測失準,不是偶然,是范式變了。
事實上,在MATH、MMLU和QuALITY三個標準的AI基準測試,預測幾乎全軍覆沒。

在MATH數據集基準測試,GPT-4 Turbo在2024年4月達到了87.82%,而領域專家和超級預測者認為截至2024年6月30日,達到這一水平的概率為21.4%和9.3%。
在MMLU上,GPT-4o和Claude 3.5 Sonnet在2024年年中達到了88.7%,而預測的可能性只有25.0%和7.2%。
在QuALITY Hard子集上,RAPTOR + GPT-4在2023年6月得分為69.3——比截止日期早整整一年。
無論是領域專家還是超級預測者,都錯誤判斷了AI發展的速度和方向。
兩組人群都低估了截至2024年底AI的最大算力,其中超級預測者的預測值只有實際最大值的1/5。與此同時,他們又高估了機器學習模型的上限:
專家預測參數規模將達到1.00E+14(100萬億),超級預測者則給出4.00E+14(400萬億)的預期,均比當前初步確認的1.00E+13(10萬億)參數規模高出十倍。
與此類似,麥肯錫發布過一份報告,展示了人工智能專家小組在2017年(在LLMs之前)的預測。
例如,麥肯錫預測AI將在2037年達到人類平均創造力水平。但實際上,在2023年這一目標已經實現。
而對于達到前1/4創造力水平的預測,麥肯錫原本估計要到2055年,但這一目標也已經提前30年達成。

由于生成式人工智能的發展,技術性能預計將比之前估計的更快地達到與人類中位數水平相當的性能,并在廣泛的能力范圍內達到人類前25%的頂尖水平
再例如,麥肯錫全球研究院(MGI)之前認為,在自然語言理解方面,技術最早可能在2027年達到與人類中位數相當的水平,但在新的分析中,這一時間點已提前到2023年。
在2025年的報告中,麥肯錫表示在過去的兩年里,人工智能取得了飛速發展,許多重要的AI創新涌現??。

現實中AI進步如此神速,網友Aravind Sunda驚嘆:
變化之快堪稱瘋狂。2022年看似不可能的事,現在已觸手可及。

2022年11月30日,ChatGPT正式公布。而之前,生成模型或GenAI更多指圖像、視頻等生成模型,OpenAI還在探索GPT的應用場景。

所以,ChatGPT有可能才是最大的變量,正如網友Mahaoo所言:
在ChatGPT和GPT-4問世之前的所有預測,幾乎都注定嚴重低估了AI的實際進展。因為這些模型的橫空出世,讓外界第一次真正看清了AI的潛力和速度。

不過,LLM存在鋸齒型智能現象:在某一方面表現出色,另一方面一塌糊涂。

威斯康星大學計算機科學教授Pedro Domingos就質疑了這種概括性結論:
AI在某些領域確實領先,但在其他領域則不然。基于預測家考慮的少數領域,很難做出這樣一概而論的判斷。

或許,人們常常高估AI短期的發展,而總是低估它的長期進步。

而一個更大的轉變正在醞釀:我們正進入「大眾智能」時代,強AI變得像谷歌搜索一樣容易獲取。

群體智能時代
對于大多數用戶來說,訪問強AI一直有兩個障礙
1. 困惑:很少有人知道該怎么選AI模型。
2. 成本:頂級模型很貴,免費用戶往往用不了,或者只有非常有限的訪問權限。
而GPT-5本計劃解決這兩個問題:利用路由機制,避免簡單問題浪費算力,自動選擇模型,從而讓更多人有機會使用推理模型等強AI。

這套機制在上線初期解釋不足,路由判斷也經常失靈,看起來亂七八糟、讓人困惑。盡管如此,奧特曼很快宣布GPT-5取得了初步成功:
上線幾天內,經常使用推理模型的付費用戶比例從7%升至24%,而免費用戶中能接觸到頂尖模型的比例也從幾乎為零提高到了7%。

推動這一切變化的,還有模型效率的飛躍。
AI變得越來越聰明,但運行成本卻急劇下降。下圖直觀展示了這一趨勢。

這些改進帶來的直接后果就是:哪怕AI越來越強大,它也變得足夠便宜,可以普惠大眾。
服務新增用戶的邊際成本,幾乎崩塌式下降。這也讓廣告等商業模式成為可能。
兩年前要花上幾美元的提示任務,如今免費用戶就能輕松運行。
這就是十億人突然擁有強大AI的真正原因:并不是因為某個宏大的「平民化AI」愿景,而是因為算力經濟學終于走到這一步。
不過,光能用上強AI還不夠,關鍵是人們要能真正用它來完成任務。
過去,高效使用AI是「黑科技」魔法:
要靠精心編寫提示詞,利用思維鏈(chain-of-thought)等技巧,再配合各種小竅門,才能逼近理想答案。
但最近的一系列實驗表明,這些技巧已經不再重要。

傳送門:https://gail.wharton.upenn.edu/research-and-insights/tech-report-chain-of-thought/
如今的頂尖模型越來越擅長直接理解并完成請求,甚至能「揣摩」用戶的真實意圖,自動超出預期去完成任務。
而且,變化不僅發生在文本模型上。
最近,谷歌發布了一款全新的圖像模型,內部代號「nano banana」。
它不僅在圖像編輯上表現出色(甚至比生成全新畫面還更穩定),而且便宜到足以開放給免費用戶使用。
更關鍵的是,它終于能很好地理解自然語言指令,省去了復雜的「提示詞工程」。

當數億人掌握強AI,各種現象會同時發生。事實上,它們已經在發生了:
有人與AI模型建立了深厚的情感關系,也有人借此擺脫孤獨;
有人因為AI而走向精神崩潰或危險行為,也有人利用AI診斷疾病、挽救生命
……
衍生出了數以千計的意想不到的用途。
隨著模型愈發強大,這些應用場景、問題與益處只會成倍增長。
AI巨頭——無論你是否相信它們關于「安全」的承諾——根本無法完全消化這股浪潮。
當十億人同時擁有先進AI時,人類真正進入了所謂的群體智能時代。
我們所有的制度——學校、醫院、法庭、公司、政府——過去都建立在「智能稀缺而昂貴」的前提之上。
如今,每一個職業、每一家機構、每一個社區,都必須重新思考:
如何在群體智能的環境中生存與繁榮?
如何在全民造假的世界里重建信任?
如何在普及知識的同時,保留人類專業經驗的價值?
























