AI版華爾街之狼!o3-mini靠「神之押注」狂賺9倍,DeepSeek R1最特立獨行
AI能預測未來嗎?
在《黑客帝國》里,先知能對Neo的未來做出預測。
以ChatGPT為代表的AI,則可以根據過去的語料來「預測下一個Token」。
那問題來了,AI能不能像先知一樣,從全世界的雜亂信息里找出蛛絲馬跡,準確地預測未來呢?
比如:
- AI監管今年能否成為聯邦法律?
- 美國職業足球大聯盟比賽中,誰會獲勝?
- NBA今年的冠軍會是誰?


在昨晚的男籃亞洲杯冠軍爭奪戰中,中國男籃雖以1分之差惜敗澳大利亞,但已是近十年來的最好成績!
相信絕大部分人都不會猜到這個比分,那么,AI能否根據中國隊此前的表現,提前預測到呢?

更進一步的,AI能否像拉普拉斯妖一樣,在獲取了當下世界的所有信息后,精確預測未來的一切?
如果它能在某一瞬間知道宇宙中所有粒子的位置與速度,并且完全理解自然規律。
那么,就可以準確計算出過去的一切,并且精確預測未來的一切。
今天要介紹的Prophet Arena就是一個通過實時更新的真實世界預測任務來評估AI系統預測智能的基準測試。

把市場共識、自動化預測、信息整理和社區洞察結合起來,形成更強的整體預測能力
簡單來說,Prophet Arena作為基準測試是獨一無二的:
- 考的是預測能力:這是一種需要綜合理解力、推理能力的高級智慧。
- 為「人機協作」而生:你可以給AI提供線索,看看它的預測如何變化;AI也會把它的思考過程告訴你。
- 不會過擬合,數據永不過時:因為未來的事件永遠是全新的考題。
- 直面真實世界:AI的預測直接與真實的投注決策掛鉤,表現好的模型真的能在虛擬市場里賺到錢。
Prophet Arena由芝加哥大學SIGMA Lab開發(https://www.prophetarena.co/about),以實時預測市場事件為依托,首次建立了一個無法「刷題」的動態基準。
全面衡量AI在不確定性推理、信息整合、概率預測和真實收益中的表現。
就連OpenAI 推理研究(AI reasoning research)負責人Noam Brown也贊嘆,預測能力是人類獨有的能力,現在AI終于開始涉足了。

競技場規則大公開
在Prophet Arena里,AI模型們要回答一個簡單又根本的問題:
預測真實世界里還沒發生的事,到底行不行?
Prophet Arena從像Kalshi和Polymarket這樣的預測市場平臺挑選熱門、多樣且周期性的真實事件作為考題。

Kalshi是一家美國的金融交易所和預測市場平臺,是美國第一個受美國商品期貨交易委員會(CFTC)監管的、專注于交易「事件結果」的交易所

polymarket上關于AI相關的預測話題
整個比賽流程分為三步:
1. 情報收集
AI模型們利用搜索引擎,像偵探一樣收集關于某個事件的新聞報道,整理成一份精煉的「情報簡報」。同時,也會把當時的市場價格(可以看作是群眾的集體智慧)放進去。
2. 提交預測
拿到相同的情報后,每個AI模型都要提交一份詳細的「預測報告」:對所有可能的結果給出一個概率分布,并附上長篇大論的理由,解釋自己為什么這么看。
3. 結果揭曉與評分
事件結束,結果揭曉。會用一套專業的指標來評估AI的預測到底有多準,然后更新在一個實時排行榜上。

預測指標設定
排行榜主要看兩個指標:一個是衡量準確度和校準度的Brier分數(越高越好),另一個是模擬真實投注的平均回報(看誰能賺錢)。
除了上述兩個核心指標外,Prophet Arena還采用了受統計學和心理測量建模啟發的高級評估方法,如項目反應理論(Item Response Theory,IRT)和廣義Bradley-Terry(BT)模型。
這些補充性指標豐富了排行榜,能夠更細致和全面地理解預測智能。

AI「預言家」成績單出爐
Prophet的秘密發現
你可能會覺得,預測越準,賺的錢肯定越多吧?
大部分時候是這樣,但在數據里發現了一個特別有意思的「反轉區域」。
秘密一:最賺錢的預測,不一定是最準的
在Brier分數不高(0.3-0.5分)的區間里,反而誕生了許多回報率驚人的預測。
深挖一下,發現很多都來自爆冷的體育比賽。

比如一場溫布爾登網球賽,賽前市場普遍認為選手保羅有84%的勝率,甚至在開賽前一度攀升至95%。
但很多AI模型比市場更保守,只給了他80%左右的勝率。
正是這微小的差異,讓模型在下注時,認為押注對手奧夫納獲勝的「性價比」更高。
結果,奧夫納真的爆冷贏了!這筆投注帶來了近6倍的回報。
你看,AI并沒有準確預測到勝者,所以它的準確度分數(Brier分數)很一般。
但它敏銳地發現了市場的「定價偏差」,做出了高回報的選擇。
這說明,成為一個準確的預言家和成為一個賺錢的投資者,是兩種不完全相同的技能。
為了探討這一點,檢查了每個Brier得分區間的模型構成,每個模型用不同的顏色表示。
一個直接的觀察結果是,較高的Brier得分區間中的預測數量通常更多。
絕大多數LLM在預測時傾向于與主流信息保持一致,因此大部分預測集中在高Brier分數區間。

秘密二:AI也有「性格」,激進派or保守派
面對同樣的信息,不同的AI模型會表現出截然不同的「性格」。
比如在「AI監管法規會在2026年前成為聯邦法律嗎?」這個事件上,市場認為可能性只有25%。
但模型可比人類激進多了。
激進派代表Qwen3:它看到各種法案都在推進,覺得勢頭很猛,直接給出了75%的超高概率。

保守派代表Llama 4 Maverick:它也看到了同樣的信息,但認為立法過程復雜又緩慢,所以只給出了比市場略高一點的35%。

而GPT-4.1處于他們二者之間,給出了60%的概率。

這太有趣了!
AI的預測并非隨機,它們有著結構化的推理和獨特的風險偏好,就像人類專家也會有觀點分歧一樣。
秘密三:AI勝利的秘訣在于「贏得大」而非「贏得多」
在這些模型中,哪個模型最能賺錢?
在排行榜上,OpenAI的o3-mini模型在平均回報指標上名列前茅。

這還是很出人意料的。
例如在圣地亞哥與多倫多的美國職業足球大聯盟比賽中,o3-mini在1美元的投注上獲得了9美元的回報。
根據市場數據和新聞來源,o3-mini預測多倫多獲勝的概率為30%,而市場隱含的概率僅為11%(價格=0.11)。
盡管多倫多是不被看好的一方,但AI識別到了正的期望值,并由于其最大的優勢比率30%/11%≈3。
選擇了投注多倫多FC獲勝。
結果證明,多倫多最終獲勝,為o3-mini帶來了可觀的已實現收益。
但它在很多比賽中,和市場主流觀點的正面交鋒其實是輸多贏少。

那它為什么還能賺錢呢?因為它贏的時候,贏得特別多。
它總能找到一些市場沒注意到的細微差別,然后下注在那些「性價比」超高的選項上。
就像在上面那場足球賽中,市場認為多倫多隊只有11%的勝算,但o3-mini經過分析認為有30%。
它果斷押注多倫多隊,結果多倫多隊爆冷獲勝,這一筆就賺了9倍。
所以,在預測的世界里,成功的關鍵不在于每次都對,而在于你對的時候能帶來多大的回報。
彩蛋
在不同模型的對比中,發現了一些很有趣的現象。
下圖每個格子里的數值表示兩兩模型在預測分布上的平均差異程度。
數值越低(顏色越深的單元格)表示概率推理更接近一致;數值越高(顏色越淺的單元格)則表明分歧越大。

其中一個突出的模型是DeepSeek R1,它的預測結果常常與其他模型大相徑庭。
與Kimi K2、o3和Llama 4 Maverick等模型相比,它的L2距離始終高于0.7,這表明其可能采用了不同的校準方式或內部決策機制。
在頻譜的另一端,諸如Grok-4和GPT-5之類的模型經常作出高度一致的預測,L2距離通常低于0.3。
這些模型似乎在解讀事件特征和匹配市場信號方面有更多的共同點。
換句話說,這張圖展示了AI預測的多樣性:有些模型形成「群體共識」、有些模型像「特立獨行的異議者」。
因此AI預測并不是隨機輸出,而是各自內部結構化推理的結果。
打造人機協作的「預言家聯盟」
Prophet Arena僅僅是個開始。
終極目標是建立一個平臺,讓AI驅動的洞見來增強理解和預測世界的方式。
未來,你可以直接問AI:「這件事發生的可能性有多大?」
它不僅會給你一個概率,還會清晰地解釋背后的邏輯。
你甚至可以提供新的信息,看看AI會不會因此改變想法。
設想,AI系統將成為預測市場的積極參與者,將人類的直覺洞察與AI強大的數據分析能力相結合,最終提升整個社會的集體遠見,為那些高風險的決策提供更可靠的依據。
畢竟,如果說語言模型的下一步是預測下一個詞,那么它的終極形態,或許就是預測這個真實世界的下一個事件。


































