AI版華爾街之狼！o3-mini靠「神之押注」狂賺9倍，DeepSeek R1最特立獨行

2025-08-18 17:16:45

人工智能新聞

AI能像科幻電影中的先知一樣預測未來嗎？一個名為「Prophet Arena」的全新基準測試，正通過預測真實世界事件來評估AI的「預言」能力。

AI能預測未來嗎？

在《黑客帝國》里，先知能對Neo的未來做出預測。

以ChatGPT為代表的AI，則可以根據過去的語料來「預測下一個Token」。

那問題來了，AI能不能像先知一樣，從全世界的雜亂信息里找出蛛絲馬跡，準確地預測未來呢？

比如：

AI監管今年能否成為聯邦法律？
美國職業足球大聯盟比賽中，誰會獲勝？
NBA今年的冠軍會是誰？

在昨晚的男籃亞洲杯冠軍爭奪戰中，中國男籃雖以1分之差惜敗澳大利亞，但已是近十年來的最好成績！

相信絕大部分人都不會猜到這個比分，那么，AI能否根據中國隊此前的表現，提前預測到呢？

更進一步的，AI能否像拉普拉斯妖一樣，在獲取了當下世界的所有信息后，精確預測未來的一切？

如果它能在某一瞬間知道宇宙中所有粒子的位置與速度，并且完全理解自然規律。

那么，就可以準確計算出過去的一切，并且精確預測未來的一切。

今天要介紹的Prophet Arena就是一個通過實時更新的真實世界預測任務來評估AI系統預測智能的基準測試。

把市場共識、自動化預測、信息整理和社區洞察結合起來，形成更強的整體預測能力

簡單來說，Prophet Arena作為基準測試是獨一無二的：

考的是預測能力：這是一種需要綜合理解力、推理能力的高級智慧。
為「人機協作」而生：你可以給AI提供線索，看看它的預測如何變化；AI也會把它的思考過程告訴你。
不會過擬合，數據永不過時：因為未來的事件永遠是全新的考題。
直面真實世界：AI的預測直接與真實的投注決策掛鉤，表現好的模型真的能在虛擬市場里賺到錢。

Prophet Arena由芝加哥大學SIGMA Lab開發（https://www.prophetarena.co/about），以實時預測市場事件為依托，首次建立了一個無法「刷題」的動態基準。

全面衡量AI在不確定性推理、信息整合、概率預測和真實收益中的表現。

就連OpenAI 推理研究（AI reasoning research）負責人Noam Brown也贊嘆，預測能力是人類獨有的能力，現在AI終于開始涉足了。

競技場規則大公開

在Prophet Arena里，AI模型們要回答一個簡單又根本的問題：

預測真實世界里還沒發生的事，到底行不行？

Prophet Arena從像Kalshi和Polymarket這樣的預測市場平臺挑選熱門、多樣且周期性的真實事件作為考題。

Kalshi是一家美國的金融交易所和預測市場平臺，是美國第一個受美國商品期貨交易委員會（CFTC）監管的、專注于交易「事件結果」的交易所

polymarket上關于AI相關的預測話題

整個比賽流程分為三步：

1. 情報收集

AI模型們利用搜索引擎，像偵探一樣收集關于某個事件的新聞報道，整理成一份精煉的「情報簡報」。同時，也會把當時的市場價格（可以看作是群眾的集體智慧）放進去。

2. 提交預測

拿到相同的情報后，每個AI模型都要提交一份詳細的「預測報告」：對所有可能的結果給出一個概率分布，并附上長篇大論的理由，解釋自己為什么這么看。

3. 結果揭曉與評分

事件結束，結果揭曉。會用一套專業的指標來評估AI的預測到底有多準，然后更新在一個實時排行榜上。

預測指標設定

排行榜主要看兩個指標：一個是衡量準確度和校準度的Brier分數（越高越好），另一個是模擬真實投注的平均回報（看誰能賺錢）。

除了上述兩個核心指標外，Prophet Arena還采用了受統計學和心理測量建模啟發的高級評估方法，如項目反應理論（Item Response Theory，IRT）和廣義Bradley-Terry（BT）模型。

這些補充性指標豐富了排行榜，能夠更細致和全面地理解預測智能。

AI「預言家」成績單出爐

Prophet的秘密發現

你可能會覺得，預測越準，賺的錢肯定越多吧？

大部分時候是這樣，但在數據里發現了一個特別有意思的「反轉區域」。

秘密一：最賺錢的預測，不一定是最準的

在Brier分數不高（0.3-0.5分）的區間里，反而誕生了許多回報率驚人的預測。

深挖一下，發現很多都來自爆冷的體育比賽。

比如一場溫布爾登網球賽，賽前市場普遍認為選手保羅有84%的勝率，甚至在開賽前一度攀升至95%。

但很多AI模型比市場更保守，只給了他80%左右的勝率。

正是這微小的差異，讓模型在下注時，認為押注對手奧夫納獲勝的「性價比」更高。

結果，奧夫納真的爆冷贏了！這筆投注帶來了近6倍的回報。

你看，AI并沒有準確預測到勝者，所以它的準確度分數（Brier分數）很一般。

但它敏銳地發現了市場的「定價偏差」，做出了高回報的選擇。

這說明，成為一個準確的預言家和成為一個賺錢的投資者，是兩種不完全相同的技能。

為了探討這一點，檢查了每個Brier得分區間的模型構成，每個模型用不同的顏色表示。

一個直接的觀察結果是，較高的Brier得分區間中的預測數量通常更多。

絕大多數LLM在預測時傾向于與主流信息保持一致，因此大部分預測集中在高Brier分數區間。

秘密二：AI也有「性格」，激進派or保守派

面對同樣的信息，不同的AI模型會表現出截然不同的「性格」。

比如在「AI監管法規會在2026年前成為聯邦法律嗎？」這個事件上，市場認為可能性只有25%。

但模型可比人類激進多了。

激進派代表Qwen3：它看到各種法案都在推進，覺得勢頭很猛，直接給出了75%的超高概率。

保守派代表Llama 4 Maverick：它也看到了同樣的信息，但認為立法過程復雜又緩慢，所以只給出了比市場略高一點的35%。

而GPT-4.1處于他們二者之間，給出了60%的概率。

這太有趣了！

AI的預測并非隨機，它們有著結構化的推理和獨特的風險偏好，就像人類專家也會有觀點分歧一樣。

秘密三：AI勝利的秘訣在于「贏得大」而非「贏得多」

在這些模型中，哪個模型最能賺錢？

在排行榜上，OpenAI的o3-mini模型在平均回報指標上名列前茅。

這還是很出人意料的。

例如在圣地亞哥與多倫多的美國職業足球大聯盟比賽中，o3-mini在1美元的投注上獲得了9美元的回報。

根據市場數據和新聞來源，o3-mini預測多倫多獲勝的概率為30%，而市場隱含的概率僅為11%（價格=0.11）。

盡管多倫多是不被看好的一方，但AI識別到了正的期望值，并由于其最大的優勢比率30%/11%≈3。

選擇了投注多倫多FC獲勝。

結果證明，多倫多最終獲勝，為o3-mini帶來了可觀的已實現收益。

但它在很多比賽中，和市場主流觀點的正面交鋒其實是輸多贏少。

那它為什么還能賺錢呢？因為它贏的時候，贏得特別多。

它總能找到一些市場沒注意到的細微差別，然后下注在那些「性價比」超高的選項上。

就像在上面那場足球賽中，市場認為多倫多隊只有11%的勝算，但o3-mini經過分析認為有30%。

它果斷押注多倫多隊，結果多倫多隊爆冷獲勝，這一筆就賺了9倍。

所以，在預測的世界里，成功的關鍵不在于每次都對，而在于你對的時候能帶來多大的回報。

彩蛋

在不同模型的對比中，發現了一些很有趣的現象。

下圖每個格子里的數值表示兩兩模型在預測分布上的平均差異程度。

數值越低（顏色越深的單元格）表示概率推理更接近一致；數值越高（顏色越淺的單元格）則表明分歧越大。

其中一個突出的模型是DeepSeek R1，它的預測結果常常與其他模型大相徑庭。

與Kimi K2、o3和Llama 4 Maverick等模型相比，它的L2距離始終高于0.7，這表明其可能采用了不同的校準方式或內部決策機制。

在頻譜的另一端，諸如Grok-4和GPT-5之類的模型經常作出高度一致的預測，L2距離通常低于0.3。

這些模型似乎在解讀事件特征和匹配市場信號方面有更多的共同點。

換句話說，這張圖展示了AI預測的多樣性：有些模型形成「群體共識」、有些模型像「特立獨行的異議者」。

因此AI預測并不是隨機輸出，而是各自內部結構化推理的結果。

打造人機協作的「預言家聯盟」

Prophet Arena僅僅是個開始。

終極目標是建立一個平臺，讓AI驅動的洞見來增強理解和預測世界的方式。

未來，你可以直接問AI：「這件事發生的可能性有多大？」

它不僅會給你一個概率，還會清晰地解釋背后的邏輯。

你甚至可以提供新的信息，看看AI會不會因此改變想法。

設想，AI系統將成為預測市場的積極參與者，將人類的直覺洞察與AI強大的數據分析能力相結合，最終提升整個社會的集體遠見，為那些高風險的決策提供更可靠的依據。

畢竟，如果說語言模型的下一步是預測下一個詞，那么它的終極形態，或許就是預測這個真實世界的下一個事件。

責任編輯：張燕妮來源：新智元

AI ChatGPT 模型