高智商 ≠ 高財商?50天實盤測試:LMArena 高分王者也可能是「韭菜」
該研究團隊來自伊利諾伊大學厄巴納-香檳分校(UIUC)。核心貢獻者之一 Haofei Yu 為計算機系博士生,另一位核心貢獻者 Fenghai Li 為計算機系本科生,指導教師 Jiaxuan You 為計算機系助理教授,指導 UIUC U Lab。Jiaxuan You 教授的研究聚焦于大模型智能體(Agentic LLM)的基礎能力、垂直應用、生態建設,博士畢業于斯坦福大學,已在 NeurIPS、ICML、ICLR 等頂級會議發表論文三十余篇,總引用量近兩萬次,多次擔任 Area Chair 并組織 Workshop;其開發或主導的開源項目累計獲得三萬余顆 Star。
「在大模型熱潮中,如何真正評測它們的智能?」
過去的評測多停留在知識問答、推理或指令理解層面。而 LiveTradeBench 首次讓大模型「下場交易」——在真實金融市場的動態博弈中,檢驗其感知、推理與決策能力。
LiveTradeBench 的研究啟動于數月前,并連續進行了為期五十天的實盤測試,覆蓋美股市場與去中心化預測市場 PolyMarket,是最早探索「實盤智能體評測」的工作之一。
在這里,模型不僅要理解財經信息,更要在不確定性中學會下注與取舍。
值得強調的是,LiveTradeBench 全面開源:所有數據源、模型決策與倉位記錄、表現結果、以及大模型推理全過程均公開透明,為研究社區提供了可復現、可驗證的大模型實盤測試基準。

- 項目主頁:https://trade-bench.live
- 開源地址:https://github.com/ulab-uiuc/live-trade-bench
- 技術報告:https://trade-bench.live/assets/live_trade_bench_arxiv.pdf
從「測知識」到「測財商」:智能評測的新前沿
過去兩年,大語言模型(LLM)在各類靜態基準上成績驚人:無論是知識問答(MMLU、GPQA)、數學推理(GSM8K、CodeElo),還是指令遵循(FollowBench、Instruction-Bench),頂尖模型幾乎「卷到滿分」。
但這些測試有一個共同點——它們都是靜態的、單輪的、無反饋的。它們只能衡量模型在固定輸入上的一次性推理能力。而真實世界要求模型具備連續觀察、長期推理與動態適應能力。
為此,研究者們開始構建各種 Agent 環境,讓模型「動起來」。然而,多數環境仍是封閉的、邏輯預設的。模型能「操作」,卻難以真正「動態適應」。
而市場正是最具挑戰性的真實動態系統——信息不完全、反饋延遲、風險與機會并存。
LiveTradeBench:讓 LLM 真正下場交易,是目標在真實市場流數據上運行的大語言模型交易與投資評測平臺。
三大核心創新

實時流式數據,無信息泄漏
在表 1 中可見,以往工作多依賴離線回測或靜態問答,難以反映市場的不確定性。
LiveTradeBench 直接對接真實股票與預測市場(PolyMarket)數據,讓模型在動態變化中實時決策,徹底杜絕信息泄漏。
組合層次的投資決策
在表 1 中可見,相比單一資產的買賣決策,LiveTradeBench 引入組合級別(portfolio-level)的動態配置任務,要求模型在收益與風險間權衡,隨市場信號調整資產比例。
多市場比較與泛化能力
圖 1 展示了典型市場:左為 AAPL 美股走勢,右為 PolyMarket 上「OpenAI 是否在 2025 年底擁有最強 AI 模型」。兩者皆受新聞影響,但 PolyMarket 反應更快、波動更劇烈。通過跨市場設計,平臺可系統評估模型的策略遷移、事件敏感度與長期判斷力。

資產管理任務設定
在 LiveTradeBench 中,研究團隊把投資決策過程建模為一個部分可觀測的馬爾可夫決策過程(POMDP)
。
這意味著,大模型面對的環境不是一次性的輸入輸出,而是一個不斷變化、帶反饋的世界:市場的真實狀態
無法直接看到,模型必須根據有限信息進行推理和行動。
如圖 2 所示,智能體在每個時間步
接收一個觀測
,包含三部分:
倉位信息
:當前持有的股票或現金比例;
市場價格
:各類資產的實時價格;
市場新聞
:來自新聞或社交媒體的事件與情緒信號。
在美股市場中,這些觀測反映的是股票持倉(如 AAPL、WMT)和宏觀新聞;在 PolyMarket 預測市場中,則是事件合約(如「FED rate cut?」、「US recession?」)的倉位和相關新聞。這些與模型先前的倉位信息一起共同構成了模型能看到的全部信息。
接著,模型輸出新的資產配置向量
,我們設計的智能體不直接輸出買入賣出的交易策略,而是直接輸出代表投資組合的分配比例比如調整 AAPL 為占總資產的 20%,NVDA 為占總資產的 40%。我們認為現金也是一種資產組合。在圖 2 中,我們顯示智能體的百分制分配決策能直接轉換為買入賣出的實際操作。
通過這種設計,LiveTradeBench 形成了一個完整的「觀察—決策—反饋」閉環:
市場變化影響模型觀測,模型動作又改變持倉,從而形成持續的交互循環。它不僅評測模型的推理能力,更考察模型能否在真實市場節奏中做出靈活、穩健的投資決策。

智能體設計框架:讓模型像人類投資者一樣思考
在 LiveTradeBench 中,LLM 被賦予完整的決策閉環:感知 → 記憶 → 推理 → 行動。
工具使用(Tool Use):實時抓取與目標相關價格與新聞,結構化處理市場信號。
記憶(Memory):保留過往觀察與行動結果,形成可演化的內部狀態。
推理(Reasoning):在行動前進行鏈式思考(ReAct 框架),解釋信號、預測結果并生成策略。

五十天實測:揭示模型「財商差距」
在 LiveTradeBench 上,我們對 21 個主流 LLM 進行了為期 50 天的實測,覆蓋多個模型家族與能力層級。結果顯示:
- 高智商 ≠ 高財商:在 LMArena 中名列前茅的模型,未必能在市場中獲利。圖 4 和圖 5 整理了各個模型對應市場 sharpe 率與 LMArena 分數之間的關系,發現并沒有顯著的相關性。
- 每個模型都有獨特「投資風格」:有的激進追漲,有的穩健防御。
- 實時上下文顯著提升表現:結合市場動態與新聞信號后,模型決策更理性、更穩定。
這些結果揭示了一個關鍵事實:靜態推理 ≠ 動態決策。在真實世界的復雜反饋中,LLM 的「聰明」需要重新定義。

邁向大模型智能體評測的下一站
LiveTradeBench 打開了大模型智能體評測的新維度:從文本理解到環境反饋,從邏輯推理到連續決策。我們相信,未來的智能體,不應只在題庫中拿高分,而應能在瞬息萬變的市場中,感知世界、管理風險、創造價值。

























