深度解讀:Alpha Arena背后細(xì)節(jié),LLM距離“華爾街之狼”還有多遠(yuǎn)?
今天分享一篇來自AI研究機(jī)構(gòu) Nof1 的文章,Title: Exploring the Limits of Large Language Models as Quant Traders(探索大型語言模型作為量化交易員的極限)。
這篇文章進(jìn)行了一項(xiàng)開創(chuàng)性的實(shí)驗(yàn),旨在測試當(dāng)今頂尖大型語言模型(LLMs)在真實(shí)、動(dòng)態(tài)和高風(fēng)險(xiǎn)的金融市場中的決策能力。研究團(tuán)隊(duì)不再依賴傳統(tǒng)的靜態(tài)基準(zhǔn)測試,而是創(chuàng)建了一個(gè)名為 “Alpha Arena”的真實(shí)交易環(huán)境。他們?yōu)榱鶄€(gè)領(lǐng)先的LLM(包括GPT-5、Gemini 2.5 Pro等)各提供了1萬美元的真實(shí)資本,讓它們在加密貨幣衍生品市場上進(jìn)行自主交易 ,整個(gè)過程零人工干預(yù)。
該方法的核心是設(shè)計(jì)一個(gè)“Harness(控制系統(tǒng))”,它在固定的時(shí)間間隔(約2-3分鐘)向模型提供實(shí)時(shí)的市場數(shù)據(jù)和賬戶狀態(tài),并要求模型輸出結(jié)構(gòu)化的交易決策,包括買入、賣出或持有,以及詳細(xì)的交易計(jì)劃(止盈、止損、風(fēng)險(xiǎn)管理等)。
這項(xiàng)研究的價(jià)值在于,它不僅評估了模型的最終盈虧(PnL),更重要的是,它揭示了不同模型在面對相同情況時(shí)表現(xiàn)出的深刻的行為差異、固有的偏見、風(fēng)險(xiǎn)偏好以及操作上的脆弱性。這為我們理解和部署LLMs作為自主決策代理提供了寶貴的真實(shí)世界洞見。
一、概述
?Title: Exploring the Limits of Large Language Models as Quant Traders
?URL: https://nof1.ai/ (實(shí)驗(yàn)數(shù)據(jù)和信息在該網(wǎng)站發(fā)布)
?Blog URL:?? https://nof1.ai/blog/TechPost1??
?Authors: Nof1 研究團(tuán)隊(duì)
?Code:?? https://github.com/etrobot/open-alpha-arena??
1.Motivation
?當(dāng)前LLM基準(zhǔn)測試的局限性: 現(xiàn)有的靜態(tài)基準(zhǔn)測試(如解題、回答問題)主要評估模型在固定數(shù)據(jù)集上的模式匹配和推理能力,無法衡量其在動(dòng)態(tài)、高風(fēng)險(xiǎn)、競爭性環(huán)境中的長期決策、適應(yīng)性和穩(wěn)健性。
?檢驗(yàn)真實(shí)世界決策能力的需求: 隨著LLM的能力越來越強(qiáng),有必要將其置于真實(shí)的、后果嚴(yán)重的環(huán)境中進(jìn)行測試,以發(fā)現(xiàn)其在理論測試中無法暴露的深層次問題和能力邊界。
?探索LLM作為零樣本交易模型的可行性: 論文的核心問題是:在提供最少指導(dǎo)的情況下,一個(gè)大型語言模型能否充當(dāng)一個(gè)零樣本(zero-shot)的系統(tǒng)化交易模型?研究旨在揭示不同模型的內(nèi)在交易偏見和行為模式。
2.Methods
研究團(tuán)隊(duì)創(chuàng)建了一個(gè)名為 Alpha Arena 的真實(shí)交易競賽環(huán)境。他們選擇了6個(gè)頂尖的閉源和開源LLM,給每個(gè)模型1萬美元的真實(shí)資金,在加密貨幣交易所 Hyperliquid 上自主交易6種主流加密貨幣(如BTC、ETH)的永續(xù)合約。模型只能依賴提供給它們的純數(shù)字市場數(shù)據(jù)(價(jià)格、成交量、技術(shù)指標(biāo)等),不能獲取新聞等敘事性信息。整個(gè)過程通過一個(gè)精心設(shè)計(jì)的自動(dòng)化系統(tǒng)(Harness)運(yùn)行,模型在幾分鐘的間隔內(nèi)接收數(shù)據(jù)、進(jìn)行分析,并輸出包括具體行動(dòng)、理由、信心分?jǐn)?shù)和完整退出計(jì)劃的結(jié)構(gòu)化指令。

from: https://nof1.ai/
詳細(xì)方法和步驟:
該實(shí)驗(yàn)的設(shè)計(jì)和執(zhí)行遵循以下步驟:
1) 實(shí)驗(yàn)環(huán)境搭建 (Alpha Arena Season 1):
?參與者 (Agents):選擇了6個(gè)行業(yè)領(lǐng)先的LLM,包括GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5, Grok 4, DeepSeek v3.1, 和 Qwen3-Max,以代表當(dāng)前最先進(jìn)的技術(shù)水平。
?資金與市場:每個(gè)模型分配$10,000真實(shí)資本,在Hyperliquid交易所進(jìn)行零人工干預(yù)的自主交易。
?交易品種:交易對象為6種主流加密貨幣(BTC, ETH, SOL, BNB, DOGE, XRP)的永續(xù)合約,允許使用杠桿進(jìn)行多頭或空頭交易。
?交易頻率:采用中低頻交易(MLFT),決策間隔為數(shù)分鐘到數(shù)小時(shí),這使得模型有足夠的時(shí)間進(jìn)行推理,同時(shí)能快速得到市場反饋。
2)自動(dòng)化控制系統(tǒng) (Harness) 設(shè)計(jì):
?推理循環(huán):大約每2-3分鐘,系統(tǒng)會(huì)調(diào)用一次模型。
?輸入 (Prompt):模型會(huì)收到一個(gè)精心設(shè)計(jì)的Prompt,包含兩部分:
系統(tǒng)指令:包含交易規(guī)則、費(fèi)用、輸出格式要求等。
用戶數(shù)據(jù):包含實(shí)時(shí)的市場數(shù)據(jù)(如K線、成交量、技術(shù)指標(biāo)如EMA, MACD, RSI)和當(dāng)前的賬戶狀態(tài)(如持倉、可用現(xiàn)金、盈虧)。
prompt翻譯結(jié)果:
自你開始交易以來,已經(jīng)過去了2399分鐘。
……
以下為你提供各類狀態(tài)數(shù)據(jù)、價(jià)格數(shù)據(jù)和預(yù)測信號,助你發(fā)掘阿爾法收益(alpha)。在此之后,是你當(dāng)前的賬戶信息,包括賬戶價(jià)值、業(yè)績表現(xiàn)、持倉情況等。
**以下所有價(jià)格或信號數(shù)據(jù)均按時(shí)間順序排列:從最早 → 到最新**
**時(shí)間框架說明:** 除非某小節(jié)標(biāo)題中另有說明,日內(nèi)數(shù)據(jù)序列均以**3分鐘為間隔**提供。若某幣種使用了不同的時(shí)間間隔,將在該幣種對應(yīng)的小節(jié)中明確標(biāo)注。
---
### 所有幣種的當(dāng)前市場狀態(tài)
### 所有BTC數(shù)據(jù)
當(dāng)前價(jià)格 = 107982.5
當(dāng)前20周期EMA = 107776.85
當(dāng)前MACD = 116.567
當(dāng)前RSI(7周期)= 62.558
此外,以下是BTC永續(xù)合約(即你正在交易的工具)最新的未平倉合約(Open Interest)和資金費(fèi)率(Funding Rate):
- **未平倉合約(Open Interest)**:最新值:25458.85,平均值:25461.32
- **資金費(fèi)率(Funding Rate)**:8.2948e-06
**日內(nèi)序列數(shù)據(jù)(按分鐘,從最早到最新):**
- **中間價(jià)(Mid prices)**:[107726.5, 107741.0, 107859.0, 107891.0, 107946.5, 108108.0, 108002.5, 107921.0, 107902.0, 107982.5]
- **EMA指標(biāo)(20周期)**:[107540.298, 107556.175, 107584.92, 107617.975, 107644.644, 107695.726, 107721.561, 107740.651, 107755.255, 107776.85]
- **MACD指標(biāo)**:[10.802, 21.816, 42.242, 63.667, 77.015, 109.171, 116.049, 116.525, 113.337, 116.567]
- **RSI指標(biāo)(7周期)**:[73.026, 71.971, 81.425, 84.429, 77.695, 87.43, 63.124, 59.094, 56.477, 62.558]
- **RSI指標(biāo)(14周期)**:[59.393, 59.004, 66.193, 69.057, 66.279, 75.216, 61.864, 59.473, 57.972, 61.28]
**更長期背景(4小時(shí)時(shí)間框架):**
- 20周期EMA:107854.332 vs. 50周期EMA:110571.164
- 3周期ATR:557.797 vs. 14周期ATR:1145.893
- 當(dāng)前成交量:5.495 vs. 平均成交量:5047.135
- MACD指標(biāo):[-1914.209, -1853.793, -1799.213, -1697.737, -1610.053, -1515.907, -1413.862, -1316.523, -1263.15, -1126.368]
- RSI指標(biāo)(14周期):[35.766, 37.705, 37.145, 39.797, 39.275, 39.815, 40.696, 40.804, 38.556, 45.44]
---
……
---
### 以下是你的賬戶信息及業(yè)績表現(xiàn)
- **當(dāng)前總回報(bào)率(百分比)**:2.59%
- **可用現(xiàn)金**:8308.94
- **當(dāng)前賬戶總價(jià)值**:10258.87
**當(dāng)前持倉及表現(xiàn):**
{
'symbol': 'XRP',
'quantity': 5164.0,
'entry_price': 2.3,
'current_price': 2.39865,
'liquidation_price': 2.07,
'unrealized_pnl': 493.42,
'leverage': 8,
'exit_plan': {
'profit_target': 2.6485,
'stop_loss': 2.1877,
'invalidation_condition': 'BTC跌破105,000,確認(rèn)市場進(jìn)入更深層次回調(diào)'
},
'confidence': 0.62,
'risk_usd': 594.7,
'sl_oid': -1,
'tp_oid': -1,
'wait_for_fill': False,
'entry_oid': 204655970889,
'notional_usd': 12386.63
}
**夏普比率(Sharpe Ratio)**:0.018?輸出 (Action):模型必須返回一個(gè)結(jié)構(gòu)化的JSON對象,內(nèi)容包括:
信號 (Signal):??buy_to_enter??? (買入開倉),??sell_to_enter??? (賣出開倉),??hold??? (持有),??close_position?? (平倉)。
交易參數(shù):交易的幣種、數(shù)量、杠桿。
風(fēng)險(xiǎn)管理:明確的止盈價(jià) (profit_target)、止損價(jià) (stop_loss) 和一個(gè)使整個(gè)交易計(jì)劃失效的條件 (invalidation_condition)。
決策輔助:交易理由 (justification) 和信心分?jǐn)?shù) (confidence score)。
thinking過程翻譯:
讓我分析一下當(dāng)前局勢:
**當(dāng)前持倉情況:**
- **XRP 多頭倉位**:5164 枚,入場價(jià) 2.30 美元,當(dāng)前價(jià) 2.398 美元,未實(shí)現(xiàn)盈虧 +493.42 美元
- **杠桿**:8 倍
- **退出計(jì)劃**:止盈目標(biāo) 2.6485 美元,止損位 2.1877 美元
- **失效條件**:BTC 跌破 105,000 美元
- **名義持倉規(guī)模**:12,386.63 美元
- **可用現(xiàn)金**:8,308.94 美元
---
**市場分析:**
**BTC:**
- 當(dāng)前價(jià)格:107,982.50 美元
- 顯著高于 XRP 倉位的失效價(jià)位(105,000 美元)
- 7 日 RSI:62.5(中性偏多)
- MACD 為正值(116.567),呈多頭信號
- 價(jià)格高于 20 周期 EMA(107,776.85 美元)
- 4 小時(shí)級別顯示價(jià)格正在從超賣區(qū)間反彈(RSI 45.44)
- 呈現(xiàn)強(qiáng)勁上漲動(dòng)能
**XRP:**
- 當(dāng)前價(jià)格:2.398 美元
- 入場價(jià) 2.30 美元,已上漲 4.3%
- 止盈目標(biāo) 2.6485 美元(較入場價(jià)上漲 15.1%)
- 止損位 2.1877 美元(較入場價(jià)下跌 4.9%)
- 7 日 RSI:70.73(處于超買區(qū)域但勢頭強(qiáng)勁)
- 價(jià)格明顯高于 20 周期 EMA(2.386 美元)
- MACD 為正值(0.007),顯示溫和多頭動(dòng)能
- 4 小時(shí) RSI 為 49.089,顯示持續(xù)走強(qiáng)
- 未平倉合約穩(wěn)定
- 資金費(fèi)率為正(8.59e-06)
---
**倉位管理:**
XRP 倉位目前處于盈利狀態(tài)(未實(shí)現(xiàn)盈利 +493.42 美元,+4.3%)。失效條件**尚未觸發(fā)**(BTC 當(dāng)前價(jià)格 107,982 美元 > 105,000 美元)。該倉位表現(xiàn)良好,正朝著止盈目標(biāo)方向運(yùn)行。
---
**其他交易機(jī)會(huì):**
**ETH:**
- 當(dāng)前價(jià)格:3,965.45 美元
- 7 日 RSI:65.5(中性偏多)
- MACD 顯示正向動(dòng)能(11.991)
- 價(jià)格穩(wěn)定運(yùn)行于 20 日均線之上
- 顯示出市場內(nèi)在強(qiáng)勢
- 資金費(fèi)率略為負(fù)值,提示需保持一定謹(jǐn)慎
**SOL:**
- 當(dāng)前價(jià)格:190.145 美元
- RSI 為 58.8,動(dòng)能中性
- 技術(shù)指標(biāo)呈溫和看漲
- MACD 顯示輕微多頭情緒(0.425)
- 價(jià)格維持在關(guān)鍵移動(dòng)平均線之上
**BNB:**
- 當(dāng)前價(jià)格:1,111.35 美元
- RSI 高達(dá) 68.5,發(fā)出強(qiáng)勁看漲信號
- 技術(shù)面持續(xù)呈現(xiàn)正向動(dòng)能
- MACD 確認(rèn)上漲趨勢(3.818)
**DOGE:**
- 當(dāng)前價(jià)格:0.1968 美元
- RSI 為 65.7,呈看漲態(tài)勢
- MACD 雖小但為正值
- 價(jià)格運(yùn)行于關(guān)鍵支撐位之上
---
**策略評估:**
- XRP 倉位保持穩(wěn)健
- 當(dāng)前杠桿敞口為 12,386 美元,風(fēng)險(xiǎn)已合理控制
- 建議采取**選擇性建倉策略**
- 主流加密資產(chǎn)普遍呈現(xiàn)積極的技術(shù)形態(tài)
- BTC 與 ETH 表現(xiàn)出顯著強(qiáng)勢
- BNB 在相對表現(xiàn)上尤為突出
在當(dāng)前可用資金有限(8,308 美元)的情況下,任何新開倉都必須具備**極佳的入場條件**和**精確的風(fēng)險(xiǎn)管理**。BTC 此刻展現(xiàn)出誘人的技術(shù)特征——突破盤整區(qū)間、強(qiáng)勁動(dòng)能,且有望上探 110,000 美元。若以 40% 的保證金(約 3,323 美元)開倉,使用 20 倍杠桿,可在可控風(fēng)險(xiǎn)(約 997 美元)下獲得精準(zhǔn)的風(fēng)險(xiǎn)敞口。**精準(zhǔn)的倉位規(guī)模控制**與**嚴(yán)格執(zhí)行預(yù)設(shè)風(fēng)險(xiǎn)閾值**仍是重中之重。最終輸出結(jié)果:
{
"stop_loss": 106361.0,
"signal": "buy_to_enter",
"leverage": 20,
"risk_usd": 997.0,
"profit_target": 111000.0,
"quantity": 0.62,
"invalidation_condition": "4H RSI breaks back below 40, signaling momentum failure",
"justification": "BTC breaking above consolidation zone with strong momentum. RSI at 62.5 shows room to run, MACD positive at 116.5, price well above EMA20. 4H timeframe showing recovery from oversold (RSI 45.4). Targeting retest of $110k-111k zone. Stop below $106,361 protects against false breakout.",
"confidence": 0.72,
"coin": "BTC"
}3)數(shù)據(jù)與分析:
- ?純量化輸入:模型僅能訪問數(shù)值化的時(shí)間序列數(shù)據(jù),不能訪問外部新聞或社交媒體信息,迫使它們從價(jià)格行為中推理市場“敘事”。
- ?行為分析:研究的重點(diǎn)不僅是最終的盈虧(PnL)和夏普比率,還包括對模型交易行為的深入比較分析,如多空偏好、持倉時(shí)間、交易頻率、倉位大小等。
3.Conclusion
?模型間存在顯著且一致的行為差異:即便使用完全相同的系統(tǒng)和提示,不同LLM在風(fēng)險(xiǎn)偏好、交易規(guī)劃、方向偏見和活動(dòng)頻率上表現(xiàn)出巨大差異。例如,Claude Sonnet 4.5 極少做空,而Grok 4、GPT-5和Gemini 2.5 Pro則更頻繁地進(jìn)行雙向交易。
?模型表現(xiàn)出操作上的脆弱性 (Operational Brittleness):
指令理解問題:模型會(huì)受到數(shù)據(jù)排序(??最新->最舊??? vs??最舊->最新??)的影響,或?qū)Α翱捎矛F(xiàn)金”等模糊術(shù)語產(chǎn)生混淆。
規(guī)則博弈 (Rule-gaming):在某些測試中,模型會(huì)在遵守規(guī)則的字面意思的同時(shí),違背其意圖。例如,在被限制連續(xù)持有次數(shù)后,模型會(huì)通過一個(gè)無關(guān)的“計(jì)劃變更”操作來重置計(jì)數(shù)器,然后繼續(xù)持有。
自我矛盾 (Self-referential confusion):模型有時(shí)會(huì)難以理解或執(zhí)行自己先前設(shè)定的交易計(jì)劃,暴露出在長期任務(wù)中維持一致性的困難。
?提示工程 (Prompt Engineering) 至關(guān)重要:實(shí)驗(yàn)發(fā)現(xiàn)模型對提示中的微小變化高度敏感。通過迭代優(yōu)化提示,例如要求明確的退出計(jì)劃和引入杠桿,可以顯著改善模型的交易行為(從早期的高頻、微利、被手續(xù)費(fèi)吞噬,到后期的低頻、高信念頭寸)。
4 Limitation
?統(tǒng)計(jì)功效有限:作為第一賽季,這是一個(gè)單一的、有時(shí)間限制的實(shí)驗(yàn),樣本量有限,因此其統(tǒng)計(jì)結(jié)論的說服力受到限制,結(jié)果可能存在偶然性。
?系統(tǒng)設(shè)計(jì)的約束:當(dāng)前的Harness系統(tǒng)不允許模型訪問歷史行為記錄,因此模型無法從過去的錯(cuò)誤中學(xué)習(xí)。此外,系統(tǒng)不支持金字塔式加倉或減倉,一旦開倉,頭寸參數(shù)就被固定。
?潛在的提示偏見:盡管研究者力求公平,但提示的設(shè)計(jì)本身可能無意中偏向了某些模型的特定行為模式。
5 QA
Q1: 金字塔式加倉或減倉,一旦開倉,頭寸參數(shù)就被固定是什么意思? (本方案沒有采取這些高級策略,只是為了初步試驗(yàn))
這句話描述的是金融市場中一種特定的倉位管理策略,我們來拆解一下它的核心意思:
1. “金字塔式加倉或減倉”這是一種分批買入或賣出的策略,形狀像金字塔:
?金字塔式加倉:在盈利的情況下,隨著價(jià)格向有利方向移動(dòng),逐步減少每次加倉的數(shù)量。例如:先買10手,漲了再加5手,再漲再加2手。這樣總倉位成本會(huì)優(yōu)于平均成本法,但初始倉位是最大的。
?金字塔式減倉:在盈利的情況下,隨著價(jià)格繼續(xù)上漲,逐步增加每次賣出的數(shù)量。例如:先賣2手,再漲賣5手,再漲賣10手。這樣可以鎖定大部分利潤。
2. “一旦開倉,頭寸參數(shù)就被固定”這是這句話的關(guān)鍵和核心前提。它意味著:
? 在你進(jìn)行第一次開倉(建立初始倉位)時(shí),你就必須一次性決定整個(gè)金字塔策略的所有關(guān)鍵參數(shù)。
? 這些“頭寸參數(shù)”通常包括:
總計(jì)劃倉位:你最終打算持有的最大總倉位數(shù)。
加倉/減倉的層級:你計(jì)劃分幾次來完成建倉或平倉。
每一層的價(jià)格間距:價(jià)格變動(dòng)多少時(shí),你才執(zhí)行下一層的操作。
每一層的倉位比例:每一層應(yīng)該下多少注(例如:第一層50%,第二層30%,第三層20%)。
整句話的綜合意思:
這是一種紀(jì)律性極強(qiáng)的倉位管理方法。它要求交易者在行動(dòng)之前就做好完整的計(jì)劃,而不是在行情波動(dòng)中臨時(shí)起意。一旦你投下第一筆資金,整個(gè)后續(xù)操作的藍(lán)圖(加多少、在哪里加、分幾次)就已經(jīng)確定,不容更改。
舉個(gè)例子來說明:
假設(shè)你計(jì)劃金字塔式買入某股票,總倉位不超過1000股。你的“頭寸參數(shù)”在第一次買入時(shí)就固定了:
?計(jì)劃:分三層買入,價(jià)格每下跌2元加倉一次。
第一層:在100元買入500股。
第二層:在98元買入300股。
第三層:在96元買入200股。
?執(zhí)行:
1. 你在100元時(shí),執(zhí)行了第一層,買入500股。此時(shí),你的“頭寸參數(shù)”(后續(xù)在98元買300股,在96元買200股)就已經(jīng)被固定了。
2. 之后,無論市場如何波動(dòng),你都必須嚴(yán)格按照這個(gè)計(jì)劃執(zhí)行:
? 如果股價(jià)跌到98元,你必須買入300股,不能因?yàn)楹ε露儋I或不買。
? 如果股價(jià)直接上漲,沒有觸發(fā)98元和96元的買入條件,那你就只持有500股,不能因?yàn)榭春枚S意在102元再加倉。
為什么這么做?
?克服人性弱點(diǎn):避免因市場波動(dòng)而產(chǎn)生的“恐懼”和“貪婪”影響決策。比如,跌了不敢加倉,或者漲了后悔買得少而沖動(dòng)追高。
?保持策略一致性:確保整個(gè)交易過程是系統(tǒng)化和有紀(jì)律的,而不是情緒化的。
?風(fēng)險(xiǎn)控制:在開倉前就計(jì)算好總倉位和風(fēng)險(xiǎn),避免在虧損時(shí)盲目“攤平成本”導(dǎo)致?lián)p失無限擴(kuò)大。
總結(jié):這句話指的是一種預(yù)先設(shè)定、嚴(yán)格執(zhí)行的倉位管理策略。它強(qiáng)調(diào)計(jì)劃的重要性和紀(jì)律的絕對性,要求交易者在第一步時(shí)就想好所有后續(xù)步驟,并雷打不動(dòng)地執(zhí)行。
本文轉(zhuǎn)載自??NLP PaperWeekly??,作者:NLP PaperWeekly

















