馬斯克轉發字節Seed&哥大商學院新基準:大模型搞金融,連查個股價都能出錯
讓AI像金融分析師一樣搜索和分析數據,到底有多難?當前的大模型雖然能回答基礎金融知識,在CFA考試中取得高分,但面對真實的金融場景,它們的表現究竟如何?
為了回答這個問題,字節跳動Seed團隊聯合哥倫比亞大學商學院推出了FinSearchComp,這是首個完全開源的金融搜索與推理基準測試。該基準包含635個金融專家精心設計的問題,覆蓋全球和大中華兩個市場,并在多個主流模型產品上進行了全面評測。
評測結果令人深思:
在全球數據集上,表現最好的Grok 4 (web)準確率達到68.9%,但仍落后人類專家6.1個百分點。在大中華區數據集上,豆包(web)雖然領先其他模型,但與人類專家88.3%的準確率相比,差距超過34個百分點。
這些數字清晰地表明,即使是最先進的AI系統,在處理復雜金融分析任務時仍有很大提升空間。

該基準測試發布后獲得了業界的廣泛討論,馬斯克也關注并轉發。

學界專家們認為,這進一步凸顯了金融AI能力評估在當前技術發展階段的重要性和現實意義。
三類任務,遞進式難度設計
金融分析是檢驗AI能力的絕佳試金石。分析師的日常工作涉及大量復雜的信息搜索和整合,從實時市場數據到歷史財務披露,從新聞事件到監管文件,這些任務不僅要求時效性和精確性,還需要跨源信息整合和專業判斷。
舉例來說,看似簡單的“查詢IBM最新收盤價”需要快速獲取并驗證最新數據;“檢索星巴克2020年9月的總資產”需要準確定位時間點并理解會計準則;而“識別2010年以來標普500單月最大漲幅”則需要跨越多個時期進行數據處理。
這些任務展現了金融搜索如何結合時效性、精確性和證據整合,使其成為評估AI是否能支持現實高風險決策的天然試驗場。一個過時的數據、一個口徑錯誤的數據、 一個非官方信息源的數據,都可能導致最終的決策失誤。而完成這些,有依賴模型對搜索以及金融工具的使用。
FinSearchComp的研究團隊精心設計了三類貼近分析師日常工作的任務,難度逐級遞增。
時效性數據獲取任務要求獲取每日或日內變化的數據,如最新股價、匯率、黃金價格等,這類任務強調數據時效性搜索、多信息源判斷。
簡單歷史查詢任務需要查找固定時間點的事實,比如某公司2024財年的研發支出或TTM收入,關鍵挑戰在于對齊報告慣例(財年、TTM、季度等單位),并確保單位和貨幣的一致性。
最具挑戰性的是復雜歷史調查任務,它要求進行多期聚合或綜合分析。例如“過去10年標普500單月最大跌幅是哪個月”這樣的問題,需要跨越長時間跨度檢索數據、調整公司行為影響、標準化單位,并進行多步推理而不出錯。
這種遞進式的任務設計不僅反映了金融分析工作流程的實際復雜性,也為細粒度的錯誤分析提供了可能。

官方數據源、行業專家保證數據可靠性
為確保基準的質量和可靠性,FinSearchComp的構建得到了字節跳動Xpert平臺的有力支撐。
Xpert是字節跳動旗下的專家級數據服務平臺,致力于將各行各業專家的深度知識和豐富經驗轉化為高質量AI訓練數據。該平臺匯聚了數千名經過嚴格篩選的專家,包括來自985/211院校的碩博士學者以及擁有2-10年豐富實戰經驗的各行業專家。在FinSearchComp項目中,Xpert平臺提供了70位金融專家的專業支持,包括50位標注專家和20位資深審核專家。這些專家均具有金融碩士以上學位,來自花旗、摩根大通、德意志銀行、野村證券、中信證券、華泰證券等知名機構。
在數據源選擇上,所有答案均來自高度可靠的渠道,包括上市公司官方披露、政府和監管機構網站以及專業金融數據庫。團隊采用多源交叉驗證方法確保數據可靠性并消除歧義。例如,他們會將兩個不同官方網站的數據進行交叉引用,或將專業金融數據庫的數據與官方網站進行驗證。
為了消除歧義,團隊在問題中明確說明定義標準(如靜態市盈率vs市盈率TTM),將答案設置為數值范圍或定義容差精度,并盡可能避免容易產生追溯調整的指標。每個問題和答案都經過盲審機制的多重驗證,由其他專家獨立求解并比對結果。整個數據集構建過程耗時約240小時專家工時,充分保證了專業性和準確性。

評測發現:搜索能力是關鍵,金融插件有幫助,但還遠遠不夠
首先是任務難度的遞進性得到驗證,所有模型的表現都從T1到T3單調遞減,證明基準確實在測試越來越復雜的搜索和推理能力。T3任務需要跨異構源和時間段的多跳檢索、時間推理、細粒度實體解析以及部分或沖突證據的協調,迫使系統進行規劃、驗證和綜合,而不僅僅是檢索。
地域特征也很明顯。美國模型在全球數據集上領先,中國模型在大中華區數據集上表現更好。研究團隊認為這主要歸因于模型能力、以及產品所用工具的地區性,這些因素共同提升了“主場”性能

最引人注目的是搜索能力的關鍵作用。
配備網絡搜索功能的模型在三個任務上分別獲得40.8、29.0和8.1個百分點的巨大提升。沒有搜索功能的模型在時效性任務上一律得分為0,因為它們無法檢索當前金融數據。即使在T2和T3任務上,無搜索模型雖然能獲得非零但很低的分數,這主要依賴于預訓練時的參數記憶,但這些記憶往往過時或不準確。
此外,金融插件的價值也得到充分體現。在元寶平臺上使用金融插件的DeepSeek R1比在DeepSeek官方網站上的版本表現提升了31.9個百分點。標準網絡搜索功能可能產生過時的金融數據或無法檢索最新信息,而專用金融插件提供對簡單實時數據的直接訪問,使模型能夠生成更準確的摘要并減少錯誤的可能性。

這個基準不僅測試了AI的搜索能力,更重要的是揭示了構建可靠金融決策支持系統所需的關鍵能力差距。
據統計,美國約有37萬金融專業人士,全球可能超過100萬金融分析師每天都在執行這些信息檢索任務。個人分析師每天執行10-30次簡單歷史查詢,每次平均需要5-10分鐘;而復雜歷史調查雖然頻率較低,但每次往往需要15-60分鐘。
雖然標準化模板和自動化工具已經存在,但約有一半的信息檢索活動仍然需要手動數據收集和重寫模版開發。如果AI能夠準確成這些任務,分析師可以進一步自動化這些流程,顯著提升整體生產力。
這次評測也點明了一個現實:最強的AI在金融搜索上也只能及格。或許我們需要的不只是一個FinSearchComp,而是多個這樣的行業級評測,構建起金融AI的完整“駕照考試體系”,讓更多的金融AI產品來參與并證明自己的可靠性。畢竟,在AI能夠精準完成這些任務之前,誰敢讓它從copilot變成pilot?
Arxiv鏈接:https://arxiv.org/abs/2509.13160
Github鏈接:https://randomtutu.github.io/FinSearchComp/
Xpert專家平臺榜單鏈接:https://xpert.bytedance.com/leaderboard
































