首個Data Agent基準測試來了!2007個測試任務將數據庫、PDF、視頻、音頻異構數據源一網打盡
數據智能體到底好不好用?測評一下就知道了!
南洋理工大學、新加坡國立大學攜手華為開源推出首個專門針對數據智能體(Data Agents)異構混合數據分析的綜合性基準測試FDABench。
該基準橫跨50+數據領域、設置了多種難度等級和任務類型,還獨創了Agent-Expert協作框架,確保測試用例質量和數據一致性,同時支持Data Agent、RAG、語義算子以及四種典型Data Agent工作流模式。

團隊使用FDABench對各種數據智能體系統進行了評估,發現每個系統在響應質量、準確性、延遲和token成本方面都表現出獨特的優勢。
下面詳細來看。
將數據庫、PDF、視頻、音頻異構數據源一網打盡
面對數據驅動決策的需求日益增長,這催生了對能夠整合結構化和非結構化數據進行分析的數據智能體的迫切需求。
△Data Agent 樣例
△Data Agent System架構
盡管數據智能體Data Agents在讓用戶執行復雜分析任務方面展現出潛力,但該領域仍存在三個關鍵局限性:
- 首先,由于難以設計出能評估智能體在多源分析任務中各項能力的測試用例,全面的數據智能體Benchmark仍然缺失;
- 其次,構建結合結構化和非結構化數據的可靠測試用例成本高昂且極其復雜;
- 第三,現有基準的適應性和通用性有限,導致評估范圍狹窄。
為應對這些挑戰,團隊提出了FDABench,這是首個專門為評估多源數據分析場景中的智能體而設計的數據智能體基準。
△FDAbench概覽
這個基準涵蓋了2007個不同的測試任務,覆蓋50多個領域,比如金融、電商,還有簡單、中等、難三種難度。 推理所需數據包括結構化數據庫、PDF文檔、視頻、音頻等異構數據源。

任務類型也分三種:單選題(比如算具體數值)、多選題(比如選多個正確結論,包含具體數值和綜合報告推理)、寫報告(比如整合數據出分析報告),能全面測數據智能體的能力。
△FDABench樣例
團隊還設計了統一Agent-Expert協作框架,同時支持Data Agent、RAG、語義算子以及四種典型Data Agent工作流模式(規劃Planning、工具使用Tool-use、反思Reflection、多智能體Multi-Agent),可無縫集成不同Data Agent系統架構。
不管數據智能體是靠“提前規劃步驟”、“調用工具”、“自我修正”還是“多智能體協作”工作,都能兼容測試,不用換個數據智能體就重新搭測試框架。
研究人員用FDABench測試了市面上常見的幾種數據智能體。
一類是通用的數據分析系統,比如能生成財務報告的DAgent、能處理多模態數據的Taiji;

一類是擅長語義理解的語義算子系統,比如能精準處理用戶自然語言查詢的LOTUS;

還有一類數據智能體Data Agent是帶檢索增強(RAG,能查外部數據輔助分析)的系統,比如Data Agent+GraphRAG。

研究人員也提供了對于不同基礎模型和智能體架構的全面測試:

團隊還嘗試去對每種數據智能體進行計算資源拆解,統計了數據智能體每個階段的耗時和總體系統延遲:

測試后發現:
- 架構復雜度權衡復雜Data Agent架構(如Multi-Agent、Reflection)在異構數據分析準確性上顯著優于簡單架構,但代價是計算成本成倍增加(6-20倍資源消耗),簡單架構如Planning則在效率上占優但面對復雜問題適應性有限;
- 計算資源重分配效應觀察到不同Data Agent架構本質是通過重新分配計算開銷實現優化——Reflection架構將26-29%計算用于重試機制換取高質量輸出,Planning架構將32-35%用于生成階段保證效率,這種“認知負載重分配”為根據任務場景選擇合適架構提供了量化指導
- 模型-架構適配性大規模Agenic Data下預訓練的模型即使是Non-Thinking Model(如Kimi-k2)在復雜Multi-Agent和Reflection架構下依舊表現突出,一些Thinking Model(如DeepSeek-R1)在復雜Data Agent架構中反而出現“雙重推理懲罰”現象,這表明模型選擇需要匹配架構復雜度。
總結一下就是,沒有完美的Data智能體,有的快但復雜任務拉胯,有的準卻費錢又慢,選的時候要看需求。
而FDABench的作用,就是幫你清楚測出哪個系統最適合你的需求。
論文地址:https://arxiv.org/pdf/2509.02473
代碼地址:https://github.com/fdabench/FDAbench






























