結構化表格也成模態(tài)!浙大TableGPT2開源,最強表格AI問世
現(xiàn)在正是多模態(tài)大模型的時代,圖像、視頻、音頻、3D、甚至氣象運動都在紛紛與大型語言模型的原生文本模態(tài)組合。而浙江大學及其計算機創(chuàng)新技術研究院的一個數(shù)十人團隊也將結構化數(shù)據(jù)(包括數(shù)據(jù)庫、數(shù)倉、表格、json 等)視為了一種獨立模態(tài)。
基于這一視角,依托 Qwen,他們研發(fā)了 TableGPT 系列模型。現(xiàn)如今,這個模型已經(jīng)更新到了第 2 代,性能表現(xiàn)較之前代已有大幅提升:在某些基準上,TableGPT2 能夠媲美甚至優(yōu)于 GPT-4o!或者按團隊負責人趙俊博博士的說法:「目前通用大模型在許多結構化數(shù)據(jù)相關的任務上的表現(xiàn)仍然較弱,TableGPT2 在相關任務的榜單上鐵腕刷榜 —— 各類相關任務刷出去平均 40 個點?!?/span>

- 論文標題:TableGPT2: A Large Multimodal Model with Tabular Data Integration
- 論文地址:https://arxiv.org/pdf/2411.02059
- TableGPT 智能體:https://github.com/tablegpt/tablegpt-agent
- Hugging Face:https://huggingface.co/tablegpt/TableGPT2-7B
該團隊表示:「提出 TableGPT2 的關鍵動機是解決當前 LLM 在數(shù)據(jù)驅動型真實世界應用中的限制?!?/span>
當今的許多 LLM 的設計目標就是以端到端的方式運行,而沒有整合外部數(shù)據(jù)。但該團隊認為這種方法存在固有缺陷。舉個例子,如果你想用 LLM 來幫助你挑選股票,但如果不給它提供實時的市場信息,它的建議就根本不可能靠譜;更別說必需病人病歷和各類過往的指標數(shù)據(jù)才能做出準確判斷的醫(yī)療 AI 應用了。具身智能中的靈巧手的觸覺信號以及多個傳感器中的各類 「覺」 也都是結構化信息。
同時,即便 LLM 已經(jīng)整合了外部數(shù)據(jù)源(如數(shù)據(jù)庫),其性能也往往無法達到最優(yōu)。目前常見的整合思路包括通過工具(如 natural-language-to-sql / NL2SQL)來調(diào)用外部數(shù)據(jù)源以及通過更長的長下文和新架構來納入外部數(shù)據(jù)源。但這些方法要么難以用于復雜場景,要么就效率低下,不實用。
基于這些思考,該團隊認為在整合外部數(shù)據(jù)源時需要根本上的范式轉變。TableGPT2 也由此而生,該模型的設計目標是直接且高效地整合和處理表格數(shù)據(jù),克服當前 LLM 的固有限制,進而實現(xiàn)生產(chǎn)級部署。
之前 LLM 和 VLM 方面的研究已經(jīng)證明了大規(guī)模多樣化數(shù)據(jù)集的重要性。其實表格數(shù)據(jù)也同樣多,并且也同樣重要。據(jù)估計,全球超過 70% 的數(shù)據(jù)都是以結構化的表格形式存儲的,包括數(shù)據(jù)庫和電子表格。
所以,資源浩瀚,也因此,開發(fā)大規(guī)模表格模型極具潛力!該團隊表示:「通過使用大規(guī)模表格及其 schema 元數(shù)據(jù)的數(shù)據(jù)集,我們的目標是探索能否有效地建模這些數(shù)據(jù)格式,從而得到可用于商業(yè)智能等應用的功能強大的模型。」
TableGPT2 的表格數(shù)據(jù)編碼器是該團隊全新設計的,其重在建模表格數(shù)據(jù)的結構和內(nèi)容。這讓 TableGPT2 可以捕獲 schema 層面和單元格層面的信息,從而有望為表格大模型帶來文本模型和視覺模型所經(jīng)歷過的那種巨大提升。
TableGPT2 是什么
從名稱也能看出,TableGPT2 是 TableGPT 的新一代版本。初始版本的 TableGPT 就已經(jīng)引入了結構化特定領域語言(DSL)和專用表格編碼器等方法,可以管理復雜的基于表格的查詢。在此基礎上,TableGPT2 實現(xiàn)了巨大的改進。他們不僅擴大了數(shù)據(jù)和訓練協(xié)議的規(guī)模,還重新設計了每個組件,同時也引入了一些提升穩(wěn)健性、擴大適用性以及優(yōu)化商業(yè)智能應用性能的技術。
最終,大規(guī)模多模態(tài)模型 TableGPT2 誕生了!它有兩種配置:7B 和 72B 版本。它們?nèi)蓟?Qwen2.5 系列模型。訓練過程中,該團隊使用了超過 860 億 token 來進行持續(xù)預訓練(CPT)、超過 43.75 萬個表格 - 語言交織的樣本來訓練編碼器、236 萬多個高質(zhì)量「查詢 - 表格 - 輸出」元組來進行監(jiān)督式微調(diào)。
在相關研究中,這種規(guī)模是前所未有的,足以保證 TableGPT2 滿足涉及結構化或表格數(shù)據(jù)的現(xiàn)代應用的嚴格要求。
TableGPT2 經(jīng)歷的持續(xù)預訓練(CPT)、監(jiān)督式微調(diào)(SFT)和支持生產(chǎn)級能力的智能體框架不同于傳統(tǒng) LLM,因為這里的預訓練和微調(diào)更加注重編程、多輪推理和工具使用。這些特點可確保模型不僅擅長自然語言處理,而且能夠很好地處理與表格相關的復雜任務。
此外,該團隊還初步探索了表格數(shù)據(jù)的多模態(tài)對齊。具體來說,TableGPT2 創(chuàng)新性地加入了一個單獨的模態(tài)模塊,專門用于讀取和解釋表格數(shù)據(jù)。類似于視覺 - 語言模型(VLM),TableGPT2 包含一個表格數(shù)據(jù)讀取模塊,其作用是生成與來自文本輸入的 token 嵌入相連接的專用嵌入。這個新增模塊可讓 TableGPT2 更好地捕獲表格數(shù)據(jù)的結構和語義,從而在復雜的商業(yè)智能場景中實現(xiàn)更準確的表格理解。圖 1 描繪了其整體模型框架。

TableGPT2 是如何煉成的
持續(xù)預訓練
為了實現(xiàn) TableGPT2 的目標,該團隊首先是通過持續(xù)預訓練(CPT)來提升模型的編程和推理能力。
具體來說,80% 的 CPT 數(shù)據(jù)都是標注良好的代碼,從而確保 TableGPT2 具有穩(wěn)健的編程能力,這與 DeepSeek-v2 采用的方法是一致的。此外,該團隊還做了補充;他們收集整理了大量包含多種領域知識(如金融、制造業(yè)、生物技術、市場技術)的推理數(shù)據(jù)和一般教科書,以保持數(shù)據(jù)比例平衡,增強推理能力。表 1 展示 CPT 過程中使用的數(shù)據(jù)分布和總 token 數(shù)。

在數(shù)據(jù)處理方面,他們采用了一種兩級過濾策略。
在文檔層面,他們使用 54 個不同的類別對數(shù)據(jù)進行了標注,以確保全面覆蓋不同的文檔類型。下表展示了一些重要的過濾標簽。

在 token 層面,則是利用了 RHO-1 來微調(diào)對高質(zhì)量 token 的選擇。
此外,他們還引入了一種可將代碼長度和上下文窗口設置納入考慮的新方法,這可優(yōu)化模型有效處理多種不同代碼段的能力。
經(jīng)過徹底過濾后,最終的 CPT 數(shù)據(jù)包含 86B token,這種穩(wěn)健強大的預訓練可確保 TableGPT2 具備必要的編程和推理能力,足以應對復雜的商業(yè)智能和其他相關任務。
有監(jiān)督微調(diào)
在 TableGPT2 中,監(jiān)督式微調(diào)(SFT)的作用是解決在用于商業(yè)智能任務和場景時的局限。
為此,該團隊編排了一個數(shù)據(jù)集,其中包含范圍廣泛的近乎現(xiàn)實的關鍵場景,包括多輪對話、復雜推理、工具使用和針對具體業(yè)務的查詢。
這個數(shù)據(jù)集的構建過程既包括人工標注,也包含一個專家驅動的自動化標注流程,從而可以保證數(shù)據(jù)的質(zhì)量和相關性??傮w而言,SFT 過程涉及 236 萬個樣本, token 數(shù)量達數(shù)十億,足可用于進一步微調(diào)模型,使其滿足商業(yè)智能和其他涉及表格的環(huán)境的特定需求。

更具體地說,TableGPT2 的 SFT 流程有一個關鍵差異,即這 236 萬個指令樣本的組成非常平衡且多樣化。如此一來,就可以滿足表格相關任務的需求:既需要通用的模型能力,也需要針對表格的技能。
該數(shù)據(jù)集包含的表格專有任務包括代碼生成(Python 和 SQL)、表格查詢、數(shù)據(jù)可視化、統(tǒng)計測試和預測建模。此外,其中還有表格理解、表格生成、缺失值插補和基于表格的問答等多種任務,幾乎涵蓋了表格使用的所有階段。輸入格式加上隨機排列的表格元數(shù)據(jù)(如字段描述、schema 信息和值枚舉),可以產(chǎn)生超過 20 種不同的「表格 - 信息」輸入組合,組可確保全面覆蓋。
為了保證數(shù)據(jù)質(zhì)量,他們還實施了一個多步驟的數(shù)據(jù)過濾流程:
- 首先,使用一組基于規(guī)則的過濾器,包括使用 Python 和 SQL 執(zhí)行器檢查代碼的可執(zhí)行性和正確性,從而消除常見錯誤(例如鍵錯誤和類型轉換問題)。此外,還會使用正則表達式和其他規(guī)則來丟棄異常輸出。
- 然后,使用多個模型(如 GPT-4o)對過濾后的數(shù)據(jù)進行評分;這里使用的提示詞是專門設計的,可以保證得到更為細致的評估。只要當樣本在所有評分組合上都超過閾值時,該樣本才會被保留下來。
- 之后,通過人工檢查進行樣本校準。如果樣本準確率低于 95%,就重新審查并優(yōu)化其數(shù)據(jù)生成和過濾腳本。
- 最后,執(zhí)行評估,這會用到一個包含約 94.9K 個案例(包括現(xiàn)有案例和新構建的案例)的固定驗證集,如此可確保生成的結果是可執(zhí)行且準確的。同時還會執(zhí)行進一步的手動驗證來抽查任何不一致之處并檢測潛在的數(shù)據(jù)問題,例如缺少函數(shù)調(diào)用或多輪對話能力較差。
用于表格數(shù)據(jù)的數(shù)據(jù)增強
為了提升 TableGPT2 的性能(尤其是商業(yè)智能任務性能),該團隊采用了多種查詢增強技術,包括
- 在查詢內(nèi)引入字段時進行模糊化處理
- 通過匿名化字段名和類別值來實現(xiàn)表格數(shù)據(jù)增強
- 通過結合單輪和多輪問答任務來增強模型的多功能性
- 使用變動的提示詞格式和輸出結構來降低 TableGPT2 對某些提示詞模板的敏感度
- 在數(shù)據(jù)生成過程中應用后處理增強來提升訓練數(shù)據(jù)的多樣性
語義表格編碼器
由于 NL2SQL 等傳統(tǒng)工作流程存在局限性,該團隊為 TableGPT2 設計了新的語義編碼器。

這種新的表格編碼器的輸入是整張表格?;诖?,它可為每一列生成一組緊湊的嵌入。
該架構是根據(jù)表格數(shù)據(jù)的獨特屬性專門設計的,畢竟表格與文本、圖像和其它數(shù)據(jù)類型存在根本性差異。
表格的語義來自四個關鍵維度:單元格、行、列和表格整體結構。這些維度都存在排列不變性(permutation invariance)?;谶@一觀察,該團隊實現(xiàn)了一個沒有位置嵌入的二維注意力機制以及一個分層特征提取過程。這能確保行方向和列方向的關系都被捕獲并被有效理解。
此外,他們還采用了一種逐列式對比學習方法,以鼓勵模型學習有意義的、對結構有感知的表格語義表征。
該團隊使用了 Q-former 式的適應器(配備了一組可學習的查詢)來將列嵌入與文本嵌入對齊。
他們還引入了兩個特殊 token <tab> 和 </tab>,以區(qū)分表格特征和原生文本,讓模型可以同時處理這兩種模態(tài),并且不產(chǎn)生混淆。
為進一步增強文本信息、列嵌入和 schema 元數(shù)據(jù)之間的對齊程度,他們還使用了聯(lián)合指令微調(diào)。此過程有助于優(yōu)化模型對表格數(shù)據(jù)的理解,使其能夠更有效地集成和解讀各種輸入。
順帶一提,目前這個編碼器部分還尚未開源。至于原因,趙俊博博士表示:「一方面保護下團隊學生們未來的小論文,另外一方面確實 VLM 和特定領域的適配沒弄好,解碼器可以獨立使用,效果仍在。」
智能體框架
該團隊在開源庫中提供了一個全面的智能體工作流程運行時間框架,其設計目標是將 TableGPT2 無縫地集成到企業(yè)級數(shù)據(jù)分析工具中。該框架包含三個核心組件:
- 運行時間的提示詞工程
- 一個安全的代碼沙箱
- 一個智能體評估模塊
它們加在一起,可以提升智能體的能力和可靠性。這個工作流程具有模塊化的步驟,因此可支持復雜的數(shù)據(jù)分析。這些步驟包括輸入規(guī)范化、智能體執(zhí)行(可選擇 VLM 支持)、工具調(diào)用。
再結合檢索增強式生成(RAG,用于高效上下文檢索)和代碼沙箱(用于安全執(zhí)行),該框架可確保 TableGPT2 為實際問題提供準確、與上下文相關的見解。
下圖展示了智能體的完整工作流程:首先通過一個提示詞工程模塊來準備和處理輸入查詢。再基于一個外部知識庫使用 RAG 模塊后,將經(jīng)過處理的輸入送入主模型。然后,TableGPT2 會與一個視覺 - 語言模型(VLM)合作生成工具調(diào)用、代碼等相關動作。通過觀察中間結果,可以根據(jù)需求選擇是否迭代,以利用該智能體的反思能力。通過智能體與工具之間的無縫交互,這個迭代過程最終可得到最終輸出。

TableGPT2 效果怎么樣
在實驗部分,團隊此次針對表格相關任務進行了全面的基準測試,不僅涵蓋了已有的一些數(shù)據(jù)集,還加入了一個新收集的、面向真實任務的復雜表格數(shù)據(jù)集,從而提供了一個嚴格的評估平臺。
為了進行全面的比較,團隊選擇了多樣化的基線大語言模型。第一類是最先進的開源通用 LLM,包括 DeepSeek-Coder-V2-Lite-16B、 YiCoder-9B-Chat 以及 Qwen2.5-Coder-7B-Instruct、Qwen2.5-7B-Instruct。
第二類是針對表格相關任務進行微調(diào)或專門開發(fā)的模型,比如針對表格分析設計和優(yōu)化的 TableLLM、為處理電子表格和文檔設置中各種真實表格操作而微調(diào)的 CodeLlama-13B。
基準概覽
下表 4 匯總了現(xiàn)有的表格理解和推理基準,共涵蓋了 27.7K 個表格和 88.9K 個測試樣本。團隊將這些基準劃分為了以下 6 項主要的表格分析任務,以全方位評估模型在不同類型任務中的性能:
- 表格理解
- 表格問答(TableQA)
- 表格事實驗證
- 表格到文本生成(Table2Text)
- 自然語言到 SQL(NL2SQL)
- 整體評估

除了表 4 中已有的基準,團隊構建了一個新基準 RealTabBench?,F(xiàn)有基準大多側重于簡單的任務,不符合實際使用場景。為了克服這一局限性,團隊構建了這個更具挑戰(zhàn)性、更能反映實際應用場景的新基準,從商業(yè)智能(BI)場景中的真實表格中收集了 360 個復雜數(shù)據(jù)表格,并在此基礎上制定了 6000 個真實、復雜的查詢語句。
在評估模型性能時,團隊采用了兩個在實際應用中特別難處理的表格特征,分別是:
- 模糊性,表格中潛在的形似「A1」、「A2」等難以確認實際含義的匿名字段會對自動分析構成很大的挑戰(zhàn);
- 不規(guī)則性,在生產(chǎn)環(huán)境中,表格數(shù)據(jù)通過包含普遍的合并操作和不規(guī)則的結構,比如合并單元格和非均勻布局。
同時,針對新基準 RealTabBench,團隊又從三個關鍵維度對生成的結果進行了評估,即一致性、信息完整性和安全性。
為了保證權威性,團隊采用人工評審員與評估 LLM 結合的混合系統(tǒng)來生成最終的分數(shù),并已經(jīng)公開了整個評估流程中的部分樣本。

- 項目地址:https://github.com/tablegpt/tablegpt-agent/tree/main/realtabbench
評估結果
下表 5 展示了 TableGPT2 (7B 和 72B 版本)與最先進基線模型的比較結果。值得注意的是,在沒有對任何特定基準訓練集進行大量訓練的情況下,TableGPT2 顯著優(yōu)于幾乎所有其他 LLM 方法。并且在某些基準上,TableGPT2 能夠媲美甚至優(yōu)于 GPT-4o。
另外,在涉及分層結構表格的復雜數(shù)據(jù)基準(如 HiTab)上,當前大多數(shù) LLM 方法表現(xiàn)不佳。相反,TableGPT2 有了明顯改進,與 Qwen2.5 系列模型相比,執(zhí)行準確率實現(xiàn)了 60% 以上的絕對增長。

同樣地,對于 RealTabBench 數(shù)據(jù)集,TableGPT2(7B)在多項任務上均達到了新 SOTA。

為了更直觀地展示 TableGPT2 的效果,團隊選擇了幾個比較案例(vs Qwen2.5 系列模型),涵蓋了不規(guī)則表格、一般表格和模糊表格的場景。具體結果如下圖 4 所示。

最后,針對表格相關任務對 LLM 微調(diào)不應損害其整體性能。為了驗證這一觀點,團隊在下表 7 中對流行的基準展開評估,包括 MBPP、HumanEval、CMMLU 和 MMLU。
結果顯示,TableGPT2 在這些基準上保持了強大的性能,并沒有出現(xiàn)通用能力的下降。

未來改進方向
不過,團隊也表示,盡管 TableGPT2 在評估中實現(xiàn)了 SOTA,但尚未完全解決在實際 BI 環(huán)境中部署 LLM 的挑戰(zhàn)。因此距離將該模型可靠地用于生產(chǎn)系統(tǒng)仍有一些差距。團隊提出可以采用以下幾種關鍵的技術與方法來解決。
一是針對特定領域進行編碼。
團隊雖然利用 Python 和 SQL 數(shù)據(jù)對 TableGPT2 進行了微調(diào),但考慮到安全和效率等因素,特定領域通常需要專門的編碼。這就面臨一個關鍵挑戰(zhàn):如何使 LLM 能夠快速適應企業(yè)特定的 DSL 或偽代碼?拿 TableGPT2 來說,雖然它可以生成代碼,但問題在于如何有效地彌合這些代碼與企業(yè)數(shù)據(jù)基礎設施特定需求之間的差距?
在 TableGPT2 中,團隊采用了一種混合輸出方法,結合使用了結構 DSL 輸出和標準編程代碼。這使得模型流暢地生成結構化和非結構化代碼,在提供靈活性的同時可以保持領域特定應用所需的結構。
這些領域特定語言可以提供更好的可解釋性,允許通過用戶友好的界面更直接地與 LLM 輸出進行交互。同時,這些語言可以最大限度地減少潛在的安全風險和錯誤,從而帶來更安全、更強大的解決方案。
團隊認為,生產(chǎn)環(huán)境中的編碼不單單是簡單的代碼生成,需要仔細考慮領域特定的需求、基礎設施兼容性以及靈活性與安全性之間的平衡,在混合使用 DSL 和通用代碼時更要如此。
二是多智能體設計。
盡管 TableGPT2 在表格相關任務中取得了 SOTA 性能,但仍然不能指望單個端到端 LLM 能夠獨立地完全解決復雜的真實任務。因此,團隊最近在密切關注一項新的研究 —— 自動化智能體系統(tǒng)設計,它遵循了 LLM 工作流的自動化編排原則。
其中多個 LLM 被組織成有向無環(huán)圖(DAG)結構,這樣輸入查詢可以根據(jù)圖的拓撲順序自動路由到一系列 LLM 中。每個 LLM 執(zhí)行一項專門的功能。DAG 流程由系統(tǒng)本身決定,并根據(jù)手頭任務決定要用到哪些 LLM。這種自動化流程工程創(chuàng)建了一個靈活的模塊化工作流程,并根據(jù)問題需求動態(tài)調(diào)整,正如 AutoML 系統(tǒng)自動配置機器學習模型以獲得最佳性能一樣。
這樣的例子還有很多,比如用于股票和基金推薦的小型自然語言應用,它需要將 LLM 與實時市場數(shù)據(jù)連接起來。在這種多智能體架構中,通常需要為不同的 LLM 分配不同的角色,每個 LLM 都要在針對其功能專門定制的數(shù)據(jù)上進行微調(diào)。每個 LLM 還要根據(jù)輸入來配置不同的提示詞模版和 RAG 設置,并在輸出階段應用不同的編碼和對話邏輯。這樣一來,每個階段的定制微調(diào)可以確保整個 pipeline 提供精準和上下文感知的響應,從而解決真實應用的復雜性。
一個足夠先進的單一基礎模型最終能不能取代鏈接多個模型的需要呢?團隊認為這在很大程度上仍是理論上可行。這種模型需要擁有足夠的通用智能來處理統(tǒng)一框架內(nèi)的各種任務。但從自身經(jīng)驗出發(fā),團隊表示通常需要兩個以上的 LLM 才能解決真實應用的全部復雜性。因此,團隊認為,單一模型何時能夠熟練、無縫地解決跨多個領域的問題仍不確定,在生產(chǎn)階段尤為如此。
三是充分利用表格的多功能性。
盡管 TableGPT2 主要關注 BI 應用 —— 在這些應用中,結構化數(shù)據(jù)的上游來源是數(shù)據(jù)庫或數(shù)據(jù)倉庫;不過,表格數(shù)據(jù)還有另一個非常常見的來源,即 Apple Pages 或 Microsoft Excel 等應用程序。
這些表格與數(shù)據(jù)庫等基礎設施中的表格往往差異巨大,因為人們?nèi)粘J褂玫谋砀癯32⒉灰?guī)則。舉個例子,Pages 或 Excel 中的表格常常有合并單元格、不一致的行列結構、非標準的數(shù)據(jù)格式。這些不規(guī)則會讓此類表格的處理復雜度更高。另外,不同組織機構使用的表格形式差異也很大,比如有些單元格可能會包含自由形式的文本、有些單元格沒有填充等等。
在 TableGPT2 模型所在的智能體工作流程中,該團隊還專門為規(guī)范不規(guī)則表格微調(diào)了一個單獨的 LLM,并將其集成到一個整體系統(tǒng)中。然而,處理不規(guī)則表格仍有很大的改進空間,尤其是考慮到其巨大的商業(yè)生產(chǎn)潛力。
因此,該團隊猜想,要處理這種不規(guī)范,就應該從預訓練階段開始,以確保模型能夠熟練處理表格的各種格式。
當前的許多 LLM 以及 RAG 過程都無法充分地處理這些非標準表格結構。此外,許多現(xiàn)有的語料庫也常常忽視這類數(shù)據(jù)。這一有待填補的空白是值得研究者未來探索的寶貴機會。



























