DATAMIND：構(gòu)建專業(yè)級數(shù)據(jù)分析智能體的可擴(kuò)展方法論

作者：肆零柒 2025-10-27 09:00:09

浙大與阿里聯(lián)合提出 DATAMIND 框架，僅用 12K 高質(zhì)量軌跡即訓(xùn)練出超越 GPT-5 的開源數(shù)據(jù)分析智能體，系統(tǒng)性解決了數(shù)據(jù)合成、訓(xùn)練策略與執(zhí)行穩(wěn)定性三大挑戰(zhàn)。

大家好，我是肆〇柒。今天來看看來自浙江大學(xué)與阿里巴巴集團(tuán)聯(lián)合研究團(tuán)隊(duì)的最新工作——《Scaling Generalist Data-Analytic Agents》。這項(xiàng)研究不僅提出了名為 DATAMIND 的高質(zhì)量數(shù)據(jù)合成與智能體訓(xùn)練框架，更訓(xùn)練出了在多項(xiàng)基準(zhǔn)上超越 GPT-5 的開源數(shù)據(jù)分析智能體 DATAMIND-14B，為構(gòu)建專業(yè)領(lǐng)域 Agentic AI 提供了一套可復(fù)現(xiàn)、可擴(kuò)展的方法論。

隨著AI進(jìn)入"下半場"，面向日益復(fù)雜和特定領(lǐng)域場景的LLM智能體（LLM Agentic）基準(zhǔn)測試正迅速涌現(xiàn)。在這一趨勢中，自動化數(shù)據(jù)分析作為科學(xué)發(fā)現(xiàn)的關(guān)鍵支柱，對實(shí)現(xiàn)"創(chuàng)新AI"愿景至關(guān)重要，展現(xiàn)出提升研究效率和加速科學(xué)發(fā)現(xiàn)的潛力。然而當(dāng)前的數(shù)據(jù)分析智能體過度依賴專有模型的提示工程或多智能體架構(gòu)，而開源模型在處理多樣格式、大規(guī)模數(shù)據(jù)文件和真實(shí)世界分析所需的長視野多步推理方面仍面臨嚴(yán)峻挑戰(zhàn)。DATAMIND的出現(xiàn)不僅帶來了一個高性能模型（DATAMIND-14B以71.16%的平均得分超越GPT-5），更提供了一套可擴(kuò)展的數(shù)據(jù)合成和智能體訓(xùn)練配方，為構(gòu)建專業(yè)領(lǐng)域智能體提供了系統(tǒng)化指導(dǎo)。

專業(yè)智能體構(gòu)建的三大核心挑戰(zhàn)與對應(yīng)解決方案

專業(yè)領(lǐng)域智能體的構(gòu)建面臨著一系列固有挑戰(zhàn)，這些挑戰(zhàn)在數(shù)據(jù)分析場景中尤為突出。以下將挑戰(zhàn)與DATAMIND的解決方案一一對應(yīng)分析。

挑戰(zhàn)一：數(shù)據(jù)資源不足與DATAMIND的應(yīng)對

訓(xùn)練專業(yè)智能體需要大規(guī)模、高質(zhì)量的任務(wù)集合及其對應(yīng)的解決方案軌跡，但公開可用的數(shù)據(jù)分析基準(zhǔn)測試通常僅提供有限的評估測試集，缺乏逐步軌跡注釋，使得無法從現(xiàn)成資源中組裝有效的訓(xùn)練語料庫。真實(shí)世界的數(shù)據(jù)分析任務(wù)要求處理多樣格式（CSV、Excel、SQLite等）、大規(guī)模數(shù)據(jù)（>1,000行）以及多步驟推理，這使得數(shù)據(jù)合成既必要又困難。

18個細(xì)粒度數(shù)據(jù)分析任務(wù)類別分布

如上圖研究團(tuán)隊(duì)設(shè)計(jì)的18個細(xì)粒度數(shù)據(jù)分析任務(wù)類別呈現(xiàn)明顯的長尾分布特性，相關(guān)性分析(Correlation Analysis)占比最高(14.06%)，事實(shí)核查(Fact Checking)占9.34%，而描述性分析(Descriptive Analysis)僅占0.79%。這種不均衡分布反映了真實(shí)數(shù)據(jù)分析場景的特性——用戶更關(guān)注發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系而非簡單描述，為合成查詢提供了真實(shí)分布依據(jù)。

為應(yīng)對這一挑戰(zhàn)，DATAMIND從互聯(lián)網(wǎng)和開源社區(qū)收集了3,400個.csv和560個.xlsx文件，并過濾掉無法加載、過小（<20行）或過大（>1,000行）的文件，以及包含異常數(shù)據(jù)類型的文件。對于數(shù)據(jù)庫文件，研究團(tuán)隊(duì)從BIRD和OmniSQL中獲取了1,954個.sqlite文件，構(gòu)建了涵蓋多種格式的多樣化數(shù)據(jù)源。通過細(xì)粒度任務(wù)分類和遞歸易到難任務(wù)組合機(jī)制，系統(tǒng)性地生成多樣化查詢，有效解決了數(shù)據(jù)資源不足的問題。

案例展示：薪資差異分析

讓我們通過一個具體案例來理解DATAMIND的工作流程。想象你是一名人力資源分析師，需要回答："2020年亞裔男性和黑人男性的年薪中位數(shù)差異是多少？"（What is the difference between the median annual salaries of Asian Men and Black Men in the year 2020?）。這個問題屬于"相關(guān)性分析"類別（第一張圖中占比最高的類別）。

DATAMIND全流程架構(gòu)

上圖清晰展示了DATAMIND如何處理這個具體任務(wù)：

1. 數(shù)據(jù)輸入：DATAMIND接收包含歷年薪資數(shù)據(jù)的CSV文件（如上圖所示，包含Year, AsianMen, AsianW, BlackMen等列）

2. 任務(wù)分類：系統(tǒng)識別這是"相關(guān)性分析"任務(wù)，并應(yīng)用相應(yīng)的高階工作流

3. 多輪推理：首先加載數(shù)據(jù)并檢查結(jié)構(gòu)，然后篩選2020年數(shù)據(jù)，計(jì)算中位數(shù)差異

4. 結(jié)果輸出：最終返回類似<answer>The difference is $12,345.</answer>的精確答案

通過這個具體案例，我們可以看到DATAMIND如何將復(fù)雜的多步驟推理過程自動化，而無需用戶編寫任何代碼。在實(shí)際應(yīng)用中，用戶只需提出自然語言問題，DATAMIND就能自動完成從數(shù)據(jù)加載、預(yù)處理到最終結(jié)果生成的全過程。

挑戰(zhàn)二：訓(xùn)練策略不當(dāng)與DATAMIND的應(yīng)對

長視野智能體訓(xùn)練的穩(wěn)定性問題不容忽視。當(dāng)前的智能體訓(xùn)練策略通常遵循SFT-then-RL范式，但在新場景中，如何穩(wěn)定長視野智能體訓(xùn)練以及如何在SFT和RL之間分配訓(xùn)練步驟以實(shí)現(xiàn)最佳性能仍不明確。在多步驟推理過程中，模型可能因外部反饋和多輪次復(fù)合錯誤而經(jīng)歷分布漂移，極易導(dǎo)致軌跡崩潰，從而使強(qiáng)化學(xué)習(xí)訓(xùn)練不穩(wěn)定。

SFT損失對RL訓(xùn)練的影響

實(shí)驗(yàn)數(shù)據(jù)顯示，當(dāng)不施加SFT損失（γ=0）時，答案獎勵幾乎單調(diào)下降；當(dāng)γ提高到0.2時，答案獎勵雖有初始上升但隨后崩潰；而采用動態(tài)γ策略（從0.9退火至0.05）則能實(shí)現(xiàn)穩(wěn)定訓(xùn)練。這表明SFT損失既是RL訓(xùn)練的有效穩(wěn)定器，也可能成為不穩(wěn)定訓(xùn)練的罪魁禍?zhǔn)住?/span>

SFT與RL的動態(tài)平衡：可以將SFT（監(jiān)督微調(diào)）比作"老師手把手教學(xué)"，而RL（強(qiáng)化學(xué)習(xí)）則像"讓學(xué)生獨(dú)立解決問題"。DATAMIND的創(chuàng)新在于動態(tài)調(diào)整這兩種教學(xué)方式的比例——開始時老師指導(dǎo)較多（γ=0.9），隨著學(xué)生能力提升，逐漸放手讓學(xué)生自主探索（γ降至0.05）。正如論文中所述："訓(xùn)練過程 resembles raising a child。在童年早期，持續(xù)的父母指導(dǎo)（高γ）對防止孩子誤入歧途至關(guān)重要。隨著孩子成長，過度監(jiān)督會抑制孩子自我探索的內(nèi)在動力。"

DATAMIND通過動態(tài)調(diào)整SFT和RL損失的權(quán)重來解決這一問題。研究團(tuán)隊(duì)將γ參數(shù)從峰值0.9通過余弦衰減調(diào)度到谷值0.05，使模型首先從SFT損失中獲取穩(wěn)定監(jiān)督，隨后逐漸減少SFT權(quán)重以鼓勵探索。同時，實(shí)施Void Turns過濾機(jī)制，將無法產(chǎn)生有效代碼片段或答案的智能體循環(huán)定義為"無效輪次"，并直接屏蔽這些軌跡對損失的貢獻(xiàn)，有效防止了軌跡崩潰。此外，采用DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）算法，通過每令牌重要性采樣比率和優(yōu)勢函數(shù)平衡探索與利用，確保訓(xùn)練過程的穩(wěn)定性。

挑戰(zhàn)三：代碼執(zhí)行環(huán)境不穩(wěn)定與DATAMIND的應(yīng)對

基于代碼的多輪交互環(huán)境穩(wěn)定性是第三大挑戰(zhàn)。數(shù)據(jù)文件和代碼解釋器涉及復(fù)雜的內(nèi)存管理，而并行智能體rollout和有限內(nèi)存資源下的多輪代碼生成將進(jìn)一步加劇這一問題。

DATAMIND全流程架構(gòu)

上圖清晰展示了DATAMIND如何解決這一挑戰(zhàn)。研究團(tuán)隊(duì)實(shí)施了三大關(guān)鍵創(chuàng)新：

DATAMIND解決環(huán)境穩(wěn)定性的三大創(chuàng)新：

1. 異步交互：將模型生成和代碼執(zhí)行解耦，避免同時發(fā)生文件I/O和代碼執(zhí)行高峰

效果：解耦GPU和CPU內(nèi)存需求峰值，防止系統(tǒng)崩潰

2. 塊式代碼維護(hù)：僅保留文本代碼塊而非全局變量池

對比：傳統(tǒng)筆記本系統(tǒng)維護(hù)全局變量池（內(nèi)存密集型），而DATAMIND在運(yùn)行時動態(tài)連接代碼片段
優(yōu)勢：實(shí)現(xiàn)相同的全局執(zhí)行效果而無需額外內(nèi)存開銷

3. 安全控制：為每個軌跡設(shè)置隔離環(huán)境

具體措施：嚴(yán)格限制CPU時間和峰值內(nèi)存，過濾不安全函數(shù)調(diào)用
額外功能：自動包安裝機(jī)制，動態(tài)檢查并安裝缺失的Python包

這些措施共同構(gòu)建了一個高效穩(wěn)定的多輪代碼執(zhí)行框架，為長視野推理提供了堅(jiān)實(shí)基礎(chǔ)。

DATAMIND的方法框架

DATAMIND采用系統(tǒng)化方法應(yīng)對上述挑戰(zhàn)，其核心在于數(shù)據(jù)合成、訓(xùn)練策略和環(huán)境構(gòu)建三個維度的創(chuàng)新設(shè)計(jì)。

DATAMIND全流程架構(gòu)

上圖清晰展示了這一框架的四個關(guān)鍵組件：細(xì)粒度任務(wù)分類與遞歸任務(wù)組合、知識增強(qiáng)軌跡采樣與過濾、動態(tài)調(diào)整的訓(xùn)練目標(biāo)以及內(nèi)存高效的多輪代碼執(zhí)行框架。

數(shù)據(jù)合成：質(zhì)量優(yōu)先的軌跡構(gòu)建

DATAMIND的數(shù)據(jù)合成流程始于多樣化數(shù)據(jù)文件的收集，隨后通過細(xì)粒度任務(wù)分類和遞歸組合機(jī)制生成高質(zhì)量查詢。研究團(tuán)隊(duì)為每個任務(wù)類別精心設(shè)計(jì)了46個示例查詢作為少樣本演示，確保生成的查詢既多樣又符合任務(wù)特性。通過遞歸易到難任務(wù)組合機(jī)制，將簡單任務(wù)鏈接為多跳分析挑戰(zhàn)，通過迭代25次逐步提高難度。

知識增強(qiáng)的軌跡采樣流程包括：為每個問題類別手動設(shè)計(jì)高階工作流k，編碼過程性知識并引導(dǎo)模型在軌跡合成過程中的行為；采樣N=3次獨(dú)立軌跡；使用基于GPT-4o-mini的judge模型驗(yàn)證最終答案是否與推理理由一致；僅保留收斂到相同答案的軌跡。對于不一致的軌跡，將judge模型的思維鏈反饋給智能體進(jìn)行反思修正，這一救援循環(huán)不僅挽救了額外可用數(shù)據(jù)，還能豐富思維模式的多樣性。

研究團(tuán)隊(duì)實(shí)施了三層規(guī)則過濾：格式合規(guī)性（確保符合ReAct格式）、長度控制（最終答案<1,024 tokens）和語言完整性（消除亂碼文本或混合自然語言），最終保留11,707條高質(zhì)量軌跡，命名為DATAMIND-12K。值得注意的是，盡管DATAMIND-12K僅含12K軌跡，而TableLLM和Table-R1分別使用20K和2.5M的訓(xùn)練數(shù)據(jù)，但DATAMIND系列模型在多個基準(zhǔn)測試上仍取得最佳表現(xiàn)。從Table 1可見，DATAMIND-14B在DABench上達(dá)到80.29%(pass@1)，大幅領(lǐng)先Table-R1-14B的45.33%；在TableBench上達(dá)到70.95%，優(yōu)于Table-R1-14B的50.38%。這一結(jié)果有力證明了"高質(zhì)量軌跡比大量低質(zhì)量軌跡更重要"的論點(diǎn)。

訓(xùn)練策略：動態(tài)平衡的SFT-RL范式

DATAMIND在訓(xùn)練策略上突破了傳統(tǒng)SFT-then-RL范式，采用動態(tài)平衡SFT和RL損失的方法。研究團(tuán)隊(duì)將γ參數(shù)從峰值0.9通過余弦衰減調(diào)度到谷值0.05，使模型首先從SFT損失中獲取穩(wěn)定監(jiān)督，隨后逐漸減少SFT權(quán)重以鼓勵探索。

不同γ設(shè)置下的答案獎勵與熵動態(tài)

上圖揭示了SFT損失的雙重角色：當(dāng)γ固定在高位(0.8)時，答案獎勵先短暫上升，隨后逐漸下降，同時策略熵急劇降低，表明模型陷入剛性思維模式；而動態(tài)γ策略能保持策略熵在較高水平，確保模型持續(xù)探索能力。研究團(tuán)隊(duì)將訓(xùn)練過程比喻為"培養(yǎng)孩子"：在早期需要大量指導(dǎo)（γ=0.9），隨著模型成熟，逐漸放手（γ=0.05），讓模型通過環(huán)境反饋發(fā)現(xiàn)自身真正能力。

DAPO算法的應(yīng)用進(jìn)一步優(yōu)化了訓(xùn)練過程，其中clip參數(shù)εlow和εhigh分別設(shè)置為0.2和0.28，以平衡探索與利用。獎勵設(shè)計(jì)包含格式獎勵rformat、答案獎勵ranswer和長度獎勵rlength三部分，其中長度獎勵定義為：當(dāng)答案長度l ≤ lmin時為1；當(dāng)lmin < l ≤ lmax時線性衰減至0.5；當(dāng)l > lmax時固定為0.5。研究團(tuán)隊(duì)設(shè)置lmin和lmax分別為256和1024，以防止模型通過幻覺過多令牌來"破解"答案獎勵。此外，使用EMA平滑獎勵值以避免訓(xùn)練過程中的劇烈波動，確保訓(xùn)練穩(wěn)定性。

環(huán)境構(gòu)建：內(nèi)存高效的多輪執(zhí)行框架

DATAMIND的環(huán)境構(gòu)建針對數(shù)據(jù)分析場景的特殊需求進(jìn)行了多項(xiàng)創(chuàng)新，已在"挑戰(zhàn)三"部分詳細(xì)說明，此處不再贅述。關(guān)鍵點(diǎn)在于：異步交互、塊式代碼維護(hù)和安全控制三大創(chuàng)新共同構(gòu)建了一個穩(wěn)定、高效的多輪代碼執(zhí)行框架，為長視野推理提供了堅(jiān)實(shí)基礎(chǔ)。

從DATAMIND學(xué)到的三大核心經(jīng)驗(yàn)

DATAMIND的實(shí)驗(yàn)分析揭示了專業(yè)智能體訓(xùn)練中的三大關(guān)鍵經(jīng)驗(yàn)，這些發(fā)現(xiàn)對構(gòu)建其他領(lǐng)域智能體具有重要參考價值。

經(jīng)驗(yàn)一：自一致性過濾比最佳軌跡選擇更重要

自一致性過濾與最佳軌跡選擇分析

在7B模型的SFT階段分析表明，移除自一致性過濾(non-con)導(dǎo)致DABench的pass@1從61.92%降至61.03%，降幅相對較小但顯著。值得注意的是，當(dāng)最終答案一致時，隨機(jī)選擇軌跡的pass@3得分與最佳選擇(con-select)相當(dāng)甚至更高。

更關(guān)鍵的是，包含所有收斂到一致答案的軌跡（不進(jìn)行選擇）能獲得最大的性能提升。這一模式在所有數(shù)據(jù)集上都成立，表明軌跡中嵌入的推理模式和問題解決策略的多樣性對模型推理能力的提升更為有益。這與Guha等人研究發(fā)現(xiàn)一致，盡管我們不能完全排除引入的更大訓(xùn)練量的貢獻(xiàn)。這一經(jīng)驗(yàn)表明，在數(shù)據(jù)合成過程中，確保答案一致性比選擇"最佳"軌跡更重要，而保留多樣化的解決路徑則能進(jìn)一步提升模型能力。

經(jīng)驗(yàn)二：SFT損失的雙重角色與動態(tài)平衡

SFT損失既是RL訓(xùn)練的有效穩(wěn)定器，也可能成為不穩(wěn)定訓(xùn)練的罪魁禍?zhǔn)住?/span>

SFT損失對RL訓(xùn)練的影響

上圖顯示，當(dāng)不施加SFT損失（γ=0）時，答案獎勵幾乎單調(diào)下降，主要由于7B模型有限的多步推理能力難以生成高質(zhì)量軌跡組，以及數(shù)據(jù)結(jié)構(gòu)和代碼語言的異質(zhì)性導(dǎo)致軌跡分布高度不平衡。

提高γ到0.2能在一定程度上緩解問題，答案獎勵雖有初始上升但仍會崩潰。而采用動態(tài)γ策略，模型首先享受強(qiáng)SFT損失的穩(wěn)定監(jiān)督，隨后逐漸減少SFT系數(shù)以鼓勵探索，實(shí)現(xiàn)了整個訓(xùn)練過程的穩(wěn)定。

不同γ設(shè)置下的答案獎勵與熵動態(tài)

上圖進(jìn)一步揭示了固定高γ值會導(dǎo)致策略熵崩潰，使模型陷入專家軌跡中的剛性思維模式，而動態(tài)γ策略能保持策略熵在較高水平。研究團(tuán)隊(duì)將訓(xùn)練過程比喻為"培養(yǎng)孩子"：在早期需要大量指導(dǎo)（γ=0.9），隨著模型成熟，逐漸放手（γ=0.05），讓模型通過環(huán)境反饋發(fā)現(xiàn)自身真正能力。這一經(jīng)驗(yàn)強(qiáng)調(diào)了在訓(xùn)練過程中動態(tài)調(diào)整SFT和RL權(quán)重的重要性，避免過早陷入局部最優(yōu)或過晚失去方向。

經(jīng)驗(yàn)三：RL縮小差距但無法逆轉(zhuǎn)順序

冷啟動與RL的性能差距

實(shí)驗(yàn)數(shù)據(jù)顯示，隨著冷啟動訓(xùn)練周期增加，RL帶來的邊際收益遞減。重要的是，盡管RL縮小了性能差距，但post-RL性能仍與基礎(chǔ)模型能力正相關(guān)。這證實(shí)了大部分知識是在監(jiān)督微調(diào)階段習(xí)得的，而強(qiáng)化學(xué)習(xí)主要起到激發(fā)潛在能力的作用，而非強(qiáng)行突破模型固有的能力邊界的觀點(diǎn)。

研究團(tuán)隊(duì)指出："強(qiáng)化學(xué)習(xí)可以縮小不同基礎(chǔ)模型之間的性能差距，但很難逆轉(zhuǎn)其優(yōu)劣順序" 特別值得注意的是，當(dāng)冷啟動足夠強(qiáng)時，RL帶來的改進(jìn)空間將大幅縮小，這引發(fā)了一個關(guān)鍵問題：是否存在一個性能飽和點(diǎn)，使得RL不再有效？如果存在，是什么根本機(jī)制（如策略空間飽和、探索信號減弱或獎勵模型的內(nèi)在限制）導(dǎo)致RL失效？這一經(jīng)驗(yàn)表明，SFT階段獲取的知識是模型能力的基礎(chǔ)，而RL主要用于解鎖潛在能力，而非突破模型的固有能力邊界。

為什么我們應(yīng)該關(guān)心DATAMIND？

即使你不是AI專家，DATAMIND的技術(shù)進(jìn)步也將直接影響你的工作和生活：

對非技術(shù)工作者：未來你可能只需用自然語言提問（如"上季度銷售額最高的產(chǎn)品是什么？"），就能獲得專業(yè)級的數(shù)據(jù)分析結(jié)果，無需學(xué)習(xí)復(fù)雜的數(shù)據(jù)工具
對數(shù)據(jù)科學(xué)家：DATAMIND能自動化處理繁瑣的數(shù)據(jù)預(yù)處理和基礎(chǔ)分析，讓你專注于更高價值的洞察發(fā)現(xiàn)
對科研人員：加速科學(xué)發(fā)現(xiàn)過程，如論文中提到的"Scimaster: Towards general-purpose scientific AI agents"研究，將幫助研究人員更快地從數(shù)據(jù)中獲取洞見

專有模型與開源模型性能對比

DATAMIND-14B以71.16%的平均得分顯著優(yōu)于最強(qiáng)專有模型GPT-5(69.44%)和DeepSeek-V3.1(70.58%)，而DATAMIND-7B(68.10%)也優(yōu)于所有開源模型。這一結(jié)果直觀證明了DATAMIND方法論的有效性，打破了"專有模型必然優(yōu)于開源模型"的固有認(rèn)知。

從技術(shù)到人文

想象一下，五年前，只有專業(yè)數(shù)據(jù)科學(xué)家才能進(jìn)行復(fù)雜的數(shù)據(jù)分析；今天，DATAMIND這樣的技術(shù)正在將這種能力帶給每一位知識工作者。就像Excel曾經(jīng)讓電子表格分析變得普及一樣，DATAMIND正在讓高級數(shù)據(jù)分析變得觸手可及。

在論文中，研究團(tuán)隊(duì)將訓(xùn)練過程比喻為"培養(yǎng)孩子"——這不僅僅是一個技術(shù)類比，更反映了AI發(fā)展的人文維度。我們不是在創(chuàng)造取代人類的超級智能，而是在培養(yǎng)能與人類協(xié)作的"專業(yè)助手"，它們擅長處理繁瑣的技術(shù)細(xì)節(jié)，而人類則專注于更高層次的思考和決策。

DATAMIND提供了一套可復(fù)用的專業(yè)智能體構(gòu)建框架，其核心價值不僅在于構(gòu)建了高性能的數(shù)據(jù)分析智能體，更在于提供了一套可擴(kuò)展的數(shù)據(jù)合成和智能體訓(xùn)練配方。研究團(tuán)隊(duì)強(qiáng)調(diào)"質(zhì)量優(yōu)先"的數(shù)據(jù)合成理念對開源社區(qū)的重要價值：盡管DATAMIND-12K僅包含12K軌跡，而TableLLM和OmniSQL分別使用20K和2.5M的訓(xùn)練數(shù)據(jù)，但DATAMIND系列模型在多個基準(zhǔn)測試上仍取得最佳表現(xiàn)。

專業(yè)智能體訓(xùn)練如同"教育"過程的深刻啟示值得重視：從指導(dǎo)到放手的漸進(jìn)過程對模型能力發(fā)展至關(guān)重要。研究團(tuán)隊(duì)也坦承當(dāng)前工作的局限性：a) 目前僅包含推理導(dǎo)向的數(shù)據(jù)分析任務(wù)，訓(xùn)練、預(yù)測和數(shù)據(jù)可視化任務(wù)被有意排除；b) 受限于計(jì)算資源，實(shí)驗(yàn)骨干模型僅限Qwen家族，模型規(guī)模上限為14B；c) 由于計(jì)算資源限制，尚未全面評估所有RL訓(xùn)練算法，且數(shù)據(jù)稀缺將RL運(yùn)行限制在約350步。

GitHub代碼庫（https://github.com/zjunlp/DataMind）已提供。這些資源和方法論將助力研究者構(gòu)建各自專業(yè)領(lǐng)域的智能體，共同推動"創(chuàng)新AI"愿景的實(shí)現(xiàn)，加速科學(xué)研究效率并促進(jìn)科學(xué)發(fā)現(xiàn)。DATAMIND所展示的方法論框架，不僅適用于數(shù)據(jù)分析領(lǐng)域，也為構(gòu)建其他專業(yè)領(lǐng)域的智能體提供了系統(tǒng)化指導(dǎo)。

責(zé)任編輯：龐桂玉來源：覺察流