DataAgent: 讓AI自主管理數(shù)據(jù)
1. DataAgent研究現(xiàn)狀
1.1 AI4Data 研究現(xiàn)狀
過(guò)去十年,在AI賦能數(shù)據(jù)(AI4Data)領(lǐng)域,運(yùn)用AI技術(shù)攻克了諸多難題:
- 從離線NP難題(如索引優(yōu)化、視圖推薦)到在線挑戰(zhàn)(如查詢(xún)重寫(xiě))
- 從基數(shù)估計(jì)等回歸問(wèn)題到學(xué)習(xí)型索引等數(shù)據(jù)結(jié)構(gòu)創(chuàng)新。
這些成果往往由于過(guò)度依賴(lài)專(zhuān)家調(diào)參,難以適應(yīng)數(shù)據(jù)環(huán)境的變化。
1.2 Data4AI 研究現(xiàn)狀
對(duì)于Data4AI領(lǐng)域,將數(shù)據(jù)庫(kù)優(yōu)化技術(shù)延伸至人工智能部署環(huán)節(jié),包括:
- 數(shù)據(jù)庫(kù)內(nèi)機(jī)器學(xué)習(xí)(ML)訓(xùn)練與推理
- 數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)集成
- 特征管理
- 模型管理
這些方法面臨的主要挑戰(zhàn)在于如何實(shí)現(xiàn)系統(tǒng)管線的自主編排,從而避免依賴(lài)高人工投入的運(yùn)維方式。
1.3 Data + AI 核心難題

如上圖所示,現(xiàn)有技術(shù)缺乏語(yǔ)義理解與自主決策能力。而大語(yǔ)言模型(LLMs)恰能補(bǔ)此短板。
所以,清華大學(xué)提出了"Data Agent"框架,通過(guò)三大核心能力重塑Data+AI生態(tài):
- 知識(shí)理解
- 自主規(guī)劃
- 自我進(jìn)化
2. Data Agent技術(shù)架構(gòu)
Data Agent 專(zhuān)為自主處理數(shù)據(jù)任務(wù)設(shè)計(jì),集知識(shí)理解、自動(dòng)規(guī)劃和自我反思于一體。

核心架構(gòu)包括如上圖所示的6要素:
- 環(huán)境感知(Perception):智能體需實(shí)時(shí)感知數(shù)據(jù)生態(tài),包括環(huán)境狀態(tài)、任務(wù)需求、協(xié)作伙伴及工具資源。通過(guò)離線微調(diào)或預(yù)設(shè)提示模板實(shí)現(xiàn)精準(zhǔn)對(duì)齊。
- 推理決策(Reasoning and Planning):既擅長(zhǎng)拆解復(fù)雜任務(wù)為多級(jí)流程(規(guī)劃),又能做出精準(zhǔn)的單步判斷(推理)。每個(gè)決策可能觸發(fā)深度推理、二次規(guī)劃,或調(diào)用專(zhuān)業(yè)工具獲取領(lǐng)域知識(shí)。
- 工具調(diào)度(Tool Invocation):可靈活調(diào)用計(jì)算工具、領(lǐng)域數(shù)據(jù)庫(kù)或環(huán)境指令集。通過(guò)模型上下文協(xié)議(MCP)實(shí)現(xiàn)標(biāo)準(zhǔn)化交互,確保跨系統(tǒng)信息無(wú)損傳遞,各類(lèi)模型的中間推理結(jié)果皆可互通復(fù)用。
- 記憶系統(tǒng)(Memory):包含領(lǐng)域知識(shí)庫(kù)(長(zhǎng)期記憶)和用戶(hù)會(huì)話記錄(短期記憶),依托向量數(shù)據(jù)庫(kù)高效管理。創(chuàng)新性引入反思記憶模塊,持續(xù)優(yōu)化決策質(zhì)量。
- 進(jìn)化機(jī)制(Continuous Learning):通過(guò)自我反思、強(qiáng)化學(xué)習(xí)和獎(jiǎng)勵(lì)模型實(shí)現(xiàn)能力迭代,使智能體越用越聰明。
- 多智能體(Multiple Agents):突破單智能體能力邊界,通過(guò)多智能體協(xié)作矩陣應(yīng)對(duì)復(fù)雜場(chǎng)景,顯著提升系統(tǒng)魯棒性與并行效率。
構(gòu)建了三位一體的數(shù)據(jù)智能體架構(gòu)(如下圖)

數(shù)據(jù)理解與探索、數(shù)據(jù)引擎理解與調(diào)度、流程編排三大核心模塊,圖4展示了詳細(xì)架構(gòu)設(shè)計(jì)。
- 數(shù)據(jù)理解與探索智能體(Data Understanding and Exploration Agents):通過(guò)結(jié)構(gòu)化數(shù)據(jù)組織提升智能體的數(shù)據(jù)發(fā)現(xiàn)與訪問(wèn)能力。核心組件包括:
統(tǒng)一語(yǔ)義目錄:提供模式定義、元數(shù)據(jù)索引等結(jié)構(gòu)化元數(shù)據(jù)系統(tǒng),優(yōu)化數(shù)據(jù)訪問(wèn)性能
數(shù)據(jù)編織層:通過(guò)異構(gòu)數(shù)據(jù)鏈接與集成,形成統(tǒng)一數(shù)據(jù)視圖
語(yǔ)義數(shù)據(jù)組織與索引:顯著提升智能體數(shù)據(jù)處理效率該模塊還將整合數(shù)據(jù)預(yù)處理、清洗、集成等工具,并制定高效的工具調(diào)度策略。
- 數(shù)據(jù)引擎理解與調(diào)度智能體(Data Engine Understanding and Scheduling Agents):專(zhuān)注于Spark、DBMS、Pandas、PyData等數(shù)據(jù)處理引擎的能力分析與任務(wù)調(diào)度。通過(guò)建立引擎能力畫(huà)像,協(xié)調(diào)不同特長(zhǎng)的引擎協(xié)作完成復(fù)雜任務(wù)。
- 流程編排智能體(Pipeline Orchestration Agents):根據(jù)用戶(hù)自然語(yǔ)言(NL)查詢(xún)和數(shù)據(jù)目錄生成執(zhí)行管道,其核心能力包括:
任務(wù)分解:將復(fù)雜任務(wù)拆解為可串行/并行執(zhí)行的子任務(wù)
開(kāi)放環(huán)境適應(yīng):利用大語(yǔ)言模型(LLM)的理解、推理與自反思能力應(yīng)對(duì)NL查詢(xún)與底層數(shù)據(jù)的開(kāi)放性
管道優(yōu)化:針對(duì)延遲、成本或準(zhǔn)確率進(jìn)行優(yōu)化
引擎調(diào)度:調(diào)用引擎智能體高效執(zhí)行管道

多智能體協(xié)作網(wǎng)絡(luò)(如上圖)包含三大引擎:
- 智能體優(yōu)選系統(tǒng):建立能力畫(huà)像庫(kù),實(shí)現(xiàn)精準(zhǔn)任務(wù)匹配
- 協(xié)同計(jì)算框架:通過(guò)A2A協(xié)議實(shí)現(xiàn)狀態(tài)同步與群體智能
- 彈性執(zhí)行引擎:支持串行/并行混合調(diào)度,具備故障自愈能力
工具調(diào)度中心依托MCP協(xié)議實(shí)現(xiàn)"即插即用",可智能匹配Pandas/PyData等數(shù)百種數(shù)據(jù)處理工具,構(gòu)建動(dòng)態(tài)能力組合。
3. iDataScience技術(shù)架構(gòu)

基于以上DataAgent技術(shù)架構(gòu),清華團(tuán)隊(duì)開(kāi)發(fā)了 iDataScience ,其技術(shù)架構(gòu)如上圖所示,采用了雙系統(tǒng)架構(gòu):
- 離線基準(zhǔn)構(gòu)建階段(Offline Data Agent Benchmarking):通過(guò)組合基礎(chǔ)數(shù)據(jù)技能,打造覆蓋全場(chǎng)景的智能體評(píng)估體系。
首先運(yùn)用大語(yǔ)言模型對(duì)海量數(shù)據(jù)案例進(jìn)行質(zhì)量篩選和技能挖掘;
隨后通過(guò)遞歸聚類(lèi)建立技能層級(jí)體系,并依據(jù)使用頻率或用戶(hù)偏好為每個(gè)技能賦予權(quán)重;
最后基于權(quán)重概率采樣核心技能,由大語(yǔ)言模型生成對(duì)應(yīng)測(cè)試用例。
為確保在線評(píng)估的精準(zhǔn)性,系統(tǒng)還構(gòu)建了支持相似度檢索的測(cè)試用例索引庫(kù)。
- 在線智能調(diào)度階段(Online Multi-Agent Pipeline Orchestration):當(dāng)新任務(wù)到來(lái)時(shí),系統(tǒng)自動(dòng)拆解任務(wù)流、匹配最優(yōu)智能體,并動(dòng)態(tài)優(yōu)化執(zhí)行方案。包含兩大核心機(jī)制:
局部調(diào)整:?jiǎn)蝹€(gè)智能體層面的子任務(wù)修正
全局重構(gòu):基于中間結(jié)果的完整重規(guī)劃
智能體優(yōu)選機(jī)制(Data Agent Selection):通過(guò)微調(diào)的模型,將待處理任務(wù)與基準(zhǔn)庫(kù)中的測(cè)試用例進(jìn)行向量化匹配,快速鎖定Top K相似案例。綜合評(píng)估結(jié)果后,選擇綜合得分最高的智能體。
流程動(dòng)態(tài)編排(Multi-Agent Pipeline Orchestration):先由大語(yǔ)言模型基于智能體畫(huà)像拆解任務(wù)依賴(lài)圖,為每個(gè)子任務(wù)分配合適的智能體,并通過(guò)合并/細(xì)分等操作持續(xù)優(yōu)化方案。執(zhí)行時(shí)采用拓?fù)渑判虻牟⑿辛魉€,同時(shí)支持兩種彈性調(diào)整:
- 系統(tǒng)擴(kuò)展性:支持通過(guò)文檔解析快速接入新智能體。當(dāng)資源允許時(shí),可運(yùn)行基準(zhǔn)測(cè)試完善其能力畫(huà)像,使其無(wú)縫融入現(xiàn)有調(diào)度體系。這種持續(xù)進(jìn)化機(jī)制確保系統(tǒng)始終保持在最優(yōu)狀態(tài)。
本文轉(zhuǎn)載自???大語(yǔ)言模型論文跟蹤???,作者:HuggingAGI

















