如何讓你的數(shù)據(jù)為人工智能做好準(zhǔn)備

智能體人工智能正在顛覆大數(shù)據(jù)范式,它要求我們主動(dòng)將數(shù)據(jù)引入專門的智能計(jì)算平臺,而不是反過來。這種轉(zhuǎn)變從根本上改變了我們對數(shù)據(jù)建模和存儲的固有認(rèn)知,因?yàn)榈图墮C(jī)器學(xué)習(xí)(LLM)能夠利用遠(yuǎn)小于傳統(tǒng)機(jī)器學(xué)習(xí)的數(shù)據(jù)集進(jìn)行上下文學(xué)習(xí)。因此,現(xiàn)代人工智能不斷擴(kuò)展的上下文窗口和工具調(diào)用能力正迅速使許多傳統(tǒng)的ETL/ELT流程過時(shí),迫使數(shù)據(jù)工程師徹底重新思考他們的整個(gè)方法。
造成這種混亂的原因是什么?
造成這種轉(zhuǎn)變的原因之一是人們使用數(shù)據(jù)的方式正在發(fā)生變化。
企業(yè)應(yīng)用和儀表盤由軟件工程師和數(shù)據(jù)科學(xué)家構(gòu)建,旨在滿足非技術(shù)用戶的需求。反過來,業(yè)務(wù)分析師和最終用戶則被動(dòng)地接收這些內(nèi)容。應(yīng)用可能內(nèi)置了一些交互功能,但這些交互都遵循僵化的、預(yù)先設(shè)定的工作流程。作為數(shù)據(jù)工程師,我們的工作是提供此類應(yīng)用能夠使用的數(shù)據(jù)格式。

從以“構(gòu)建者”為中心的模式(技術(shù)用戶創(chuàng)建應(yīng)用程序)過渡到以“交互者”為中心的模式(非技術(shù)用戶通過人工智能代理直接與數(shù)據(jù)交互)。
越來越多的非技術(shù)用戶直接與數(shù)據(jù)交互。他們能夠根據(jù)自身需求編寫應(yīng)用程序和工具?,F(xiàn)有的SaaS應(yīng)用程序不再局限于集成并排聊天界面,而是利用CopilotKit等框架更原生地嵌入自然語言交互。具有前瞻性的開發(fā)者并沒有簡單地重復(fù)僵化的工作流程,而是將AI代理嵌入到應(yīng)用程序中,使代理能夠以工具調(diào)用的形式訪問后端API。
其次,重心正在轉(zhuǎn)移。過去,數(shù)據(jù)量龐大,因此需要將計(jì)算資源部署到數(shù)據(jù)所在位置,以避免大量數(shù)據(jù)遷移。然而,如今前沿人工智能模型(LLM)才是重心所在,人工智能應(yīng)用也圍繞它們構(gòu)建。

重心發(fā)生了轉(zhuǎn)移,因此技術(shù)架構(gòu)也隨之翻轉(zhuǎn)。與以往需要定制計(jì)算資源處理數(shù)據(jù)不同,智能體人工智能應(yīng)用使用大型語言模型(LLM)作為推理引擎,能夠理解用戶意圖、推理任務(wù)并調(diào)用工具執(zhí)行操作。這一新應(yīng)用浪潮旨在將用戶意圖直接轉(zhuǎn)化為行動(dòng)。
這兩種動(dòng)態(tài)變化如何影響數(shù)據(jù)工程師的工作?以下五個(gè)原則在準(zhǔn)備用于人工智能的數(shù)據(jù)時(shí)需要牢記。
1. 重新思考 ETL/ELT:從規(guī)范化到上下文
如今,數(shù)據(jù)工程師投入大量精力進(jìn)行數(shù)據(jù)規(guī)范化、創(chuàng)建清晰的數(shù)據(jù)模式并構(gòu)建轉(zhuǎn)換管道。其目標(biāo)是使下游分析師和應(yīng)用程序能夠理解數(shù)據(jù)。
這并不意味著 ETL/ELT 就變得無關(guān)緊要,提供數(shù)據(jù)仍然至關(guān)重要。但您可以依靠代理來解釋模式、理解關(guān)系,并處理各種格式的數(shù)據(jù),而無需進(jìn)行大量的預(yù)處理。
然而,僅僅在現(xiàn)有表上添加數(shù)據(jù)目錄和 MCP 服務(wù)器,是對智能體技術(shù)能力的極大浪費(fèi)。此外,這樣做還會大大增加 AI 智能體的工作難度。為什么呢?

人工智能代理能夠理解上下文中的數(shù)據(jù),它們不需要所有數(shù)據(jù)都預(yù)先規(guī)范化到僵化的模式中。事實(shí)上,隨著表數(shù)量的增長,如今的代理很難正確解讀數(shù)據(jù)并編寫正確的 SQL 語句來連接所有數(shù)據(jù)。此外,隨著數(shù)據(jù)切片數(shù)量的增加,沖突和歧義的概率也會增加。例如,兩個(gè)表中可能都有“貸款金額”列。在一個(gè)表中,它可能代表借款人申請的金額,而在另一個(gè)表中,它可能代表貸款人實(shí)際發(fā)放的本金。數(shù)據(jù)結(jié)構(gòu)越是經(jīng)過處理、規(guī)范化和分散化,上下文信息就越難傳遞。
維護(hù)數(shù)據(jù)可用性工作流程,但要質(zhì)疑每個(gè)規(guī)范化步驟是否仍然必要。代理人能否在適當(dāng)?shù)纳舷挛闹欣斫膺@些數(shù)據(jù),而無需進(jìn)行轉(zhuǎn)換?委托人信息能否從原始條款清單或融資備忘錄中摘錄一段文字,解釋該委托人將分期獲得哪些款項(xiàng),而不是僅僅用一個(gè)數(shù)字表示?
避免只向 AI 代理開放非結(jié)構(gòu)化數(shù)據(jù)的誘惑——雖然很容易對 PDF、電子郵件等進(jìn)行處理,但組織中真正可操作的數(shù)據(jù)通常仍然是結(jié)構(gòu)化數(shù)據(jù)。
2. 優(yōu)先考慮數(shù)據(jù)整理而非數(shù)據(jù)收集
情境式學(xué)習(xí)使得內(nèi)容整理比資料收集更為重要。
在大數(shù)據(jù)時(shí)代,目標(biāo)是收集盡可能多的數(shù)據(jù),因?yàn)槟阆朐跇O其龐大的數(shù)據(jù)集上訓(xùn)練機(jī)器學(xué)習(xí)模型——更多的數(shù)據(jù)意味著更好的機(jī)器學(xué)習(xí)模型。
然而,人工智能代理的構(gòu)建基于情境學(xué)習(xí),即在提示中提供一兩個(gè)示例。學(xué)習(xí)學(xué)習(xí)模型(LLM)可以有效地模仿這些示例,無論是遵循某種流程(思維鏈)還是遵循某種格式或風(fēng)格(少樣本學(xué)習(xí))。隨著情境學(xué)習(xí)的出現(xiàn),示例的質(zhì)量比數(shù)量更為重要。

你向代理展示的示例數(shù)據(jù)會影響它對所有類似數(shù)據(jù)的理解。你可能會創(chuàng)建一個(gè)示例庫,并選擇哪些示例用于特定類型的用戶查詢。隨著數(shù)據(jù)管理的重要性日益凸顯,作為數(shù)據(jù)工程師,構(gòu)建以下工具變得至關(guān)重要:
?找出最高質(zhì)量的數(shù)據(jù),例如完整、準(zhǔn)確且具有代表性的數(shù)據(jù)樣本。
?隨著標(biāo)準(zhǔn)的演變,應(yīng)定期更新這些示例。
?驗(yàn)證精心整理的數(shù)據(jù)是否確實(shí)能作為智能體學(xué)習(xí)的有效示例。
作為數(shù)據(jù)工程師,你需要賦能的關(guān)鍵角色之一是數(shù)據(jù)管理員。你需要支持的存儲類型也會發(fā)生變化,包括圖數(shù)據(jù)庫和向量數(shù)據(jù)庫。
3. 構(gòu)建面向代理的基礎(chǔ)設(shè)施:感知與行動(dòng)
人工智能代理需要支持兩種核心能力的基礎(chǔ)設(shè)施:感知數(shù)據(jù)和根據(jù)數(shù)據(jù)采取行動(dòng)。
并非所有數(shù)據(jù)格式都能被基于語言模型的智能體平等地訪問。請考慮智能體解析、理解和提取數(shù)據(jù)格式含義的難易程度。能夠保留語義含義且預(yù)處理需求極低的格式可以降低交互阻力。
AI 代理通過調(diào)用工具(包括函數(shù)、API 和服務(wù))來執(zhí)行操作,這些工具使它們能夠處理數(shù)據(jù)。您的基礎(chǔ)架構(gòu)需要確保代理能夠發(fā)現(xiàn)并使用這些工具。這意味著清晰的接口、完善的文檔和可靠的執(zhí)行。

從人工智能代理的角度審核您的數(shù)據(jù)訪問模式和工具。一個(gè)自主系統(tǒng)需要了解哪些信息才能有效使用它們?哪些環(huán)節(jié)存在阻礙,導(dǎo)致運(yùn)行不暢?
4. 將代理工件作為一級數(shù)據(jù)進(jìn)行管理
人工智能代理不僅會消耗數(shù)據(jù),還會生成數(shù)據(jù)。事實(shí)上,你會發(fā)現(xiàn),人工智能生成的內(nèi)容將遠(yuǎn)遠(yuǎn)超過系統(tǒng)中“原始”數(shù)據(jù)的數(shù)量。
當(dāng)智能體生成輸出、做出決策、編寫代碼或記錄其推理過程時(shí),這些也變成了數(shù)據(jù)。

無論內(nèi)容是由人工創(chuàng)建、從軟件系統(tǒng)收集,還是由人工智能代理生成,都必須符合您所在行業(yè)的通用規(guī)范和法規(guī)。除了合規(guī)性之外,這些代理生成的數(shù)據(jù)對于調(diào)試、審計(jì)、訓(xùn)練未來的代理以及理解系統(tǒng)行為也具有價(jià)值。
對代理程序生成的數(shù)據(jù)應(yīng)與其他數(shù)據(jù)一樣嚴(yán)格對待:
?存儲代理輸出系統(tǒng)
?保留決策日志和推理痕跡
?將代理生成的代碼作為版本化工件進(jìn)行管理
?確保這些數(shù)據(jù)可供分析和未來培訓(xùn)使用
這些工件將成為您數(shù)據(jù)生態(tài)系統(tǒng)的一部分。請據(jù)此設(shè)計(jì)存儲和訪問模式。
5. 將觀察與訓(xùn)練聯(lián)系起來
提升智能體性能的最快途徑是實(shí)現(xiàn)可觀測性和訓(xùn)練之間的閉環(huán)。人工智能智能體基礎(chǔ)設(shè)施需要雙向管道,將模型性能和可觀測性與持續(xù)訓(xùn)練聯(lián)系起來。
首先,你需要一個(gè)可觀測性平臺,它能夠追蹤數(shù)據(jù)質(zhì)量指標(biāo),尤其重要的是,能夠檢測數(shù)據(jù)漂移(輸入數(shù)據(jù)特征的變化)和概念漂移(輸入和輸出之間關(guān)系的變化)。同時(shí),它還必須監(jiān)控關(guān)鍵的模型性能指標(biāo),例如準(zhǔn)確率、延遲和幻覺率。建立與預(yù)定義閾值關(guān)聯(lián)的自動(dòng)觸發(fā)器。
您的可觀測性平臺也需要擴(kuò)展,以納入人工反饋。用戶對生成內(nèi)容所做的每一次修改都需要記錄下來,并用于改進(jìn)人工智能模型。

其次,你需要一個(gè)重訓(xùn)練流程,該流程會在收到監(jiān)控系統(tǒng)觸發(fā)的事件時(shí)自動(dòng)激活。它必須完全自動(dòng)化,負(fù)責(zé)提取最新版本的訓(xùn)練數(shù)據(jù),啟動(dòng)模型重訓(xùn)練或微調(diào)任務(wù),并對新訓(xùn)練的模型進(jìn)行全面的評估和回歸測試。在智能體時(shí)代,構(gòu)建這種將性能監(jiān)控直接連接到自動(dòng)化部署的閉環(huán)系統(tǒng),對于機(jī)器學(xué)習(xí)/數(shù)據(jù)工程師來說至關(guān)重要,兩者之間的界限將日益模糊。
數(shù)據(jù)工程師的角色如何變化
這五大轉(zhuǎn)變都圍繞著一個(gè)共同的主題:從僵化、預(yù)設(shè)的工作流程轉(zhuǎn)向靈活、情境感知的架構(gòu)?,F(xiàn)代代理的工具調(diào)用和反射能力使得僵化的 ETL/ELT 流水線不再那么重要。情境學(xué)習(xí)使得范例精選比詳盡的范例收集更有價(jià)值。

數(shù)據(jù)工程的重要性并沒有降低,而是發(fā)生了變化。過去十年構(gòu)建數(shù)據(jù)基礎(chǔ)設(shè)施的技能依然寶貴,但需要應(yīng)用于不同的目標(biāo)。我們不再需要預(yù)先設(shè)計(jì)每個(gè)工作流程,而是要?jiǎng)?chuàng)建一種環(huán)境,讓代理能夠自行設(shè)計(jì)工作流程。




























