數(shù)據(jù)科學(xué)新風(fēng)口?三大環(huán)節(jié)搞定ML「資產(chǎn)」管理,VLDB'25最新教程搶先看!
大模型時(shí)代,模型、數(shù)據(jù)與各種「參數(shù)/腳本/許可證」等ML資產(chǎn)爆炸式增長,但真正能被發(fā)現(xiàn)、復(fù)用、合規(guī)使用的比例并不高,這正在成為AI生產(chǎn)力落地的「隱形天花板」。
以知名開源平臺(tái)HuggingFace為例,平臺(tái)目前托管超過150萬個(gè)模型,每月還在新增約10萬個(gè)模型,總數(shù)據(jù)存儲(chǔ)量高達(dá)17PB。
然而超過半數(shù)的模型缺乏基本文檔說明,不到8%的模型擁有明確的許可證。
在這種「量大而松散」的現(xiàn)實(shí)下,可搜索、可復(fù)用、可合規(guī)的ML資產(chǎn)管理已不再是錦上添花,而是工程與研究協(xié)作的基本盤。
面對(duì)此挑戰(zhàn),凱斯西儲(chǔ)大學(xué)(CWRU)、新加坡國立大學(xué)(NUS)和加州大學(xué)爾灣分校(UCI)的研究團(tuán)隊(duì)將在VLDB 2025首次系統(tǒng)性提出 《ML-Asset Management: Curation, Discovery, and Utilization》 教程,從「整理(Curation)—發(fā)現(xiàn)(Discovery)—利用(Utilization)」三大環(huán)節(jié)給出完整的方法論與系統(tǒng)路徑, 全面深入探討ML資產(chǎn)管理的新范式。

論文鏈接:https://ml-assets-management.github.io/assets/docs/ml_assets.pdf
細(xì)節(jié)/資料:https://ml-assets-management.github.io/
現(xiàn)場(chǎng)信息以VLDB25日程為準(zhǔn),暫定會(huì)議房間Albert(2F),當(dāng)?shù)貢r(shí)間周四 13:45–15:15
什么是「ML 資產(chǎn)」?
三類對(duì)象,一個(gè)閉環(huán)
教程將ML資產(chǎn)劃分為三大類,并以「整理(Curation)→ 發(fā)現(xiàn)(Discovery) → 利用(Utilization)」構(gòu)成閉環(huán):
數(shù)據(jù)類:原始/標(biāo)注/驗(yàn)證/測(cè)試/生成(基準(zhǔn))數(shù)據(jù)、開放樣本、特征向量等。
模型類:預(yù)訓(xùn)練、微調(diào)或基礎(chǔ)模型,以及訓(xùn)練管線、庫、AutoML 組件與 LLM 代理等相關(guān)資源。
元數(shù)據(jù)類:本體/約束、許可證、腳本與 prompts、溯源(provenance)、數(shù)據(jù)來源、硬件元數(shù)據(jù)、實(shí)驗(yàn)記錄等。

以日常生活為例,當(dāng)你發(fā)現(xiàn)社交平臺(tái)總能精準(zhǔn)推薦你感興趣的視頻或音樂時(shí),這背后其實(shí)正是「數(shù)據(jù)資產(chǎn)」(你的觀看歷史、音樂偏好)、「模型資產(chǎn)」(預(yù)測(cè)你興趣的推薦模型),以及「元數(shù)據(jù)資產(chǎn)」(視頻分類標(biāo)簽、音樂風(fēng)格描述等)在共同驅(qū)動(dòng)。
再比如,一家公司想快速上線智能客服功能,除了語言模型和歷史客服數(shù)據(jù)外,還需要準(zhǔn)備用于驅(qū)動(dòng)模型對(duì)話的prompt模板、明確模型使用范圍的許可證信息,以及自動(dòng)化部署腳本。
如果團(tuán)隊(duì)能夠快速找到并直接復(fù)用這些資產(chǎn),就能顯著減少從零開始訓(xùn)練模型和搭建系統(tǒng)的成本與周期,更快速地響應(yīng)用戶需求。
這正是ML資產(chǎn)管理帶來的實(shí)際價(jià)值:提高效率、避免重復(fù)勞動(dòng),讓團(tuán)隊(duì)更專注于創(chuàng)新和持續(xù)優(yōu)化用戶體驗(yàn)。
這個(gè)閉環(huán)的目標(biāo)很明確:給資產(chǎn)「上身份證」 → 讓資產(chǎn)「被找到」 → 讓資產(chǎn)「用得對(duì)」。
三部曲深度解讀
從「信息」到「能力」
該教程以資產(chǎn)生命周期為主線,系統(tǒng)性地梳理了各個(gè)階段的現(xiàn)有技術(shù)、挑戰(zhàn)與機(jī)會(huì)。

整理(Curation):為ML資產(chǎn)安上「身份證」
元數(shù)據(jù)(Metadata)是資產(chǎn)策展的關(guān)鍵,清晰的元數(shù)據(jù)能說明資產(chǎn)的來源、適用場(chǎng)景、性能指標(biāo)、已知限制等。
研究團(tuán)隊(duì)引入了數(shù)據(jù)卡片(Data Cards)與模型卡片(Model Cards)等新興概念,建立標(biāo)準(zhǔn)化的資產(chǎn)描述體系。
此外,通過知識(shí)圖譜技術(shù)(如CRUX平臺(tái)),實(shí)現(xiàn)了ML資產(chǎn)的知識(shí)化、結(jié)構(gòu)化管理,推動(dòng)資產(chǎn)更易被理解和使用。
另一方面,資產(chǎn)許可證管理同樣重要。
團(tuán)隊(duì)探討了針對(duì)模型的特定許可證(如Gemma License),如何在法律上明確資產(chǎn)的使用范圍與限制,保障資產(chǎn)安全合規(guī)使用。
發(fā)現(xiàn)(Discovery):快速找到想要的模型或數(shù)據(jù)
資產(chǎn)發(fā)現(xiàn)是資產(chǎn)管理的核心之一。
研究團(tuán)隊(duì)從簡單的關(guān)鍵詞和標(biāo)簽搜索,到最新的語義和向量檢索技術(shù),展示如何快速準(zhǔn)確地從海量資產(chǎn)中定位所需。
同時(shí),團(tuán)隊(duì)提出了數(shù)據(jù)驅(qū)動(dòng)模型選擇(Data-driven Model Selection)與模型驅(qū)動(dòng)數(shù)據(jù)發(fā)現(xiàn)(Model-driven Data Discovery)的創(chuàng)新概念。
前者基于元數(shù)據(jù)和遷移能力度量,幫助用戶快速選定最適合自己數(shù)據(jù)的模型;后者則反向思考,根據(jù)模型需求主動(dòng)發(fā)現(xiàn)或生成合適的數(shù)據(jù),優(yōu)化模型表現(xiàn)。
利用(Utilization):更高效、更透明、更負(fù)責(zé)任
在資產(chǎn)利用階段,研究團(tuán)隊(duì)強(qiáng)調(diào)協(xié)作、可復(fù)現(xiàn)性與負(fù)責(zé)任的AI。
協(xié)作方面,展示了如何利用模塊化的工作流(如Apache Texera平臺(tái)),實(shí)現(xiàn)跨學(xué)科、跨團(tuán)隊(duì)的高效合作,進(jìn)一步通過AI智能體技術(shù),自動(dòng)化生成完整的資產(chǎn)應(yīng)用工作流;
可復(fù)現(xiàn)性方面,標(biāo)準(zhǔn)化的資產(chǎn)管理體系能有效追蹤模型來源和數(shù)據(jù)加工過程,極大提升實(shí)驗(yàn)的可復(fù)現(xiàn)性和透明度;
在負(fù)責(zé)任方面,明確的資產(chǎn)許可證與倫理約束能防范數(shù)據(jù)泄露、隱私侵犯與濫用風(fēng)險(xiǎn),提升整個(gè)ML生態(tài)的可信度。
系統(tǒng)級(jí)挑戰(zhàn)與機(jī)遇
隨著ML資產(chǎn)規(guī)模的迅速擴(kuò)張,如何實(shí)現(xiàn)存儲(chǔ)、版本控制、索引搜索等系統(tǒng)級(jí)管理成為關(guān)鍵。
研究團(tuán)隊(duì)指出,未來ML資產(chǎn)管理需要構(gòu)建新一代專用系統(tǒng),這些系統(tǒng)不僅要支持大規(guī)模存儲(chǔ)和版本控制,還要具備混合查詢、高效索引、實(shí)時(shí)更新與安全隱私保護(hù)等能力。
此次tutorial將通過現(xiàn)場(chǎng)展示CRUX、ModelGo和Apache Texera等前沿平臺(tái),具體演示ML資產(chǎn)管理技術(shù)如何解決實(shí)際問題,促進(jìn)數(shù)據(jù)科學(xué)更快、更好、更安全地發(fā)展。

項(xiàng)目鏈接:https://cruxproject.org/
CRUX(整理 + 發(fā)現(xiàn)),由 CWRU 團(tuán)隊(duì)開發(fā)。
面向以材料科學(xué)為主的科學(xué)領(lǐng)域,通過知識(shí)圖譜技術(shù)、自動(dòng)數(shù)據(jù)集成和探索式查詢引擎,CRUX支持自然科學(xué)領(lǐng)域的「Why」與「What-if」分析,推動(dòng)高質(zhì)量的未發(fā)表數(shù)據(jù)被更多地使用和共享,從而激發(fā)新研究問題與創(chuàng)新ML流水線設(shè)計(jì)。
相關(guān)論文:
? Generating Skyline Datasets for Data Science Models(EDBT 2025)
? ModsNet: Performance-Aware Top-k Model Search Using Exemplar Datasets(VLDB 2024)
? CRUX: Crowdsourced Materials Science Resource and Workflow Exploration(CIKM 2023)

項(xiàng)目鏈接:https://www.modelgo.li/
ModelGo(合規(guī)),由NUS團(tuán)隊(duì)開發(fā)。
本體驅(qū)動(dòng)的模型許可證分析工具,支持權(quán)利授予、條款沖突與兼容性檢查;團(tuán)隊(duì)提出 ModelGo Licenses(類似 CC 的模型許可證集),滿足不同的模型發(fā)布與治理需求,并作為第一個(gè)用于ML模型的許可證提交OSI批準(zhǔn)。
相關(guān)論文:
? Position: Current Model Licensing Practices are Dragging Us into a Quagmire of Legal Noncompliance(ICML 2025, Oral)
? ModelGo: A Practical Tool for Machine Learning License Analysis(The Web Conf 2024, Oral)

項(xiàng)目鏈接:https://texera.io
Apache Texera(利用),由UCI團(tuán)隊(duì)開發(fā)。
Apache Texera (Incubating) 支持基于GUI的工作流組裝、實(shí)時(shí)執(zhí)行、聯(lián)合調(diào)試與確定性回放,讓「資產(chǎn)化流水線」成為日常工程實(shí)踐。通過實(shí)時(shí)協(xié)作編輯、共享調(diào)試上下文和可復(fù)用的工作流,Texera讓數(shù)據(jù)科學(xué)家、工程師和領(lǐng)域?qū)<夷軌蛟谕粋€(gè)平臺(tái)上高效合作,從而加速數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新。
同時(shí),Texera還支持對(duì)機(jī)器學(xué)習(xí)資產(chǎn)的管理與共享,包括數(shù)據(jù)預(yù)處理模塊、特征工程流程和模型組件,使團(tuán)隊(duì)能夠沉淀和復(fù)用 ML 經(jīng)驗(yàn),實(shí)現(xiàn)從數(shù)據(jù)到模型的全鏈路協(xié)作。
相關(guān)論文:
? Texera: A System for Collaborative and Interactive Data Analytics Using Workflows(VLDB 2024)
? Udon: Efficient Debugging of UDFs in Big Data Systems with Line-by-Line Control(SIGMOD 2024) ? IcedTea: Efficient and Responsive Time-Travel Debugging in Dataflow Systems(VLDB 2025)
講者與機(jī)構(gòu)
Mengying Wang(CWRU)|ML 資產(chǎn)管理與工作流、知識(shí)圖譜與 Graph RAG。
Moming Duan(NUS)|AI 治理與模型許可。
Yicong Huang(UCI)|Texera 主力貢獻(xiàn)者,數(shù)據(jù)管理與 ML 系統(tǒng)。
Chen Li(UCI)|數(shù)據(jù)管理與大數(shù)據(jù)系統(tǒng),開源與實(shí)用系統(tǒng)構(gòu)建。
Bingsheng He(NUS)|數(shù)據(jù)庫與 ML 系統(tǒng),高性能計(jì)算。
Yinghui Wu(CWRU)|數(shù)據(jù)管理與圖數(shù)據(jù)分析。
結(jié)語
AI的下一個(gè)拐點(diǎn),不僅在于「更強(qiáng)的模型」,更在于把既有的模型、數(shù)據(jù)與元數(shù)據(jù)真正「管」起來——可描述、可搜索、可復(fù)用、可合規(guī)。這正是本教程希望交付的系統(tǒng)能力:用數(shù)據(jù)管理的嚴(yán)謹(jǐn)與工程系統(tǒng)的方法,把分散的資源沉淀為可復(fù)利的AI生產(chǎn)資料。

























