清華崔鵬團隊開源LimiX:首個結構化數據通用大模型,性能超越SOTA專用模型
2025 年 8 月 29 日,由清華大學計算機系崔鵬教授團隊聯合穩準智能共同研發的結構化數據通用大模型「極數」(LimiX)正式宣布開源。
此次發布標志著我國在結構化數據智能處理領域的技術突破與生態開放邁出關鍵一步,將顯著降低千行百業應用結構化數據 AI 技術的門檻,特別是在結構化數據占主導的泛工業領域,「極數」大模型將助力 AI 深度融入工業生產全流程,破解工業數據價值挖掘難題,為實現智能制造與新型工業化提供關鍵支撐,推動產業技術變革和優化升級。
在泛工業領域,結構化數據是核心資產——工業生產參數、設備運行數據、質量檢測數據、科研實驗數據等均以結構化數據形式呈現,其智能處理能力直接影響產業效率與科研突破,也是 AI 賦能工業制造的關鍵突破口。
雖然通用大語言模型(LLM)憑借強大的文本理解與生成能力,已在內容創作、對話交互等領域實現廣泛應用,但 LLM 在面對表格、時序等結構化數據時短板明顯:數值比較、計算等基礎任務易出偏差,更無法勝任數據分類、預測、歸因等復雜任務,準確率難以滿足真實行業需求。因此,目前工業結構化數據處理依然依賴私有數據 + 專用模型的傳統范式。
由于專用模型難泛化、不通用,面對不同場景需要訓練多個專用模型,成本高、效果差,且難以發揮數據要素聚集的乘數效應,嚴重制約了 AI 在工業場景的落地路徑。
結構化數據通用大模型(Large Data Model, LDM)則針對性解決這一痛點:不同于 LLM 聚焦文本,LDM 融合結構因果推斷與預訓練大模型技術,既能捕捉結構化數據的內在關聯,又具備強泛化能力,可跨行業適配多類任務。
「極數」大模型可以支持分類、回歸、高維表征抽取、因果推斷等多達 10 類任務,在工業時序預測、異常數據監測、材料性能預測等場景中,性能達到甚至超越最優專用模型,實現單一模型適配多場景、多任務的通用性突破,為人工智能賦能工業提供了 One-For-All 解決方案。
從技術性能到產業落地,「極數」大模型的核心優勢已得到充分驗證。
在超過 600 個數據集上的十余項測試結果表明,「極數」大模型無需進行二次訓練,已經在準確率、泛化性等關鍵指標上均能達到或超過專有 SOTA 模型。
而在產業應用層面,「極數」大模型已成功落地多個真實工業場景,無需訓練、部署成本低、準確率高、通用性強的特點獲得合作企業的高度認可,成為推動工業數據價值轉化的實用型技術方案,正加速形成面向泛工業垂直行業核心業務場景的真正智能底座。

研發團隊
「極數」模型的研發核心力量,由清華大學計算機系崔鵬教授牽頭組建,團隊匯聚了學術研究與產業落地的雙重優勢,其技術突破背后是深厚的科研積淀與前瞻性的方向布局。
作為團隊核心,崔鵬教授是我國數據智能領域的頂尖學者:他不僅是國家杰出青年科學基金獲得者,更以突出成果兩度斬獲國家自然科學二等獎,同時獲評國際計算機協會(ACM)杰出科學家,其學術影響力獲國際學界廣泛認可。在基礎研究領域,崔鵬教授開創性提出「因果啟發的穩定學習」新范式,突破傳統機器學習在數據分布偏移場景下的性能局限,為 AI 模型的可靠性與泛化性研究奠定重要理論基礎。
2022 年 OpenAI 推出 ChatGPT 引發大模型技術浪潮后,崔鵬教授敏銳洞察到結構化數據方向大模型技術的發展潛力,迅速將研究方向從因果穩定學習拓展至結構化數據通用大模型(LDM)領域。依托既有理論積累,團隊攻克結構因果數據合成、模型結構設計、跨場景泛化等核心難題,最終實現「極數」模型在多領域任務中的性能突破,為此次開源奠定關鍵技術基礎。
極數大模型簡介
「極數」大模型將多種能力集成到同一基礎模型中,包括:分類、回歸、缺失值插補、數據密度估計、高維表征抽取、數據生成、因果推斷、因果發現和分布外泛化預測等;在擁有優秀結構化數據建模性能的同時,極大提高了模型的通用性。
在預訓練階段,「極數」大模型基于海量因果合成數據學習數據中的因果關系,不同于專用模型在訓練階段記憶住數據特征的模式,「極數」大模型可以直接在不同的上下文信息中捕捉因果變量,并通過條件掩碼建模的方式學習數據的聯合分布,以適應包括分類、回歸、缺失值預測、數據生成、因果推斷等各種下游任務。
在推理階段,極數可直接基于提供的上下文信息進行推理,無需訓練即可直接適用于各種應用場景。
模型技術架構

「極數」大模型沿用了 transformer 架構,并針對結構化數據建模和任務泛化進行了相關的優化。
「極數」大模型先對先驗知識庫中的特征和目標分別進行 embedding;之后在主要模塊中,在樣本和特征維度上分別使用注意力機制,來聚焦關鍵樣本的關鍵特征。
最終,提取到的高維特征被分別傳入 regression head 和 classification head,實現對不同功能的支持。
訓練數據構建

不同于傳統的樹模型和基于 transformer 架構的 LLM,「極數」大模型在訓練過程中完全使用生成數據,不依賴于任何真實世界的數據來源。
為了使數據生成的過程高效且可控,團隊使用了基于結構因果圖的數據生成方式:采樣到的初始數據在有向無環圖上進行傳播,通過復雜的邊映射和節點交互來模擬現實世界中不同的因果依賴關系;通過對因果圖上的生成數據進行采樣,最終獲得訓練數據中的特征和目標。
使用這種方法生成的數據,既實現了因果結構上的多樣性,又保證了數據的可控性。
模型優化目標

通用結構化數據大模型(LDM)需要在各種應用場景的各種任務中通用,且具備無需進行訓練的數據建模能力,因此需要對數據的聯合分布進行建模,以提高模型的通用性、增強對特征交互模式的建模能力。
為此,「極數」大模型在模型優化目標設計中加入了掩碼重構機制:在訓練過程中,通過對隨機特征值進行掩碼操作,模型將根據特征間的因果依賴關系,使用觀測到的特征來重構缺失特征。通過引入掩碼預測,模型可以學習到數據特征的聯合分布,學習到更清晰且魯棒的決策邊界,提高對特征依賴關系的表示學習能力。為了更貼近真實場景中的缺失模式,「極數」大模型在三個維度上進行了掩碼操作,分別是:
- 樣本維度掩碼:對于每一個樣本,隨機掩碼掉其中的某些特征。
- 特征維度掩碼:對于所有樣本,隨機掩碼掉其中的一個特征。
- 語義維度掩碼:關注高維上的相關性,將語義相關度高的特征中的某些特征隨機掩碼掉。
此外,「極數」大模型將特征缺失比例納入考量,通過設計針對每行或每個子集缺失的訓練目標,穩定了模型在不同缺失程度下的推理性能,提高了對各類缺失模式的魯棒程度。
模型推理
在推理應用環節,「極數」 大模型具備極強的場景適配性與任務靈活性。該模型無需針對特定場景或任務進行額外訓練,即可直接接收表格、時序、圖等多形態結構化數據輸入;用戶僅需明確分類預測、回歸預測、缺失值補全、數據生成、因果推斷、因果發現等具體任務類型,模型即可自動完成數據解析、邏輯建模與結果輸出,真正實現即插即用模式,高效覆蓋各類結構化數據處理需求。
此外,「極數」大模型還支持針對數據集進行模型高效微調,可使模型學習更全面的數據中的因果聯系,在預測層面的性能會進一步提升。
模型效果
「極數」大模型在無需針對數據集進行專項訓練的情況下,在分類、回歸等多項結構化數據核心任務上取得了優異的性能表現。
模型評測方面,選取了各個領域的權威數據集作為 Benchmark。如開源數據集 Talent,它包含上百個真實數據集,是當前領域內體量最大、最具代表性的基準之一。在分類任務中,對比「極數」與 21 個領域內的常用 baseline 方法,「極數」大模型的模型性能顯著超越其他模型,在 AUC、ACC、F1 Score 和 ECE 上均取得了最優。

在回歸任務上,「極數」大模型在 R2 和 RMSE 指標上都達到了平均最優,對比其他 baseline 方法展現出了明顯的優勢。并且在數據集中有干擾特征或無效特征時,性能優勢更加明顯。


模型落地應用
目前,「極數」大模型憑借其優越的通用建模能力,有效破解了傳統專用模型在工業場景「數據稀缺、質量參差、環境異質」情況下的能力瓶頸,已在多個關鍵工業場景中成功落地。
在工業運維領域,「極數」大模型已成功應用于鋼鐵、能源、電力等行業,扮演著「設備健康管家」的角色,為設備運行監測、故障預警與健康度評估等任務提供核心支撐。以某鋼鐵企業為例,其復雜產線長期面臨難以從海量傳感數據中精準捕捉非典型異常信號而導致的預警失效問題,給安全生產帶來巨大隱患。「極數」大模型部署后,將設備故障預測準確率在原專用模型基礎上提升了 15%,達到應用級要求,推動其維護模式從「事后維修」向「預測性維護」轉型,顯著提升了生產的安全性與運行效率。
在工藝優化領域,「極數」大模型在化工、制造、生物等行業中則化身為「生產智囊」。在某材料研發企業,如何從海量物化特征中精準識別關鍵因子,是提升材料設計效率的核心瓶頸。「極數」大模型成功篩選出少數核心優化因子,在確保信息無損(R^2 超過 0.95)的前提下,將調控效率提升了 5 倍,為企業的降本增效與綠色生產提供了科學決策依據。
業內專家表示,「極數」大模型的成功落地不僅驗證了通用建模技術在工業場景的適用性,更為解決工業數據應用痛點提供了標準化解決方案,有望推動更多工業領域實現智能化升級。
開源地址
- 項目主頁:https://limix-ldm.github.io
- 技術報告:https://github.com/limix-ldm/LimiX/blob/main/LimiX_Technical_Report.pdf
- Github:https://github.com/limix-ldm/LimiX
- Huggingface:https://huggingface.co/stableai-org
- Modelscope:https://modelscope.cn/organization/stable-ai
結語
在當前人工智能的發展浪潮中,大語言模型(LLM)通過大規模預訓練實現了「語義空間的通用世界模型」,而如何面向工業數據的獨特屬性,構建「數據空間的通用世界模型」,已成為 AI 邁向產業縱深的關鍵命題。
在這一目標的驅動下,發展能夠跨場景、跨任務、跨環境的結構化數據通用大模型(LDM)勢在必行。
我國憑借豐富的工業數據資源與多元的應用場景,有望在 LDM 領域打造出獨特的「非對稱競爭力」。清華大學團隊此次開源發布的「極數」大模型,正是這一方向上的重要突破。期待以此為起點,共同迎接 LDM 的「GPT-3 時刻」 早日到來。


































