CNCF 如何用 KAITO 和 KubeFleet 重塑 AI 推理基礎設施?
云原生的聲明式與多集群能力,正在成為 AI 推理基礎設施的標準化底座。
AI 推理(Inference)正在成為云原生基礎設施的下一個戰場。隨著大語言模型(LLM, Large Language Model)能力與規模的迅速增長,傳統單集群推理架構已難以滿足全球化、高可用與成本優化的需求。2025 年 10 月底,CNCF 宣布托管兩個新項目 —— KAITO(Kubernetes AI Toolchain Operator) 與 KubeFleet,這標志著云原生社區正式進入 AI 推理基礎設施標準化階段。
本文對這兩個項目進行系統性分析,并探討其對 AI Infra 生態的戰略意義。
AI 推理的復雜性:從單集群到多集群
隨著大模型推理負載特征變化,企業開始采用多集群(multi-cluster)推理架構。下方總結了多集群架構帶來的三大挑戰:
? 部署一致性問題:不同集群間模型版本、依賴與配置漂移難以控制。
? 計算資源稀缺問題:需要智能調度可用 GPU,避免資源浪費或熱點。
? 服務可靠性問題:推理端點需滿足低延遲、高可用與跨地域 SLA。
KAITO 與 KubeFleet 正是為解決這些問題而生。
下圖展示了 KAITO 與 KubeFleet 的架構設計。
KAITO 與 KubeFleet 架構設計
圖示說明:
? 頂層為 KubeFleet Hub Cluster(控制多集群放置邏輯)。
? 下層為三個地域集群(US / EU / APAC),每個集群有 Active Nodes 與 Spare GPU。
? Inference Gateway 統一暴露全局推理入口。
? 箭頭方向體現“放置與匯聚”的控制流。
KAITO:AI 推理的聲明式編排層
KAITO(Kubernetes AI Toolchain Operator)由微軟團隊發起,是一個聲明式的 AI 工作負載管理框架。它通過 CRD(Custom Resource Definition)抽象模型生命周期,使 LLM 推理像部署微服務一樣可配置、可復用。
項目地址:github.com/kaito-project/kaito
下表總結了 KAITO 的核心特性與設計理念:
特性/理念 | 說明 |
工作區模型管理 | 支持預訓練模型與自帶模型(BYO Model) |
自動資源分配 | 根據模型規模與 GPU 可用性自動申請節點與卷 |
多節點優化 | 支持分布式存儲與計算調度 |
內置可觀測性 | 直接輸出推理延遲、吞吐與錯誤指標 |
聲明式部署 | 模型視為 Kubernetes 原生資源對象,支持 YAML 配置與 GitOps |
例如,推理管線可聲明為 YAML:
apiVersion: aitoolchain.io/v1
kind: ModelDeployment
metadata:
name: qwen2-7b
spec:
model: qwen2-7b
engine: vllm
replicas: 3
resources:
gpu: 2這使得 AI 平臺具備了與應用服務相同的部署一致性與 GitOps 能力。
KubeFleet:多集群智能調度與放置
KubeFleet 由 Azure Kubernetes Service(AKS)團隊主導,是一個跨集群工作負載編排器(Multi-Cluster Orchestrator),專注于智能放置推理工作負載。
項目地址:github.com/kubefleet-dev/kubefleet
下表總結了 KubeFleet 的功能亮點與使用場景:
功能/場景 | 說明 |
集群能力發現 | 評估每個集群的 GPU 類型、數量、成本與地理位置 |
智能放置決策 | 根據策略在最合適的集群部署推理任務 |
階段化更新 | 支持跨測試、預發、生產集群的灰度發布 |
一致性控制 | 保證不同集群的部署模板統一 |
全球推理服務 | 支持 Geo-distributed Inference |
GPU 異構資源池調度 | 支持企業級多環境一體化發布 |
KAITO × KubeFleet:AI 推理基礎設施的分層設計
下表總結了 KAITO 與 KubeFleet 在 AI 推理基礎設施中的分層定位:
層級 | 職責 | 代表項目 |
Global Placement 層 | 選擇在哪個集群部署 | KubeFleet |
Cluster Orchestration 層 | 定義如何部署模型 | KAITO |
Runtime 層 | 執行推理引擎 | vLLM / TGI / SGLang / Triton |
Infra 層 | 提供算力與調度基礎 | Kubernetes / GPU / CNI / Storage |
這套分層設計體現了 CNCF 的一貫思路:以聲明式與插件化的方式抽象復雜基礎設施,降低 AI 推理平臺的進入門檻。
生態意義與趨勢判斷
AI Infra 正在被云原生化,CNCF 正在吸納 AI 工作負載進入其治理體系,這將推動 AI 平臺逐步形成與云原生一致的標準棧。多集群調度成為新戰場,GPU 異構性與跨地域合規推動企業采用多集群推理架構。KubeFleet 可能成為 Karmada / Clusternet 之后的“AI Federation”代表。聲明式 AI 運維將替代手動腳本式部署,KAITO 的 CRD 模型可能成為未來 ML Serving 的標準語義層。微軟與 CNCF 的戰略協作增強,這兩個項目均來自 Azure 團隊,意味著云廠商正以開源基礎設施標準方式參與 AI 生態競爭。
與現有項目的對比關系
下表對比了 KAITO、KubeFleet 與主流 AI 推理基礎設施項目的功能:
功能 | KAITO | KubeFleet | Kubeflow | KServe | HAMI |
模型聲明式部署 | ? | – | ? | ? | – |
多集群調度 | – | ? | – | 部分支持 | ? |
GPU 異構感知 | ? | ? | 部分 | ? | ? |
Telemetry / Metrics | ? | ? | ? | ? | ? |
云廠商支持 | Microsoft / CNCF | Microsoft / CNCF | IBM / RedHat | AWS |
總結
KAITO 與 KubeFleet 的出現,是 AI Infra 演進的重要分水嶺。它們代表了云原生社區對 AI 推理的正式介入,也揭示了未來的趨勢:
? AI 推理的復雜性,將被 Kubernetes 的聲明式與多集群體系所吸收。
? 這兩個項目值得被納入任何研究 AI 原生基礎設施的參考架構中。
? 對于開發者與平臺團隊而言,它們不僅是新工具,更是 AI 基礎設施標準化的信號。
參考文獻
? KAITO 官方網站 - kaito-project.netlify.app
? KubeFleet 官方網站 - kubefleet.dev
? CNCF Sandbox Projects - cncf.io
? KAITO and KubeFleet: Projects Solving AI Inference at Scale - thenewstack.io




























