CNCF 如何用 KAITO 和 KubeFleet 重塑 AI 推理基礎設施？

作者：JimmySong 2025-11-12 00:43:00

AI 推理（Inference）正在成為云原生基礎設施的下一個戰場。隨著大語言模型（LLM, Large Language Model）能力與規模的迅速增長，傳統單集群推理架構已難以滿足全球化、高可用與成本優化的需求。

云原生的聲明式與多集群能力，正在成為 AI 推理基礎設施的標準化底座。

AI 推理（Inference）正在成為云原生基礎設施的下一個戰場。隨著大語言模型（LLM, Large Language Model）能力與規模的迅速增長，傳統單集群推理架構已難以滿足全球化、高可用與成本優化的需求。2025 年 10 月底，CNCF 宣布托管兩個新項目 —— KAITO（Kubernetes AI Toolchain Operator）與 KubeFleet，這標志著云原生社區正式進入 AI 推理基礎設施標準化階段。

本文對這兩個項目進行系統性分析，并探討其對 AI Infra 生態的戰略意義。

AI 推理的復雜性：從單集群到多集群

隨著大模型推理負載特征變化，企業開始采用多集群（multi-cluster）推理架構。下方總結了多集群架構帶來的三大挑戰：

? 部署一致性問題：不同集群間模型版本、依賴與配置漂移難以控制。

? 計算資源稀缺問題：需要智能調度可用 GPU，避免資源浪費或熱點。

? 服務可靠性問題：推理端點需滿足低延遲、高可用與跨地域 SLA。

KAITO 與 KubeFleet 正是為解決這些問題而生。

下圖展示了 KAITO 與 KubeFleet 的架構設計。

KAITO 與 KubeFleet 架構設計

圖示說明：

? 頂層為 KubeFleet Hub Cluster（控制多集群放置邏輯）。

? 下層為三個地域集群（US / EU / APAC），每個集群有 Active Nodes 與 Spare GPU。

? Inference Gateway 統一暴露全局推理入口。

? 箭頭方向體現“放置與匯聚”的控制流。

KAITO：AI 推理的聲明式編排層

KAITO（Kubernetes AI Toolchain Operator）由微軟團隊發起，是一個聲明式的 AI 工作負載管理框架。它通過 CRD（Custom Resource Definition）抽象模型生命周期，使 LLM 推理像部署微服務一樣可配置、可復用。

項目地址：github.com/kaito-project/kaito

下表總結了 KAITO 的核心特性與設計理念：

特性/理念	說明
工作區模型管理	支持預訓練模型與自帶模型（BYO Model）
自動資源分配	根據模型規模與 GPU 可用性自動申請節點與卷
多節點優化	支持分布式存儲與計算調度
內置可觀測性	直接輸出推理延遲、吞吐與錯誤指標
聲明式部署	模型視為 Kubernetes 原生資源對象，支持 YAML 配置與 GitOps

例如，推理管線可聲明為 YAML：

apiVersion: aitoolchain.io/v1
kind: ModelDeployment
metadata:
  name: qwen2-7b
spec:
  model: qwen2-7b
  engine: vllm
  replicas: 3
  resources:
    gpu: 2

這使得 AI 平臺具備了與應用服務相同的部署一致性與 GitOps 能力。

KubeFleet：多集群智能調度與放置

KubeFleet 由 Azure Kubernetes Service（AKS）團隊主導，是一個跨集群工作負載編排器（Multi-Cluster Orchestrator），專注于智能放置推理工作負載。

項目地址：github.com/kubefleet-dev/kubefleet

下表總結了 KubeFleet 的功能亮點與使用場景：

功能/場景	說明
集群能力發現	評估每個集群的 GPU 類型、數量、成本與地理位置
智能放置決策	根據策略在最合適的集群部署推理任務
階段化更新	支持跨測試、預發、生產集群的灰度發布
一致性控制	保證不同集群的部署模板統一
全球推理服務	支持 Geo-distributed Inference
GPU 異構資源池調度	支持企業級多環境一體化發布

KAITO × KubeFleet：AI 推理基礎設施的分層設計

下表總結了 KAITO 與 KubeFleet 在 AI 推理基礎設施中的分層定位：

層級	職責	代表項目
Global Placement 層	選擇在哪個集群部署	KubeFleet
Cluster Orchestration 層	定義如何部署模型	KAITO
Runtime 層	執行推理引擎	vLLM / TGI / SGLang / Triton
Infra 層	提供算力與調度基礎	Kubernetes / GPU / CNI / Storage

這套分層設計體現了 CNCF 的一貫思路：以聲明式與插件化的方式抽象復雜基礎設施，降低 AI 推理平臺的進入門檻。

生態意義與趨勢判斷

AI Infra 正在被云原生化，CNCF 正在吸納 AI 工作負載進入其治理體系，這將推動 AI 平臺逐步形成與云原生一致的標準棧。多集群調度成為新戰場，GPU 異構性與跨地域合規推動企業采用多集群推理架構。KubeFleet 可能成為 Karmada / Clusternet 之后的“AI Federation”代表。聲明式 AI 運維將替代手動腳本式部署，KAITO 的 CRD 模型可能成為未來 ML Serving 的標準語義層。微軟與 CNCF 的戰略協作增強，這兩個項目均來自 Azure 團隊，意味著云廠商正以開源基礎設施標準方式參與 AI 生態競爭。

與現有項目的對比關系

下表對比了 KAITO、KubeFleet 與主流 AI 推理基礎設施項目的功能：

功能	KAITO	KubeFleet	Kubeflow	KServe	HAMI
模型聲明式部署	?	–	?	?	–
多集群調度	–	?	–	部分支持	?
GPU 異構感知	?	?	部分	?	?
Telemetry / Metrics	?	?	?	?	?
云廠商支持	Microsoft / CNCF	Microsoft / CNCF	Google	IBM / RedHat	AWS

總結

KAITO 與 KubeFleet 的出現，是 AI Infra 演進的重要分水嶺。它們代表了云原生社區對 AI 推理的正式介入，也揭示了未來的趨勢：

? AI 推理的復雜性，將被 Kubernetes 的聲明式與多集群體系所吸收。

? 這兩個項目值得被納入任何研究 AI 原生基礎設施的參考架構中。

? 對于開發者與平臺團隊而言，它們不僅是新工具，更是 AI 基礎設施標準化的信號。

參考文獻

? KAITO 官方網站 - kaito-project.netlify.app

? KubeFleet 官方網站 - kubefleet.dev

? CNCF Sandbox Projects - cncf.io

? KAITO and KubeFleet: Projects Solving AI Inference at Scale - thenewstack.io

責任編輯：武曉燕來源：幾米宋

CNCF 如何用 KAITO 和 KubeFleet 重塑 AI 推理基礎設施？