用「傳心術」替代「對話」，清華大學聯合無問芯穹、港中文等機構提出Cache-to-Cache模型通信新范式

2025-10-30 09:55:48

本文提出的 Cache-to-Cache（C2C）范式，成功實現了大模型間高效、通用的直接語義通信。

隨著大語言模型的快速進步，為了適應越來越多樣的工作場景，模型越來越多在指定場景進行針對性訓練，例如代碼、數學計算、視覺理解、邊緣計算等。而在面對復雜任務與特定場景時，通過多智能體進行探索、決策、信息交換，可以實現相比單智能體更好的綜合表現。

在多智能體系統中，現有的智能體多以 Text to Text（T2T）方式進行交流，即通過生成交流文本進行智能體之間的信息傳遞，而這種方式則會帶來信息丟失（多維語義被壓縮到一維文字）、語義模糊 [3][4]、巨大延遲（逐個 token 生成）三大問題。基于此來自清華大學、無問芯穹、香港中文大學、上海人工智能實驗室和上海交通大學的研究團隊在論文中創(chuàng)新提出了 Cache to Cache（C2C）方式的信息傳遞，將模型的 KV-Cache 作為傳播媒介，實現了直接的「腦對腦」交流，相比 T2T 的對話交流實現了 3%-5% 的正確率提升以及平均兩倍的速度提升，為多智能體系統提供了一種全新的通信范式。

論文的核心貢獻在于：

驗證了超越文本的模型間通信的可行性
提出了以 KV-Cache 作為媒介進行通信的方案 - C2C
為多智能體通信提供了新的技術基礎

a) T2T 通過顯式文本生成傳遞信息 b) C2C 直接將不同模型的 KV-Cache 進行投影與融合

本工作現已開源，歡迎交流討論。

代碼鏈接：https://github.com/thu-nics/C2C
主頁鏈接：https://github.com/thu-nics
論文鏈接: https://arxiv.org/pdf/2510.03215

背景：現有文本通信的局限性

在面對復雜任務與特定場景時，多智能體系統能夠展現出超越單智能體的顯著優(yōu)勢。然而，現有的 Text to Text（T2T）極大地限制了模型間的信息交流，尤其是在傳遞具有豐富語義的上下文時，產生了以下三大問題：

1. 信息丟失：作為低帶寬的傳播媒介，在將信息壓縮為一維文本序列并輸出時，很容易造成高維語義降維時的信息丟失。

2. 語義模糊：自然語言本身包含的模糊表達，盡管 MCP 等智能體交流協議希望可以標準化文本信息 [3][4]，但是固定的模版依舊難以滿足靈活、開放的協作場景。

3. 巨大延遲：T2T 傳遞采取逐個 token 輸出，極大地限制了通信速度。

核心洞見：KV-Cache 的獨特優(yōu)勢

KV-Cache 天然包含模型對話過程中的多維語義信息，無需額外二次處理。通過預實驗，我們發(fā)現：

1. 在相同文本長度下，優(yōu)化后的 KV-Cache 能夠顯著提升模型的準確率；

2. 不同模型之間的 KV-Cache 可以進行相互轉換與傳遞，具備良好的通用性；

3. 不同模型針對相同上下文會生成各自獨特的 KV-Cache 表示，體現了模型間能力的互補性。

此外，KV-Cache 在并行處理方面具有天然優(yōu)勢，能夠精準彌補現有 T2T（Text-to-Text）方式的不足。例如，KV-Cache 可通過投影對不同詞元實現完全并行的信息交流，有效避免低效的一維文本輸出流程。

基于上述優(yōu)勢，我們團隊探索了以 KV-Cache 為媒介的模型通信方式。實驗表明，KV-Cache 不僅拓展了模型間交流的表達空間，還顯著提升了效率和可擴展性。

源模型、目標模型以及轉換后KV-Cache的t-SNE圖

KV-Cache 優(yōu)化實驗

深入解析：C2C 直接語義通信的實現路徑

1. Sharer 與 Receiver

團隊將提供額外上下文理解的模型定義為 Sharer（分享者），而負責接收完整上下文并結合這些理解生成回復的模型定義為 Receiver（接收者）。

2. 核心機制：C2C-Fuser

C2C 的核心在于 KV-Cache 的融合。為此，我們設計了融合器 F 以及層映射策略 G。

在 prefill 階段，第 n 層的融合器 F (n) 會用 Receiver 的第 n 層 KV 和 Sharer 的第 G (n) 層 KV 進行融合，生成新的 KV 表示。
在解碼階段，模型則利用融合后的 KV-Cache 和當前前綴，進行自回歸生成，實現信息的有效利用。

3. 融合器設計：殘差式信息注入

為防止融合過程破壞 Receiver 原有語義，Fuser 采用殘差融合結構，分為投影層、動態(tài)權重層和可學習門控三部分。

投影層：將兩側 KV 在頭 / 通道維度拼接，通過線性投影與特征融合映射到統一表征空間；實現初步的信息整合；
動態(tài)權重層：用輸入感知的 head-modulation 對投影后的各注意力頭 / 通道做自適應加權；促使模型可以判斷：在何時應當保留 Receiver 的輸入，何時應當增強 Sharer 的引導；
可學習門控：每層有可訓練門控，使用帶溫度退火的 Gumbel-sigmoid，從開始訓練時的可微加權平滑過渡到推理時的 0/1 決策。最終以殘差形式與 Receiver 原 KV 相加，保留原始表征；保證了訓練的有效性以及 Receiver 輸出的穩(wěn)定性。

這樣可以自適應地將 Sharer 的信息以殘差方式注入 Receiver，實現更有效的信息整合與傳遞。

4. 模型對齊：跨模型、跨層級的映射

為保證不同模型（系列、尺寸）之間 KV 表示的兼容性，C2C 引入模型對齊機制。

Token 對齊：將 Receiver 的每個 token 解碼為字符串，再用 Sharer 的分詞器重新編碼；遇到一對多映射時，選取覆蓋字符串最長的 Sharer token 以最大限度保障信息精準傳遞。
Layer 對齊（也即層映射策略）：采用「末端對齊」策略 —— 先對齊兩模型的最頂層，然后按逆序逐層對齊直到較淺模型的第一層，優(yōu)先保障深層語義的融合傳輸。

5. 訓練框架：專注于 C2C Fuser 模塊

在訓練過程中，團隊凍結 Sharer 和 Receiver 的參數，僅訓練 C2C 融合器模塊，采用類似 SFT 的 next token prediction 損失。訓練流程包括前向傳播、KV-Cache 融合，以及最終的監(jiān)督學習與傳播，確保 C2C 能穩(wěn)定高效地實現模型間的信息傳遞。

結果與分析：C2C 的性能與效率優(yōu)勢

訓練數據：OpenHermes2.5 [14]

為確保泛化能力，團隊在通用微調語料庫 OpenHermes2.5 [14] 中選取前 50 萬個樣本來訓練 C2C Fusers。

模型組合：

涵蓋不同系列（Qwen2.5 [5]、Qwen3 [6]、Llama3.2 [7]、Gemma3 [8] ）、不同規(guī)模（0.6B～14B）、不同專業(yè)領域（通用、代碼、數學）以及不同訓練階段（預訓練、指令微調）模型。例如，用 Qwen2.5-Math 作為 Sharer，Qwen3-0.6B 作為 Receiver，測試學科知識傳遞。

基線方法：

T2T：Sharer 生成解析文本，Receiver 接收解析文本以及原問題后進行回答
query-level routing：根據問題難度動態(tài)選擇 Sharer 或 Receiver 回答
單模型：Sharer 和 Receiver 分別單獨回答

評測基準：

OpenBookQA [9]：考察模型對科學常識和開放性知識推理能力
MMLU-Redux [10]：考察多領域、多任務的專業(yè)知識理解與綜合能力
ARC-C [11]：考察復雜科學推理任務
C-Eval [12]：考察模型在中文環(huán)境下的多學科知識與應用能力

整體表現

在主要評測基準上的測試結果，使用Qwen-0.6B作為Receiver

如表所示，C2C 在不同設置和基準上持續(xù)提升了 Receiver 的性能。

準確性提升：顯著超越個體與文本通信：

針對三種不同的 Sharer，分別觀察到 C2C 相比單個 Sharer 平均準確率提升 11.00%、9.64% 和 11.88%。
與 T2T 相比，C2C 的平均準確率分別額外提升了 5.36%、4.15% 和 3.06%。

效率增益：延遲大幅降低：

由于省去了中間文本消息的生成，相比 T2T，C2C 在推理時間上分別實現了約 3.46×、1.51× 和 14.41× 的加速。相較之下，query-level routing 更側重效率，但其準確率一般不超過兩個原始模型中的較好者。

值得注意的是，當使用 Qwen3-4B Base 作為 Sharer 時，該模型生成的文本有時會忽視指令并超出預期長度，導致文本到文本通信時間顯著增長，而 C2C 能繞過該問題。這一設置展示了一個有趣的用例：即使是弱的 SFT 模型，也能幫助強大的預訓練基礎模型更好地遵循指令。

泛化實驗

分別在規(guī)模擴展、序列長度擴展與不同模型組合三個層面上進行泛化實驗，結果說明 C2C 在三個層面上均能有效泛化，具體實驗結果詳見正文部分。

消融實驗

Single 表示在沒有 Sharer 的情況下對 Receiver 進行標準的完整微調；Identical 表示 Sharer 與 Receiver 均為 Qwen3-0.6B 的 C2C 配置。

實驗結果說明 C2C 的改進并非單純來源于增大的可訓練參數量或對訓練集的過擬合，而是來自異構 Sharer 提供的互補性上下文理解。即便是 Identical 相較于 Single 也有提升，表明 Cache 級別的自我通信（cache-level self-communication）能提供有益的輔助表征，這與在隱空間推理和循環(huán) Transformer 中觀察到的效應一致 [15][16]。

未來展望

Cache to Cache 及其思想的應用前景十分廣泛，可能的場景包括：

1. 多智能體系統中實現協作效率與效果的大幅提高。例如在一些多智能體系統的應用中，可以進一步提升智能體系統響應與處理速度，適配當前快節(jié)奏、多需求的 AI 訓練浪潮。

2. 多模態(tài)的便捷融合。借助 C2C 可以對齊并融合語言模型、視覺 - 語言模型（VLM）及視覺 - 語言 - 動作（VLA）策略的緩存，使視覺與語言上下文共同驅動更精確的理解與決策執(zhí)行。

3. 與推理加速方法整合。將 C2C 用于增強推測解碼（speculative decoding）、 token 級路由等方法中小模型的表現，進一步降低延遲與推理成本。

4. 隱私感知的云 — 邊協作。云端模型將經挑選的 KV-Cache 段傳輸到邊端模型，以在不暴露原始文本的前提下提升邊端能力，減少帶寬并降低數據泄露風險。

5. 高維語義空間的協作與推理。與隱空間推理結合后可以實現完全在高維語義空間的模型推理與溝通協作，有望進一步提升系統工作效率，減少計算開銷。

本文提出的 Cache-to-Cache（C2C）范式，成功實現了大模型間高效、通用的直接語義通信。其在性能、效率與泛化性上的優(yōu)異表現也讓我們期待，在智能體時代，C2C 有潛力成為構建新一代多智能體系統的關鍵使能技術之一，推動其交流方式從低效的文本中轉邁向高效的「思想同步」。

責任編輯：張燕妮來源：機器之心

AI 模型通信