Long to Short Reasoning：7 篇長思維鏈壓縮工作總結

amei2000go

發布于 2025-8-18 06:32

瀏覽

0收藏

一、背景

隨著 Long Reasoning 領域的快速發展，最近涌現出了諸多 Reasoning 模型，比如 DeepSeek R1、DeepSeek R1 Distill 以及阿里的 QwQ-32B 模型。這些模型在處理復雜任務時表現卓越，但與此同時，我們也觀察到一些值得關注的現象。部分用戶在不必要的場景下盲目使用 Reasoning 模型，導致大量不必要的 CoT Token 被引入，直接推高了 Inference 成本。

筆者在之前的 CoT-Valve 介紹文章中提到過：“Long CoT 模型通常需要更長的 Token 序列，這會顯著增加模型輸出長度，從而大幅增加了 Inference 成本。可以預見，為了降低 Inference 成本，未來不久將涌現一系列專注于壓縮輸出 Token 數量的技術”。事實上，近期的一些研究已經在朝這個方向努力，出現了不少針對 Long to Short Reasoning 的文章。

這些方案多采用 Token 壓縮、路徑剪枝等策略，聲稱“輕微損失精度”甚至“幾乎無損”的情況下降低輸出 Token 長度。然而，實際效果往往并非如此，所謂的“微小精度損失”在某些任務場景下可能被放大，影響最終決策質量。本文將對近期的 Long to Short Reasoning 優化技術進行簡要梳理和分析，探討其實際收益與潛在局限。

二、LightThinker

2.1 概要

LightThinker 由浙大、螞蟻等發表，其通過動態壓縮 Reasoning 過程中的中間思維步驟，提高 LLM 在復雜 Reasoning 任務中的 Inference 效率，同時幾乎不影響性能。此外，論文中引入了依賴度（Dependency，Dep）指標，通過測量生成過程中對歷史 Token 的依賴程度來量化壓縮程度。

如下圖所示為 LinkThinker 與常規方法的區別：

(a)：包含 Thought1 和 Thought2 兩步 Reasoning。
(b)：首先基于 Question + Thought1 生成壓縮 Token [C T1]；然后基于 Question + [C T1] 生成思考過程 Thought2；之后進一步使用 Question + [C T1] + Thought2 生成壓縮 Token [C T2]；最后，基于 Question + [C T1] + [C T2] 生成 Answer。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

對應的論文為：[2502.15589] LightThinker: Thinking Step-by-Step Compression [1]

2.2 具體方案

2.2.1 數據重構

為了使模型能夠學習壓縮能力，需要對訓練數據進行了重構，以便模型能夠理解何時以及如何進行壓縮。具體步驟如下：

分割輸出：給定輸入問題 X 和對應的輸出 Y，使用分割函數 Seg() 將輸出 Y 分割成多個子序列 Si。分割函數可以基于兩種策略：

基于 Token 的分割（Token-level）：每生成固定數量的 Token 后進行一次壓縮。
基于思維單元的分割（Thought-level）：在完成一個完整的思維單元（如句子或段落）后進行壓縮。

插入特殊 Token：在分割后的子序列之間插入特殊 Token：

<w>：可選的壓縮觸發 Token，表示需要對前面的思維進行壓縮。
[c]：一組特殊 Token（稱為 “gist tokens”），用于存儲壓縮后的內容。
[o]：輸出 Token，用于基于壓縮后的內容繼續生成后續文本。

重構后的數據形式為：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

2.2.2 注意力掩碼設計

為了使模型能夠學習如何壓縮以及如何基于壓縮后的內容繼續 Reasoning，作者設計了特定的注意力掩碼。具體如下圖 Figure 2 所示：

生成階段：如 t=1，t=3，t=5 所示，基于問題 X、之前的壓縮 Token [c] 以及生成的內容 [o] 來生成思維步驟 S。
壓縮階段：如 t=2，t=4 所示，基于問題 X、之前的壓縮 Token [c] 以及生成的內容 [o] 以及新的思維步驟 S 生成壓縮 Token [c]。
Attention Mask：每次的生成只能看到對應箭頭來源的方向，比如 S2 的生成只能看到 X、[c1][c2]、[o]。（PS：這也是能夠降低 Inference 成本的關鍵所在，生成時的計算量減少了）

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

2.2.3 Training & Inference

Training 過程：使用重構后的數據 D 進行訓練，通過 Attention Mask 引導模型學習壓縮和理解壓縮后的內容。

Inference 過程：模型動態地生成思維步驟，并在適當的時候將其壓縮為緊湊的表示，然后基于壓縮后的內容繼續 Inference。

2.3 結果

如下圖 Table 1 所示為關鍵結果，其中 Distill-R1 是 DeepSeek 開源出來的蒸餾模型。Vanilla 為在 Bespoke-Stratos-17k 數據集上 SFT 后的模型。H2O 等都是在 Vanilla 基礎上采用各種優化方案的模型。Acc 表示精度、Time 表示 Inference 時間，Peak 表示 Inference 中上下文的峰值 Token 數。可以看出：當前的這些方案相比 Vanilla 模型來說 Acc 多少都會有所降低，同時 Time 并沒有明顯降低，只是 Peak 低了很多。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

三、TokenSkip

3.1 概要

TokenSkip 由香港理工大學和中科大發表，同樣是為了解決 Reasoning 模型輸出過長導致的 Inference 成本過高問題。作者深入分析了 CoT 輸出中 Token 的語義重要性，發現其對 Reasoning 的貢獻度存在差異。基于此，提出了 TokenSkip 策略，它使 LLM 能夠有選擇性地跳過重要性較低的 Token，從而實現可控的 CoT 壓縮。

實驗中，基于 Qwen2.5-14B-Instruct 模型，TokenSkip 在 GSM8K 任務中將 Reasoning Token 減少 40%（從 313 降至 181），且性能下降不足 0.4%。

對應的論文為：[2502.12067] TokenSkip: Controllable Chain-of-Thought Compression in LLMs [2]

對應的代碼庫為：https://github.com/hemingkx/TokenSkip [3]

3.2 方案

如下圖 Figure 4 所示，TokenSkip 關鍵過程包含 3 步：

Token Pruning：根據 Token 的重要性對 CoT 序列進行剪枝。首先計算每個 Token 的語義重要性，然后按重要性值降序排列，根據指定的壓縮比率 γ 確定閾值，保留重要性大于等于閾值的 Token。
Training：使用剪枝后的 CoT 數據對目標 LLM 進行 SFT。在訓練數據中，每個樣本包含問題、壓縮后的 CoT 和答案，格式為 “Q [EOS] γ [EOS] Compressed CoT A”。
Inference：給定問題和壓縮比率 γ，模型按照訓練時的格式進行 Inference，自回歸地生成輸出序列，包括 CoT Token 和答案。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

3.3 結果

如下圖 Table 1 可以看出，在 80% 的壓縮率下損失已經比較大了，而且加速只有 1.2x 左右：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

四、Token-Budget-Aware LLM Reasoning

4.1 概要

Token-Budget-Aware LLM Reasoning 由南京大學等發表，主要是通過引入 “Token Budget” 來優化 LLM 的 Inference 過程，以在保持 Reasoning 準確性的同時降低 Token 使用量和成本。具體來說，作者提出了一種 Token Budget 感知的 LLM Reasoning 框架，該框架能根據每個問題的 Reasoning 復雜度動態調整 Reasoning Token 的數量。實驗表明，該方法在僅輕微降低性能的前提下，有效減少了 CoT Reasoning 中的 Token 成本，為平衡 LLM Reasoning 效率與準確性提供了一種實用解決方案。

對應的論文：[2412.18547] Token-Budget-Aware LLM Reasoning [4]

對應的代碼庫：GitHub - GeniusHTX/TALE [5]

4.2 方案

論文提出了名為 TALE（Token-Budget-Aware LLM rEasoning）的框架，通過動態調整 Reasoning 過程中的 Token 數量來平衡 Reasoning 效率和準確性。TALE 包含兩種實現方式：

TALE-EP（Estimation & Prompting）：如下圖所示，通過 0-shot prompting 方式估計合理的 Token Budget，并將其納入 Prompt 中，從而生成更高效的 Reasoning 過程。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

具體示例如下圖所示：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

TALE-PT（Post-Training）：如下圖所示，通過 Post-training 將 Token Budget 內化到 LLM 中，使其在沒有顯式 Token 約束的情況下生成更高效的響應。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

4.3 結果

如下圖 Table 3 所示為 TALE-EP 的結果，可以看出輸出 Token 確實明顯減少，但是 Acc 也有一定程度的降低：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

如下圖 Table 3 所示為 TALE-PT 的結果，可以看出 TALE-PT-SFT 的結果還不錯，相比 Vanilla CoT 的 Acc 更高，輸出 Token 更少。不過如果有更多實驗應該會更有說服力。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

五、Chain of Draft

5.1 概要

Chain of Draft（CoD）由 Zoom 發表，其受人類認知過程啟發，提出了草擬連（Chain of Draft）。在此框架下，LLM 在解決任務時生成簡潔而富含信息的中間 Reasoning 輸出。通過減少冗長并聚焦于關鍵洞見，CoD 在多個 Reasoning 任務中匹配甚至超過了 CoT 的準確性，同時僅使用約 7.6% 的 Token 數量，顯著降低成本和時延。

對應的論文：[2502.18600] Chain of Draft: Thinking Faster by Writing Less [6]

對應的代碼庫：Code and data for the Chain-of-Draft (CoD) paper [7]

5.2 方案

CoD 主要通過以下兩個關鍵機制：

限制 Reasoning 步驟的輸出長度：如下圖左圖所示，在 CoD 中，作者建議每個 Reasoning 步驟的輸出長度最多為 5 個單詞。這種限制迫使模型只關注解決問題所需的關鍵信息，避免冗余的描述和不必要的細節。
提供簡潔的中間步驟示例：如下圖右圖所示，為了幫助模型理解 CoD 的要求，作者在 Prompt 中手動編寫了簡潔的中間步驟示例。這些示例作為引導，幫助模型學習如何生成簡潔的推理過程。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

5.3 結論

如下圖 Table 1 所示，在 few-shot 下，CoD 相比 CoT 有一定損失，但加速比較明顯：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

如下圖 Table 5 所示，在 0-shot 下，CoD 相比 CoT 的差距非常明顯：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

六、InftyThink

6.1 概要

Long Reasoning 范式面臨 3 大挑戰：計算復雜度與序列長度呈二次方增長、Reasoning 受限于最大上下文長度、超出預訓練上下文窗口時性能下降。當前常見方法是壓縮 CoT，而未從根本上解決規模擴展問題。

本文中，作者提出 InftyThink 范式，將單一 Reasoning 過程轉化為包含中間總結的迭代流程。通過將短 Reasoning 片段與簡要的進度摘要交錯編排，相較于傳統方法顯著降低了計算復雜度。實驗結果表明：基于 Qwen2.5-Math-7B 在 MATH500、AIME24 和 GPQA_diamond 基準測試中分別實現了 3%-13% 的性能提升。

對應的論文：[2503.06692] InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models [8]

6.2 方案

如下圖 Figure 2 可以看出，InftyThink 的核心思路是將單次 Long Reasoning 過程分為多個 Short Reasoning 過程，并在每個階段之間插入中間總結，用于后續迭代基于之前的總結繼續 Reasoning。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

如下圖 Figure 1 所示，這種周期性總結創建了“鋸齒形”內存模式，顯著降低了計算復雜度（PS：需要注意的是，Total Token 的數量會有所增加）：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

為了訓練模型適應 InftyThink 范式，作者提出了一種將現有 Long Reasoning 數據集重構為迭代格式的方法。以 OpenR1-Math 數據集為例，重構過程包含以下步驟：

Reasoning 分割：根據最大 Token 長度參數 η，將 Reasoning 過程分割為多個語義連貫的片段。
總結生成：使用 Meta-Llama-3.3-70B-Instruct 模型為每個片段生成總結。
訓練樣本構建：將分割的 Reasoning 片段和生成的總結組合成新的訓練樣本，用于 SFT。通過這種方法，OpenR1-Math 數據集被擴展為 OpenR1-Math-Inf，包含 333K 訓練樣本。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

6.3 結論

如下圖 Table 1 所示為本文的實驗結果，本文的方案能有效的提升 Acc。遺憾的是，雖然其可以降低峰值內存需求，但作者并沒有進行 Inference 時間等相關評估。單純從生成 Token 數的角度出發其增加了總的 Token 數，可能增加 Inference 成本；但每個 Iter 參與的 Token 數是少的，又可能降低 Inference 成本；除此之外，Summary 也需要一定的 Inference 開銷。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

七、Sketch-of-Thought

7.1 概要

思維草圖（Sketch-of-Thought，SoT）框架結合了認知啟發的 Reasoning 范式與語言約束，旨在最大限度地減少 Token 使用量，同時保持 Reasoning 準確性。在跨越 15 個多語言及多模態場景的 Reasoning 數據集上的全面評估表明，SoT 實現了 76% 的 Token 減少，且對準確性的影響微乎其微。在數學及多跳 Reasoning 等特定領域，SoT 甚至在使用顯著更少 Token 的同時提高了準確性。

對應的論文：[2503.05179] Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [9]

對應的代碼庫：https://github.com/SimonAytes/SoT [10]

7.2 方案

SoT 框架的核心思想是借鑒人類專家在解決問題時使用的“草圖”（Sketche），即通過簡潔的符號、縮寫和領域特定的術語來高效表達 Reasoning 過程。SoT 框架包含三個基于認知科學的 Reasoning 范式，分別針對不同類型的 Reasoning 任務。

概念鏈（Conceptual Chaining）：利用聯想記憶網絡連接關鍵概念，以極簡的文字表達 Reasoning 過程。例如，回答“首爾使用的貨幣是什么？”時，SoT 的 Reasoning 過程為：#Seoul → #South Korea → Won。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

分塊符號主義（Chunked Symbolism）：基于工作記憶分塊理論，將數學 Reasoning 組織成緊湊的符號表示。例如，計算“一輛汽車以 2.5 m/s2 的加速度加速 10 秒，初始速度為 15 m/s，求最終速度？”時，SoT 的 Reasoning 過程為：a = 2.5 m/s2, t = 10 s, vi = 15 m/s → vf = 15 + (2.5 × 10) → vf = 40 m/s。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

專家詞典（Expert Lexicons）：模仿專家使用的領域特定的縮寫和符號，以高效表達復雜信息。例如，回答“STEMI 患者接受 MONA 治療，但對阿司匹林過敏，這種治療是否安全？”時，SoT 的 Reasoning 過程為：STEMI → ST-Elevation MI, MONA → Morphine, O2, Nitrates, Aspirin → Aspirin ∈ MONA。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

如下圖 Figure 2 所示，SoT 框架通過一個輕量級的 Router Model（基于 DistilBERT）動態選擇最適合每個問題的 Reasoning 范式，確保 Reasoning 過程的高效性。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

7.3 結論

如下圖 Table 1 所示為主要結果，相比 CoT 的損失確實不大，并且 Token 數有比較明顯的下降：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

八、Meta Reinforcement Fine-Tuning

8.1 概要

這個工作來自卡內基梅隆大學和 Huggingface 團隊，主要研究如何通過元強化學習（Meta Reinforcement Learning，MRL）優化 LLM 在測試時的計算資源利用效率。作者開發了元強化微調（Meta Reinforcement Fine-Tuning, MRT）方法，旨在優化測試時計算。與 Outcome-Reward RL 相比，MRT 在數學 Reasoning 任務上實現了 2x-3x 的性能相對提升，以及約 1.5x 的 Token 效率增益。

對應的論文：[2503.07572] Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning [11]

8.2 方案

MRL 的核心在于如何在訓練時學習到一種策略，使得模型在測試時能夠根據不同的任務動態調整其行為。具體來說，論文提出了以下關鍵概念：

將輸出流劃分為多個“episode”：將 LLM 的輸出流劃分為多個邏輯塊（episode），每個 episode 可以看作是對問題的一次嘗試或對之前嘗試的修正。
最小化累積遺憾（cumulative regret）：通過優化一個密集獎勵函數（dense reward），使得模型在每個 episode 中都能取得進展，從而最小化與最優策略的差距（遺憾）。

MRT 的核心在于定義一個“進展”（Progress）的概念，并將其作為密集獎勵函數的一部分。具體來說：

進展（Progress）：定義為在給定上下文和當前 episode 的情況下，模型成功解決問題的概率變化。如果一個 episode 能夠顯著提高解決問題的概率，則認為該 episode 有較高的進展。
密集獎勵函數：在標準的 0/1 結果獎勵基礎上，加入一個與進展相關的獎勵項。這樣，模型不僅需要在最終輸出中獲得正確的答案，還需要在每個 episode 中取得有意義的進展。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

論文中提出了兩種實現 MRT 的方法：

基于 STaR（Self-Training with Rollouts）的 MRT：通過采樣模型的輸出，篩選出那些既符合進展獎勵又最終成功的軌跡，然后進行監督學習。
基于 RL 的 MRT：直接在訓練過程中優化包含進展獎勵的目標函數，使用在線強化學習方法（如 PPO 或 GRPO）進行更新。

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

8.3 結論

如下圖 Table 1 所示，本文的 MRT 相比之前的其他方法在 Acc 上有比較明顯的提升：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

如下圖 Figure 7 所示，對于 Qwen-1.5B 模型，在實現同樣 Acc 的情況下本文的 MRT 方法與其他方法相比可以明顯減少 Token 數：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

如下圖 Figure 8 所示，在 8B 模型上有類似結論：

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結-AI.x社區

九、參考鏈接

??https://arxiv.org/abs/2502.15589??
??https://arxiv.org/abs/2502.12067??
??https://github.com/hemingkx/TokenSkip??
??https://arxiv.org/abs/2412.18547??
??https://github.com/GeniusHTX/TALE??
??https://arxiv.org/abs/2502.18600??
??https://github.com/sileix/chain-of-draft??
??https://arxiv.org/abs/2503.06692??
??https://arxiv.org/abs/2503.05179??
??https://github.com/SimonAytes/SoT??
??https://arxiv.org/abs/2503.07572??

本文轉載自???????AI閑談?????????，作者：AI閑談

標簽

LightThinker

LLM

性能

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

Long to Short Reasoning：7 篇長思維鏈壓縮工作總結

一、背景

二、LightThinker

2.1 概要

2.2 具體方案

2.2.1 數據重構

2.2.2 注意力掩碼設計

2.2.3 Training & Inference

2.3 結果

三、TokenSkip

3.1 概要

3.2 方案

3.3 結果

四、Token-Budget-Aware LLM Reasoning

4.1 概要

4.2 方案

4.3 結果

五、Chain of Draft

5.1 概要

5.2 方案

5.3 結論

六、InftyThink

6.1 概要

6.2 方案

6.3 結論

七、Sketch-of-Thought

7.1 概要

7.2 方案

7.3 結論

八、Meta Reinforcement Fine-Tuning

8.1 概要

8.2 方案

8.3 結論

九、參考鏈接

目錄