NeurIPS 2024 (Oral) | 如何量化與提升思維鏈的推理能力邊界？

作者：機器之心 2024-11-11 11:05:00

本研究提出了一個推理邊界（RB）框架，系統量化并優化大語言模型（LLMs）在思維鏈（CoT）任務中的推理能力邊界。

本篇工作已被 NeurIPS（Conference on Neural Information Processing Systems）2024 會議接收，并被評為 Oral Presentation (72/4553) 。該文章的第一作者陳麒光，目前就讀于哈工大賽爾實驗室。他的主要研究方向包括大模型思維鏈、跨語言大模型等。

該研究主要提出了推理邊界框架（Reasoning Boundary Framework, RBF），首次嘗試量化并優化思維鏈推理能力。

論文鏈接：https://arxiv.org/abs/2410.05695
代碼地址：https://github.com/LightChen233/reasoning-boundary

1. 大型語言模型（LLMs）與思維鏈推理能力

什么是思維鏈（Chain-of-Thought, CoT）？

近年來，大型語言模型（LLMs）在處理各種復雜任務中取得了長足進展，從文本生成到問題解答，LLMs 幾乎無所不能。然而，面對復雜的推理任務，LLMs 也存在瓶頸 —— 模型往往容易跳過推理的中間步驟，直接生成最終答案，這使得它們在應對復雜問題時容易犯錯。

思維鏈推理（CoT）是一種讓模型分步推理復雜問題的方法。與傳統模型的直接生成答案不同，CoT 通過逐步細化問題的每一步，從而得到更準確、更有邏輯的結果。

為什么它如此重要？

為什么 CoT 很重要？因為面對復雜的推理任務，模型往往會因為信息量大、推理路徑復雜而犯錯。CoT 的逐步推理策略使模型能夠處理更具挑戰性的任務 —— 從數學題解到現實決策問題，它能幫助模型分解任務，找到每個步驟的最佳解法。

這不僅提升了模型的準確性，還顯著增強了它處理復雜任務的能力，使其能夠應用于更廣泛的實際場景中。

2. 模型推理的困境：復雜任務中的可解釋性難題

想象這樣一個情景：你正在處理一個復雜的項目，需要模型綜合多種能力，最終通過多步推理找到最優解決方案，那么這些能力和推理能力是如何組合，共同影響并改進最終性能的呢？

為了解決該問題，該文章通過研究以下幾個問題來理解和解決這個問題。

2.1 模型在面對復雜推理時，如何對推理能力進行量化？

當前多數研究依賴定性分析，缺乏統一的量化指標來系統比較不同的 CoT 推理方法。這種局限性導致研究者難以精確評估和預測模型在復雜任務中的推理能力上限，阻礙了對 CoT 推理效果的深入理解和科學驗證。

為此，研究人員提出推理邊界框架（Reasoning Boundary Framework, RBF），定義了模型在不同準確率對于的推理能力邊界。并提出了三種推理邊界以量化推理能力邊界：完全可行推理邊界（CFRB）；完全不可行推理邊界（CIRB）; 部分可行推理邊界（PFRB）。

2.2 推理能力與不同的其他能力如何組合？

在實際場景中，模型往往需要集成多種能力才能有效地解決某一任務。

為了定量描述如何通過思維鏈 CoT 機制實現多種能力的協同提升，研究者進一步提出了 “ 推理邊界的組合律 ”，并推導并驗證了該組合律的具體公式。

2.3 如何基于可解釋性框架優化思維鏈？

雖然已有研究揭示了 CoT 推理的部分機制，但如何系統性地優化 CoT 推理的效率和效果仍缺少明確的策略與方法指導。這一不足限制了 CoT 技術在實際應用中的進一步改進與拓展。

根據推理邊界框架，本文提出了最短可接受推理路徑（MARP）優化推理效率。無論是在復雜的數學推理還是多跳推理中，RBF 都能幫助模型在海量信息中找到最優路徑，大幅提升推理效果。

3. 概念定義

3.1 推理邊界

為了量化大型語言模型的復雜推理能力，如圖 1 (a) 所示，研究者引入了推理邊界（Reasoning Boundary, RB）的概念，定義了 LLMs 在特定推理過程中能夠處理的任務難度上限。

具體而言，RB 被定義為模型 m 和任務 t 作為問題難度 d 的最大值，模型的準確性達到預定義閾值：

其中 Acc (t|d, m) 表示模型在難度為 d 的任務 t 上的準確率。難度可以通過推理步驟數或計算復雜度等因素來衡量。簡而言之，RB 反映了模型在保持一定準確性（accuracy）的前提下，其推理能力的邊界。

* 為了簡潔起見，在后續文章中將 RB 表示為。

總結：模型的推理邊界是由其針對給定任務難度實現特定準確度的能力來定義的。

3.2 推理邊界間的組合律

在實際場景中，模型往往需要集成多種能力才能有效地解決某一任務。

為了定量描述如何通過思維鏈 CoT 機制實現多種能力的協同提升，研究者提出了“推理邊界的組合律”，并推導出 CoT 能力上限的具體公式。

該定律估計模型 m 內 n 個任務的統一推理邊界，即表述為：

其中表示任務的推理邊界。和是縮放因子，僅受相關任務影響。如圖 1 (b) 所示，該方程提供了一個數學公式來估計獨立 RB 的組合，從而可以更深入地了解復雜任務的模型行為。

總結：推理邊界的組合律描述了多個推理能力的協同效應，滿足加權調和平均公式，用以估計模型在多個任務上的整體推理能力。

3.3 推理邊界劃分

此外，為了指導 CoT 的優化和更方便的表達，如圖 1 (c) 所示，研究者根據經驗準確性定義了以下三類 RB：

完全可行的推理邊界：研究者定義準確率大于 90% 的部分是完全可行的推理邊界 (CFRB=)，這意味著 LLM 可以有效地掌握這部分的表現。
完全不可行的推理邊界：研究者認為準確率小于 10% 的部分是完全不可行的推理邊界 (CIRB=)，這意味著模型永遠無法有效掌握這部分的性能。
部分可行推理邊界：研究者將除 CFRB 和 CIRB 之外的其余部分中的 RB 定義為部分可行推理邊界 (PFRB=)，這需要模型重復思考或者更清晰的信息來解決問題。

研究者通過詳細分析了這三類 RB 的性質，進一步結合組合律來優化這三個推理邊界，從而為支持未來 CoT 優化提供有效的建議和指導。

4. 實驗設置

模型設置：研究者們采用了 GPT-3.5-Turbo 作為主要模型，實驗還涵蓋了多任務場景，包括數學推理、多跳問答和多語言推理等領域，以確保推理邊界的全面評估。
基準設置：為了更好地評估 LLMs 的推理能力，作者引入了一個新的數據集 ——BigGSM。這個數據集不僅具有較高的計算復雜性，還包含更長的推理鏈，能夠更好地挑戰模型的推理上限。

5. 驗證性實驗

5.1 推理邊界存在性驗證

研究者們通過實證分析，驗證了推理邊界在三類任務中的普遍性：

在基礎算術運算中，呈現出三種不同的推理邊界 (圖 2 (a))；

在自然語言規劃任務中，同樣展現出三種不同的推理邊界 (圖 2 (b))；

在代碼規劃任務中，仍然表現出一致的三種推理邊界 (圖 2 (c))。

5.2 推理邊界組合律驗證

在實際應用中，模型通常需要集成多種能力才能高效解決復雜任務。為此，研究者們進一步地驗證了實際場景中，推理邊界組合律的廣泛適用性：

復雜多項式計算的推理邊界：可視為 ①計算步驟規劃與 ②數學運算兩個推理邊界的結合。如圖 3 (a) 所示，實驗結果顯示了三個具有明顯邊界的推理邊界劃分區域。
復雜小學數學推理的推理邊界：可理解為 ①自然語言步驟規劃與 ②數學運算的結合，圖 3 (b) 中同樣展示了三個清晰的推理邊界劃分區域。
多跳問答的推理邊界：可被視作 ①多跳規劃與 ②實體推理的結合。正如圖 3 (c) 所示，三個推理邊界劃分的有效區域同樣可見。

5.3 不同推理邊界的不同性質

研究者驗證了不同推理邊界在模型中的性質：

完全可行推理邊界-->完全掌握：如圖 4 (a, b) 所示，在這一邊界下，模型即使在沒有示例、無需 self-consistency 的情況下也能夠高效完成任務。
部分可行推理邊界-->不完全掌握：在這一推理邊界下，如圖 4 (b) 所示，模型對任務的掌握程度有限，需要通過多次 Self-consistency 來增強信心，從而提高準確率。
完全不可行推理邊界-->完全不掌握：在這種邊界下，如圖 4 (b) 所示，模型的推理表現極其有限，即便采用 Self-consistency，模型的準確率仍難以得到提升。
大模型能夠自己意識到自己的推理邊界：研究還發現，如圖 4 (c) 所示，當讓模型自行生成 CoT 示例時，模型更傾向于生成符合其推理邊界的樣本，特別是在完全可行推理邊界范圍內，而很少生成其完全無法掌握的樣本。這表明模型對推理邊界具有一定的自我感知能力，能夠根據自身能力選擇合適的任務進行推理。

6. 基于推理邊界的 CoT 優化

為了進一步優化思維鏈的表現，研究者們提出了基于推理邊界優化的多種策略，并對這些策略進行了全面的實驗驗證，揭示了如何通過調整 RB 提升復雜任務中的推理能力。

6.1 推理邊界優化策略

工具使用可以提升大語言模型的推理邊界

當模型使用工具時，可以簡單地認為模型可以以無限精度執行計算，因此數學計算的推理邊界趨向于無窮大，即。顯然，模型的組合推理邊界可以計算為：

其中，c 表示計算任務，p 表示規劃任務。很容易得出，，這表明工具使用可以提高推理的邊界。這解釋了為什么工具使用比普通的推理鏈性能更好（見表 1）。此外，如圖 5 所示，理論推理邊界與實際推理邊界的分布幾乎完美重合，這也證明了該假設的可靠性和適用性。

程序化思維可以進一步提升大語言模型的推理邊界。

由工具使用的組合推理邊界計算公式可得，LLM 的推理邊界完全取決于其規劃能力。由于自然語言可能過于冗長，它會妨礙 LLM 的規劃能力。因此，程序化思維（Program-of-Thought，PoT）通過代碼提供了更清晰的邏輯表示，使得規劃更為清晰（如圖 2 (b, c) 所示）。所以，這導致更好的步驟規劃推理邊界，即。那么，PoT 的推理邊界。

6.2 推理路徑優化策略

對于固定推理方式的模型而言，其推理邊界（即能力邊界）是相對固定的。因此，關鍵問題在于如何通過優化策略，提升模型的推理能力，使得優化后的推理邊界超越原問題所需的邊界。

Complex CoT 在推理步驟與性能之間的平衡
單次計算負荷緩解：研究表明，通過增加推理步驟，可以緩解單次計算的負荷，從而提升模型的計算邊界，這有助于提高整體的推理能力。
規劃難度增加：然而，推理步驟的過度增加可能帶來負面影響：原問題在準確率較高的邊界上，經過 Complex CoT，可能落到準確率較低的邊界上，其中。這意味著過多的推理步驟可能導致組合推理準確度的下降。

在規劃與計算負荷之間存在一個平衡：如圖 6 所示，隨著推理步驟的增加，模型性能在初期顯著提高，但當步驟數超過模型的最優推理能力時，性能開始下降。這表明，Complex CoT 在推理步驟數量與計算負荷之間存在一個最佳平衡點。超出這一點，計算負荷的增加會對模型的整體表現產生負面影響。
Least-to-Most 的分步優化策略

局部規劃壓力緩解：通過將問題拆解為多個子問題，如圖 7 所示，可以有效減少每個步驟內的規劃壓力，對各種不同計算量的問題都能有一定的性能提升。

全局規劃難度增加：雖然這種策略能夠降低局部規劃負擔，它同時引入了全局分解規劃中的額外推理邊界。如圖 15 所示，接近 70% 的全局規劃數超過了 5 步，嚴重加大了模型規劃難度，從而使實際的組合推理邊界對應的準確率下降。

最短可接受推理路徑提示（MARP）

為了克服上述策略的局限性，研究者提出了最短可接受推理路徑提示（MARP）策略。該策略通過提示大模型在每個步驟中盡可能高效地執行計算，同時減少不必要的全局規劃，從而降低了模型的計算負擔和規劃復雜度：

最小化推理路徑提示：為了減輕與規劃相關的認知負擔，通過該提示讓模型盡可能簡潔地回答問題，確保提供簡短、清晰和直接的推理路徑。

可接受推理路徑提示：為了更有效地利用推理邊界的上限，通過該提示要求模型每一個推理步驟的復雜性在可接受的范圍內。

實驗結果（見表 1）顯示，MARP 顯著提高了模型性能，并有效減少了 token 的使用量。

7. 拓展性探索

7.1 模型擴展驗證

推理邊界與模型準確率的正相關性：研究者通過對 25 個不同模型的推理邊界表現進行分析，發現推理邊界與數學任務中的準確率呈現出正相關關系。
數學模型與通用模型在推理邊界 - 準確率分布上的差異：通過數學數據微調的模型，推理邊界 - 準確率分布雖然呈現出正相關，但與通用 LLM 存在顯著差異。這可以為未來區分模型是否進行了數學專項訓練提供了一個潛在的指標。
開源模型在完全可行推理邊界上的局限性：開源模型在完全可行推理邊界（CFRB）上的表現與閉源模型存在顯著差異。幾乎所有開源模型的 CFRB 值均為 0，這表明開源模型在高級推理任務上的不足，表明其在未來優化中的潛力。

7.2 任務擴展驗證

更進一步地，該研究不僅驗證了在數學運算、數學推理和多跳問答任務中的推理邊界擴展規律，還進一步探索了在多語言推理和醫療推理任務中的表現。

多語言推理：通過將多語言能力、數學計算與推理規劃相結合，實驗結果表明，這些能力的正交組合后，推理邊界依然保持了三類不同的推理邊界模式，進一步證實了此方法的普適性和穩定性。

醫療推理：類似地，在醫療領域，研究通過將醫療實體推理與多跳推理規劃相結合，驗證了推理邊界在正交組合后仍然保持一致，說明該推理策略同樣適用于醫療推理任務。

8. 如何理解 o1 的優異性能？

為了深入理解當前最先進的大型語言模型 o1，研究人員利用推理邊界框架對 GPT 系列模型進行了全面評估。

如圖 11 所示，與早期版本相比，各項推理邊界指標均有顯著提升，模型性能也隨之增強。特別是，盡管 GPT-3.5 與 GPT-4o 之間在完全不可行推理邊界（CIRB）上的改進幅度較大，但完全可行推理邊界（CFRB）的提升相對較小。然而，在 GPT-o1 版本中，完全可行推理邊界的表現則有了顯著改善。

進一步來看，圖 14 揭示了 GPT-o1 版本在完全可行推理邊界上的卓越表現，提升幅度幾乎是其他模型的三倍。

研究人員認為，這一成果主要歸功于邏輯強化學習技術的進步和 Inference Scaling Law 策略的優化。這些新策略在提升完全可行推理邊界方面起到了關鍵作用，遠遠超越了常規的改進路徑。這一現象可能為未來研究提供了新的方向和啟示。

總結

本研究提出了一個推理邊界（RB）框架，系統量化并優化大語言模型（LLMs）在思維鏈（CoT）任務中的推理能力邊界。通過定義推理邊界和應用優化策略，合理解釋了多個 CoT 策略其在推理性能上的優勢。同時，最短可接受推理路徑（MARP）策略通過減少不必要的推理步驟，顯著提高了不同任務中的推理性能與效率。研究者希望 RB 框架能夠為相關研究提供理論基礎，推動 LLMs 在復雜推理任務中的發展。

責任編輯：張燕妮來源：機器之心

大語言模型系統