精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節(jié)跳動(dòng) AdaCoT:基于強(qiáng)化學(xué)習(xí)的自適應(yīng)推理觸發(fā)方法

人工智能
在人工智能領(lǐng)域,大型語言模型(LLM)正以前所未有的速度發(fā)展。然而,這些模型在處理復(fù)雜推理任務(wù)時(shí)仍面臨諸多挑戰(zhàn),如數(shù)學(xué)問題求解、邏輯推理等場景下的表現(xiàn)不足。而字節(jié)跳動(dòng)提出的 AdaCoT 框架,為 LLM 的高效推理提供了新的思路。

大家好,我是肆〇柒。在當(dāng)下,大型語言模型(LLM)憑借其強(qiáng)大的語言理解和生成能力,在眾多領(lǐng)域展現(xiàn)出了巨大的潛力。然而,盡管 LLM 在處理常規(guī)任務(wù)時(shí)表現(xiàn)出色,但在面對(duì)復(fù)雜推理任務(wù)時(shí),卻常常暴露出明顯的短板。

例如,在解決數(shù)學(xué)問題時(shí),LLM 需要進(jìn)行多步邏輯推理和精確的數(shù)值計(jì)算,但在這一過程中,模型往往會(huì)因?yàn)檫壿嬫湕l的斷裂或計(jì)算步驟的遺漏而導(dǎo)致錯(cuò)誤答案。類似的情況也出現(xiàn)在邏輯推理和創(chuàng)造性寫作等任務(wù)中。為了克服這一難題,研究者們提出了 Chain-of-Thought(CoT)推理方法。CoT 方法通過引導(dǎo)模型逐步輸出中間推理步驟,最終得出答案,從而顯著提升了模型在復(fù)雜任務(wù)中的表現(xiàn)。相關(guān)實(shí)驗(yàn)表明,在采用 CoT 方法后,LLM 在數(shù)學(xué)問題求解等復(fù)雜任務(wù)上的準(zhǔn)確率得到了顯著提升。

然而,CoT 推理方法并非完美無缺。其主要問題在于,無論查詢的復(fù)雜程度如何,CoT 都會(huì)生成 lengthy 的推理步驟,這導(dǎo)致了巨大的計(jì)算成本和低下的運(yùn)行效率。例如,對(duì)于簡單的算術(shù)問題 “1+1=?” 或者一些簡單的事實(shí)性查詢,CoT 方法依然會(huì)啟動(dòng)復(fù)雜的推理過程,這無疑是對(duì)計(jì)算資源的浪費(fèi)。這種無差別的推理觸發(fā)機(jī)制,使得 LLM 在實(shí)際應(yīng)用場景中面臨著巨大的推理成本壓力,限制了其在資源敏感型環(huán)境下的廣泛應(yīng)用。

圖片

針對(duì)上述問題,我在瀏覽論文的時(shí)候,發(fā)現(xiàn)了字節(jié)跳動(dòng)的一篇關(guān)于模型自適應(yīng)思考的框架,叫 AdaCoT。它通過將自適應(yīng)推理觸發(fā)機(jī)制與強(qiáng)化學(xué)習(xí)相結(jié)合,實(shí)現(xiàn)了在模型性能和 CoT 調(diào)用成本之間的有效平衡。AdaCoT 框架的核心思想是根據(jù)查詢的復(fù)雜程度,智能地決定是否啟動(dòng) CoT 推理過程,從而在保證復(fù)雜任務(wù)高性能的同時(shí),大幅降低簡單查詢的推理成本。字節(jié)的論文在今年之前很少見到,最近倒是讀到好幾篇。下面我們一起來看看字節(jié)這篇介紹 AdaCoT 的論文都說了什么。

相關(guān)工作回顧

CoT 推理的發(fā)展歷程

CoT 推理方法自提出以來,便在人工智能領(lǐng)域引起了廣泛關(guān)注。早期的 LLM 在處理復(fù)雜任務(wù)時(shí),往往直接生成最終答案,忽略了中間推理過程,這導(dǎo)致模型在面對(duì)多步邏輯推理任務(wù)時(shí)容易出錯(cuò)。而 CoT 方法的出現(xiàn),徹底改變了這一局面。通過模仿人類解決問題時(shí)的逐步思考過程,CoT 方法引導(dǎo)模型先輸出中間推理步驟,再得出最終答案。這一創(chuàng)新方法在多個(gè)復(fù)雜任務(wù)中展現(xiàn)出了顯著的優(yōu)勢。

在數(shù)學(xué)推理領(lǐng)域,CoT 方法通過引導(dǎo)模型進(jìn)行分步計(jì)算和邏輯推理,大幅提升了模型在解決算術(shù)問題、代數(shù)方程求解、幾何證明等任務(wù)上的準(zhǔn)確率。例如,在某項(xiàng)關(guān)于數(shù)學(xué)問題求解的研究中,采用 CoT 方法后,模型的準(zhǔn)確率從 60% 提升至 85%。同樣,在邏輯推理任務(wù)中,CoT 方法幫助模型更好地梳理邏輯鏈條,避免了因中間步驟缺失而導(dǎo)致的錯(cuò)誤。在創(chuàng)造性寫作任務(wù)中,CoT 方法使得模型能夠先構(gòu)思故事大綱、角色設(shè)定等關(guān)鍵要素,再逐步展開情節(jié)創(chuàng)作,從而生成更加連貫、富有邏輯性的作品。

此外,CoT 方法還在自然語言推理、代碼生成與調(diào)試、多輪對(duì)話等眾多領(lǐng)域展現(xiàn)出了廣泛的應(yīng)用前景。隨著研究的不斷深入,CoT 方法也在不斷進(jìn)化。從最初的簡單分步提示,到后來結(jié)合多種提示策略和優(yōu)化方法,CoT 方法在提升模型性能方面取得了顯著進(jìn)展。例如,研究者們提出了多種改進(jìn)的 CoT 方法,如通過引入多種角度的提示信息、采用動(dòng)態(tài)調(diào)整提示策略等,使得模型在不同任務(wù)中的表現(xiàn)更加出色。

然而,盡管 CoT 方法在提升模型性能方面取得了巨大成功,但其高計(jì)算成本和低效率問題也日益凸顯。尤其是在處理大規(guī)模數(shù)據(jù)和實(shí)時(shí)性要求較高的應(yīng)用場景中,CoT 方法的這一缺點(diǎn)成為了限制其進(jìn)一步發(fā)展的瓶頸。

現(xiàn)有 CoT 優(yōu)化方法的局限性剖析

為了降低 CoT 推理的計(jì)算成本,研究者們提出了多種優(yōu)化方法。這些方法大致可以分為以下幾類:

1. 縮短 CoT 長度 :一些方法試圖通過限制推理步驟的數(shù)量或者優(yōu)化推理路徑來縮短 CoT 的長度。例如,通過設(shè)定最大推理步數(shù)限制,或者采用啟發(fā)式搜索算法尋找更短的推理路徑。然而,這些方法往往在縮短長度的同時(shí),可能會(huì)導(dǎo)致推理過程的不完整性,進(jìn)而影響模型的準(zhǔn)確率。例如,在某項(xiàng)實(shí)驗(yàn)中,當(dāng)將推理步驟限制在 3 步以內(nèi)時(shí),模型在復(fù)雜數(shù)學(xué)問題求解任務(wù)上的準(zhǔn)確率下降了 20%。

2. 調(diào)整輸出結(jié)構(gòu) :另一些方法通過對(duì) CoT 輸出結(jié)構(gòu)進(jìn)行調(diào)整來降低計(jì)算成本。例如,采用分層輸出結(jié)構(gòu),將關(guān)鍵推理步驟提取出來,減少冗余信息。但這種方法在處理復(fù)雜多變的查詢時(shí),可能會(huì)因?yàn)檩敵鼋Y(jié)構(gòu)的固定而無法適應(yīng)不同的推理需求,導(dǎo)致模型在某些場景下的性能受限。

3. 使用顯式指令或選擇機(jī)制 :還有一些方法通過給模型提供顯式的指令或者設(shè)計(jì)特定的選擇機(jī)制來控制 CoT 的使用。例如,在查詢中明確指示模型是否需要進(jìn)行詳細(xì)推理,或者根據(jù)預(yù)定義的規(guī)則選擇是否啟動(dòng) CoT。然而,這些方法往往需要人工干預(yù)或者對(duì)查詢進(jìn)行預(yù)分類,缺乏自動(dòng)化和自適應(yīng)的能力。在實(shí)際應(yīng)用中,查詢的復(fù)雜性和多樣性使得人工預(yù)分類變得不切實(shí)際,而預(yù)定義規(guī)則又難以適應(yīng)各種不同的情況。

綜上所述,現(xiàn)有的 CoT 優(yōu)化方法在適應(yīng)查詢復(fù)雜性變化、動(dòng)態(tài)調(diào)整推理深度等方面存在明顯的局限性。它們無法根據(jù)查詢的具體復(fù)雜程度智能地決定是否啟動(dòng) CoT 推理過程,從而在模型性能和計(jì)算成本之間實(shí)現(xiàn)最佳平衡。這些局限性為 AdaCoT 框架的提出提供了充分的對(duì)比依據(jù)和研究空間。

AdaCoT 框架

核心思想與目標(biāo)定位

AdaCoT 框架的核心思想是將自適應(yīng)推理觸發(fā)視為一個(gè)多目標(biāo)優(yōu)化問題。在這一框架下,模型需要在兩個(gè)相互競爭的目標(biāo)之間找到最佳平衡:一是最大化模型性能,即提高對(duì)復(fù)雜查詢的推理準(zhǔn)確率;二是最小化 CoT 使用成本,即降低對(duì)簡單查詢的推理資源消耗。為了實(shí)現(xiàn)這一目標(biāo),AdaCoT 框架采用了 Pareto 優(yōu)化理論作為其理論基礎(chǔ)。

Pareto 優(yōu)化是一種在多目標(biāo)優(yōu)化問題中尋找最優(yōu)解的方法。在 AdaCoT 框架中,通過構(gòu)建合適的優(yōu)化模型,將模型性能和 CoT 使用成本作為兩個(gè)優(yōu)化目標(biāo),尋求在不同目標(biāo)之間達(dá)到 Pareto 前沿的解決方案。具體來說,AdaCoT 框架通過定義模型性能指標(biāo)和 CoT 使用成本指標(biāo),構(gòu)建了一個(gè)多目標(biāo)優(yōu)化函數(shù),并利用強(qiáng)化學(xué)習(xí)方法來動(dòng)態(tài)調(diào)整模型的推理觸發(fā)決策邊界。

AdaCoT 框架的目標(biāo)是使得模型能夠在面對(duì)不同復(fù)雜程度的查詢時(shí),自適應(yīng)地觸發(fā) CoT 推理過程。對(duì)于復(fù)雜查詢,模型將啟動(dòng)詳細(xì)的推理步驟,以確保準(zhǔn)確的答案;而對(duì)于簡單查詢,則直接給出答案,避免不必要的推理開銷。通過這種方式,AdaCoT 框架是為了實(shí)現(xiàn)模型性能和計(jì)算成本之間的最佳平衡,從而提高 LLM 在實(shí)際應(yīng)用中的效率和經(jīng)濟(jì)性。

訓(xùn)練流程解析

1. 數(shù)據(jù)準(zhǔn)備與有監(jiān)督微調(diào)(SFT)

在數(shù)據(jù)準(zhǔn)備階段,AdaCoT 框架采用了一個(gè)輔助模型來對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注。這個(gè)輔助模型基于一組預(yù)定義的原則,如查詢復(fù)雜性、預(yù)期推理深度和領(lǐng)域等,對(duì)查詢進(jìn)行評(píng)估,判斷其是否需要 CoT 推理。具體來說,輔助模型會(huì)分析查詢的結(jié)構(gòu)、涉及的知識(shí)領(lǐng)域、可能的推理步驟等因素,將查詢標(biāo)記為 “需要 CoT 推理” 或 “不需要 CoT 推理”。

例如,對(duì)于一個(gè)數(shù)學(xué)方程求解的查詢,輔助模型會(huì)根據(jù)方程的類型、變量數(shù)量、運(yùn)算復(fù)雜性等因素,判斷其需要多步推理過程,從而標(biāo)記為 “需要 CoT 推理”。而對(duì)于一個(gè)簡單的事實(shí)性查詢,如 “誰是美國第一任總統(tǒng)?”,則會(huì)被標(biāo)記為 “不需要 CoT 推理”。

基于這些標(biāo)注結(jié)果,SFT 數(shù)據(jù)集被構(gòu)建為兩種結(jié)構(gòu)。對(duì)于需要 CoT 推理的查詢,其對(duì)應(yīng)的響應(yīng)將包含完整的推理過程,格式為 “think”reasoning_steps”/think”answer”。而對(duì)于不需要 CoT 推理的查詢,響應(yīng)則省略了明確的推理過程,格式為 “think”/think”answer”。

SFT 階段的訓(xùn)練過程類似于傳統(tǒng)的監(jiān)督學(xué)習(xí)。模型通過學(xué)習(xí) SFT 數(shù)據(jù)集中的輸入 - 輸出對(duì),初步建立起對(duì) CoT 推理適用場景的認(rèn)知。這一階段的訓(xùn)練使模型能夠根據(jù)輸入查詢的特征,初步判斷是否需要啟動(dòng) CoT 推理過程,并生成相應(yīng)的響應(yīng)格式。SFT 階段的訓(xùn)練對(duì)于模型的性能提升具有基礎(chǔ)性作用,它為后續(xù)的強(qiáng)化學(xué)習(xí)階段提供了良好的初始化。

為了評(píng)估 SFT 階段的訓(xùn)練效果,研究者們采用了一系列評(píng)估指標(biāo),如準(zhǔn)確率、F1 分?jǐn)?shù)、召回率和精確率等。通過在驗(yàn)證集上的測試,可以定量地分析模型在初步 CoT 推理觸發(fā)決策方面的能力。例如,在某次實(shí)驗(yàn)中,經(jīng)過 SFT 階段訓(xùn)練后的模型在驗(yàn)證集上的準(zhǔn)確率達(dá)到 75%,相較于未經(jīng)過 SFT 訓(xùn)練的模型提升了 15 個(gè)百分點(diǎn)。

2. 強(qiáng)化學(xué)習(xí)(RL)階段

強(qiáng)化學(xué)習(xí)階段是 AdaCoT 框架的核心部分。在這一階段,模型通過與環(huán)境的交互,不斷調(diào)整其 CoT 推理觸發(fā)策略,以實(shí)現(xiàn)模型性能和 CoT 使用成本之間的最優(yōu)平衡。

獎(jiǎng)勵(lì)函數(shù)是 RL 階段的關(guān)鍵組成部分。其具體構(gòu)成如下:

  •  Rbase(x, r) :這是基礎(chǔ)獎(jiǎng)勵(lì)部分,用于衡量模型生成的響應(yīng)在質(zhì)量上的優(yōu)劣。它通常基于一些預(yù)定義的評(píng)估指標(biāo),如響應(yīng)的準(zhǔn)確性、相關(guān)性、連貫性等。例如,在數(shù)學(xué)問題求解任務(wù)中,如果模型的最終答案正確,Rbase(x, r) 將獲得較高的分?jǐn)?shù);如果答案錯(cuò)誤,則得分較低。具體的計(jì)算方法可以表示為:

      a.對(duì)于數(shù)學(xué)問題求解任務(wù),Rbase(x, r) = 1(答案正確)或 0(答案錯(cuò)誤)。

      b. 對(duì)于自然語言推理任務(wù),Rbase(x, r) 可以根據(jù)語義相似度計(jì)算,例如采用余弦相似度衡量模型生成的響應(yīng)與參考答案之間的語義相似度,相似度越高,Rbase(x, r) 越高。

      c.對(duì)于創(chuàng)造性寫作任務(wù),Rbase(x, r) 可以通過一些文本質(zhì)量評(píng)估指標(biāo)來確定,如文本的連貫性、豐富度等,采用預(yù)訓(xùn)練的質(zhì)量評(píng)估模型進(jìn)行打分。

  • Pmiss(x, r) :這是一個(gè)二元懲罰項(xiàng),用于對(duì)模型在需要 CoT 推理時(shí)未啟動(dòng) CoT 推理的情況進(jìn)行懲罰。當(dāng)模型面對(duì)復(fù)雜查詢而未能觸發(fā) CoT 推理,導(dǎo)致答案錯(cuò)誤或質(zhì)量低下時(shí),Pmiss(x, r) 將對(duì)模型進(jìn)行懲罰,懲罰力度由懲罰系數(shù) α1 控制。例如,若模型對(duì)一個(gè)需要分步推理的數(shù)學(xué)問題直接給出了錯(cuò)誤答案,則 Pmiss(x, r) = 1,模型將受到懲罰。
  • Pover(x, r) :另一個(gè)二元懲罰項(xiàng),用于對(duì)模型在不需要 CoT 推理時(shí)錯(cuò)誤地啟動(dòng) CoT 推理的情況進(jìn)行懲罰。當(dāng)模型對(duì)簡單查詢啟動(dòng)了不必要的 CoT 推理過程時(shí),Pover(x, r) 將發(fā)揮作用,懲罰系數(shù)為 α2。例如,模型對(duì) “誰是美國第一任總統(tǒng)?” 這類簡單事實(shí)性查詢啟動(dòng)了 CoT 推理,則 Pover(x, r) = 1,模型將受到相應(yīng)的懲罰。
  • Pfmt(r) :用于對(duì)響應(yīng)格式錯(cuò)誤的情況進(jìn)行懲罰。如果模型生成的響應(yīng)不符合預(yù)定義的格式要求,如在需要 CoT 推理時(shí)未正確輸出推理步驟,或者在不需要 CoT 推理時(shí)出現(xiàn)了多余的推理內(nèi)容,Pfmt(r) 將對(duì)模型進(jìn)行懲罰,懲罰系數(shù)為 γ。例如,模型在不需要 CoT 推理時(shí),生成的響應(yīng)中包含了 “think” 標(biāo)簽內(nèi)的多余推理內(nèi)容,則 Pfmt(r) = 1,模型將受到懲罰。

通過調(diào)整懲罰系數(shù) α1、α2 和 γ,可以引導(dǎo)模型在不同查詢復(fù)雜性下探索最優(yōu)的推理策略。例如,當(dāng)增加 α1 的值時(shí),模型將更加傾向于啟動(dòng) CoT 推理過程,以避免因錯(cuò)過 CoT 推理而導(dǎo)致的懲罰;而增加 α2 的值,則會(huì)使模型更加謹(jǐn)慎地啟動(dòng) CoT 推理,避免不必要的推理開銷。

在訓(xùn)練過程中,模型通過不斷地試錯(cuò)和學(xué)習(xí),逐步收斂到 Pareto 前沿的解決方案。具體來說,模型在與環(huán)境交互過程中,根據(jù)當(dāng)前的策略生成響應(yīng),并計(jì)算相應(yīng)的獎(jiǎng)勵(lì)值。然后,模型根據(jù)獎(jiǎng)勵(lì)值對(duì)策略進(jìn)行更新,以期在未來獲得更高的累計(jì)獎(jiǎng)勵(lì)。這一過程反復(fù)進(jìn)行,直到模型的策略在不同查詢復(fù)雜性下達(dá)到最優(yōu)平衡。

為了更詳細(xì)地說明獎(jiǎng)勵(lì)函數(shù)的計(jì)算方法和模型的決策機(jī)制,下面以一個(gè)具體的例子進(jìn)行說明:

假設(shè)我們有一個(gè)數(shù)學(xué)問題求解的查詢:“已知三角形的三邊長分別為 3、4、5,求這個(gè)三角形的面積。” 在訓(xùn)練過程中,模型可能會(huì)嘗試不同的策略:

  • 在某一次嘗試中,模型判斷這是一個(gè)簡單查詢,直接給出了答案 “6”。此時(shí),模型的響應(yīng)不符合 CoT 推理的格式要求(未包含推理步驟),但答案是正確的。在這種情況下,Rbase(x, r) = 1(答案正確),Pfmt(r) = 1(格式錯(cuò)誤),Pmiss(x, r) = 0(模型未觸發(fā) CoT 推理,但答案正確,未造成性能損失),Pover(x, r) = 0(模型未觸發(fā) CoT 推理,符合實(shí)際情況)。根據(jù)獎(jiǎng)勵(lì)函數(shù)公式,模型的總獎(jiǎng)勵(lì)值將受到 Pfmt(r) 的懲罰,模型會(huì)根據(jù)這一懲罰信號(hào)調(diào)整策略,增加對(duì)格式正確性的關(guān)注。
  • 在另一次嘗試中,模型啟動(dòng)了 CoT 推理過程,逐步計(jì)算半周長、應(yīng)用海倫公式等步驟,最終得出了正確答案。這時(shí),模型的響應(yīng)符合 CoT 推理的格式要求,Rbase(x, r) = 1(答案正確),Pfmt(r) = 0(格式正確),Pmiss(x, r) = 0(正確觸發(fā)了 CoT 推理),Pover(x, r) = 0(正確觸發(fā)了 CoT 推理)。模型獲得了較高的總獎(jiǎng)勵(lì)值,從而強(qiáng)化了這一正確的推理觸發(fā)策略。
  • 在又一次嘗試中,模型錯(cuò)誤地對(duì)一個(gè)需要 CoT 推理的復(fù)雜查詢(如一個(gè)需要多步邏輯推理的數(shù)學(xué)證明問題)未觸發(fā) CoT 推理,直接給出了錯(cuò)誤答案。此時(shí),Rbase(x, r) = 0(答案錯(cuò)誤),Pmiss(x, r) = 1(未觸發(fā) CoT 推理導(dǎo)致性能損失),Pfmt(r) = 0(格式符合簡單查詢的要求),Pover(x, r) = 0(未觸發(fā) CoT 推理)。模型的總獎(jiǎng)勵(lì)值較低,模型將根據(jù)這一反饋信號(hào)調(diào)整策略,增加對(duì)復(fù)雜查詢的 CoT 推理觸發(fā)概率。

通過這種方式,模型逐漸學(xué)習(xí)到對(duì)于不同類型的查詢,如何觸發(fā) CoT 推理能夠獲得更高的獎(jiǎng)勵(lì),從而實(shí)現(xiàn)了推理觸發(fā)策略的優(yōu)化。

Selective Loss Masking(SLM)技術(shù)是 RL 階段的另一個(gè)重要?jiǎng)?chuàng)新。在多階段 RL 培訓(xùn)過程中,尤其是在處理具有偏斜 CoT 分布的數(shù)據(jù)集(例如數(shù)學(xué)數(shù)據(jù)集,CoT 推理幾乎總是有益的)時(shí),模型可能會(huì)出現(xiàn)決策邊界崩潰的現(xiàn)象。即模型可能會(huì)退化為始終啟動(dòng)或始終不啟動(dòng) CoT 推理的同質(zhì)化行為,從而失去在早期培訓(xùn)階段學(xué)到的精細(xì)決策能力。

SLM 技術(shù)通過選擇性地屏蔽關(guān)鍵 “決策token” 的損失貢獻(xiàn)來解決這一問題。在 RL 訓(xùn)練過程中,當(dāng)模型的輸出接近決策token(即 “think” 標(biāo)簽)時(shí),SLM 會(huì)暫時(shí)忽略該token的損失計(jì)算。具體來說,SLM 通過以下步驟實(shí)現(xiàn):

  1.  識(shí)別決策token :在模型生成的響應(yīng)序列中,定位到表示 CoT 推理開始的 “think” 標(biāo)簽及其對(duì)應(yīng)的結(jié)束標(biāo)簽 “/think”。這兩個(gè)標(biāo)簽之間的內(nèi)容即為 CoT 推理部分,而 “think” 標(biāo)簽本身是決定是否啟動(dòng) CoT 推理的關(guān)鍵決策token。
  2.  屏蔽損失計(jì)算 :在計(jì)算損失函數(shù)時(shí),對(duì)于決策token “think” 的損失貢獻(xiàn)進(jìn)行屏蔽,即不將其納入總的損失計(jì)算中。這樣,模型在訓(xùn)練過程中不會(huì)因?yàn)閱我粵Q策token的錯(cuò)誤而受到過大的損失影響,從而能夠更好地保持對(duì) CoT 推理觸發(fā)比率和分布的穩(wěn)定性。
  3. 與模型優(yōu)化相結(jié)合 :SLM 技術(shù)與模型的優(yōu)化過程緊密結(jié)合。在每次迭代更新模型參數(shù)時(shí),SLM 確保模型在學(xué)習(xí)其他部分(如 CoT 推理內(nèi)容、最終答案等)的同時(shí),不會(huì)過度擬合于決策token的預(yù)測,從而維持了模型對(duì) CoT 推理觸發(fā)決策的泛化能力。

例如,在數(shù)學(xué)問題求解數(shù)據(jù)集的 RL 訓(xùn)練中,由于大部分查詢都需要 CoT 推理,模型可能會(huì)傾向于總是啟動(dòng) CoT 推理。通過應(yīng)用 SLM 技術(shù),當(dāng)模型在某些簡單查詢上錯(cuò)誤地啟動(dòng) CoT 推理時(shí),SLM 會(huì)屏蔽這一決策token的損失貢獻(xiàn),使得模型能夠有機(jī)會(huì)調(diào)整其策略,而不會(huì)因?yàn)檫@一錯(cuò)誤決策而導(dǎo)致整個(gè)訓(xùn)練過程的偏差過大。實(shí)驗(yàn)結(jié)果顯示,應(yīng)用 SLM 技術(shù)后,模型在保持 CoT 推理觸發(fā)比率方面表現(xiàn)出顯著的穩(wěn)定性提升,其自適應(yīng) CoT 推理觸發(fā)能力得到了有效增強(qiáng)。

實(shí)驗(yàn)評(píng)估

實(shí)驗(yàn)設(shè)置細(xì)化

實(shí)驗(yàn)所用的 LLM 基礎(chǔ)模型是一個(gè)內(nèi)部的 15B/150B 參數(shù)的 Mixture-of-Experts(MoE)模型。MoE 模型是一種高效的模型架構(gòu),通過在不同的輸入數(shù)據(jù)上激活不同的專家網(wǎng)絡(luò),從而在保持模型性能的同時(shí)降低了計(jì)算成本。該模型具有大規(guī)模的參數(shù)量,能夠捕捉復(fù)雜的語言模式和語義信息,為 AdaCoT 框架的實(shí)現(xiàn)提供了強(qiáng)大的基礎(chǔ)支持。

SFT 和 RL 訓(xùn)練數(shù)據(jù)集的構(gòu)建過程經(jīng)過精心設(shè)計(jì),以確保數(shù)據(jù)的多樣性和代表性。數(shù)據(jù)來源廣泛涵蓋了多個(gè)領(lǐng)域,包括數(shù)學(xué)、推理、專業(yè)學(xué)科(如法律、醫(yī)學(xué))、對(duì)話、創(chuàng)造性寫作和一般知識(shí)問答等。這種廣泛的領(lǐng)域覆蓋確保了模型能夠?qū)W習(xí)到不同類型任務(wù)的特征和需求,從而在實(shí)際應(yīng)用中具有更好的適應(yīng)性。

在數(shù)據(jù)集的構(gòu)建過程中,研究者們采用了原則引導(dǎo)的評(píng)估方法對(duì) CoT 必要性進(jìn)行標(biāo)注。具體來說,對(duì)于每個(gè)查詢,輔助模型根據(jù)預(yù)定義的原則(如查詢復(fù)雜性、預(yù)期推理深度、領(lǐng)域等)進(jìn)行評(píng)估,判斷其是否需要 CoT 推理。在 SFT 數(shù)據(jù)集的標(biāo)注過程中,大約 67% 的樣本被標(biāo)記為需要 CoT 推理,而在 RL 數(shù)據(jù)集中,這一比例約為 40%。這種標(biāo)注比例反映了不同數(shù)據(jù)集在查詢復(fù)雜性分布上的差異,同時(shí)也為模型在不同階段的訓(xùn)練提供了合適的指導(dǎo)。

實(shí)驗(yàn)評(píng)估涉及到 15 個(gè)開源基準(zhǔn)數(shù)據(jù)集,這些數(shù)據(jù)集在特性和評(píng)估指標(biāo)上各具特色。例如,MMLU-Pro 數(shù)據(jù)集是一個(gè)增強(qiáng)版的多任務(wù)語言理解基準(zhǔn)測試,專注于復(fù)雜推理問題;SuperGPQA 數(shù)據(jù)集則涵蓋了 285 個(gè)研究生學(xué)科的知識(shí)和推理能力評(píng)估;還有 AIME24 & AIME25 數(shù)據(jù)集,用于評(píng)估數(shù)學(xué)推理和問題解決能力。這些數(shù)據(jù)集從不同角度對(duì)模型的性能進(jìn)行了全面的測試,確保了評(píng)估結(jié)果的可靠性和有效性。

此外,研究者們還精心創(chuàng)建了一個(gè)包含 1000 個(gè)日常使用提示的測試集。這些提示涵蓋了各種類型的查詢,從簡單事實(shí)性問題到復(fù)雜推理任務(wù),具有廣泛的難度分布。為了確保標(biāo)注的準(zhǔn)確性,這些提示的標(biāo)注結(jié)果經(jīng)過了人工驗(yàn)證。通過這種方式,研究者們構(gòu)建了一個(gè)高質(zhì)量的測試集,用于評(píng)估模型在實(shí)際應(yīng)用場景中的自適應(yīng) CoT 推理觸發(fā)性能。

Pareto 前沿深度分析

在 15 個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,AdaCoT RL 模型變體(Exp1-Exp4)在平均得分與 CoT 觸發(fā)率的關(guān)系曲線上,形成了明顯的改進(jìn) Pareto 前沿。與基線模型相比,AdaCoT 模型在不同的懲罰系數(shù)設(shè)置下,實(shí)現(xiàn)了性能和 CoT 成本之間的有效權(quán)衡。

例如,AdaCoT RL Exp2 模型在 53.3% 的 CoT 觸發(fā)率下,達(dá)到了 62.8% 的平均得分,接近全 CoT RL 基線模型(100% CoT 觸發(fā)率,65.0% 平均得分)的性能。這表明 AdaCoT 模型能夠在大幅降低 CoT 使用成本的同時(shí),保持較高的模型性能。而 AdaCoT RL Exp4 模型在 67.7% 的 CoT 觸發(fā)率下,平均得分達(dá)到了 64.4%,進(jìn)一步縮小了與全 CoT RL 基線模型的差距。

通過對(duì)比不同模型的性能表現(xiàn),我們可以更深入地理解 AdaCoT 模型在不同 CoT 觸發(fā)率下的性能變化趨勢。例如,隨著 CoT 觸發(fā)率的增加,模型的平均得分逐漸提高,但提高的幅度逐漸減小。這表明在一定范圍內(nèi),增加 CoT 的使用能夠顯著提升模型性能,但超過某一閾值后,繼續(xù)增加 CoT 使用帶來的性能提升有限。同時(shí),與基線模型相比,AdaCoT 模型在大多數(shù)情況下都能以更低的 CoT 觸發(fā)率實(shí)現(xiàn)相近甚至更高的性能,充分展示了其在性能和成本之間權(quán)衡的優(yōu)勢。

圖片

平均分?jǐn)?shù)與15個(gè)廣泛采用的基準(zhǔn)測試中的CoT觸發(fā)率對(duì)比

在此過程中繪制的模型性能與 CoT 觸發(fā)率關(guān)系圖如上圖所示,不同模型在圖中的位置直觀地體現(xiàn)了它們?cè)谛阅芎统杀局g的平衡狀態(tài)。藍(lán)色點(diǎn)代表基線模型,綠色點(diǎn)代表 AdaCoT SFT 模型,橙色點(diǎn)代表 AdaCoT RL 模型,橙色虛線和陰影區(qū)域展示了相比基線改進(jìn)的 Pareto 前沿,虛線連接了無 CoT RL 基線和全 CoT RL 基線,描繪了一個(gè)更簡單的權(quán)衡曲線。這一圖形化展示有助于讀者迅速把握 AdaCoT 框架相較于傳統(tǒng)方法在多目標(biāo)優(yōu)化上的優(yōu)勢,明晰其在不同觸發(fā)率下性能的相對(duì)位置及改進(jìn)幅度。

自適應(yīng) CoT 觸發(fā)性能評(píng)估

基于日常使用提示測試集的實(shí)驗(yàn)結(jié)果,AdaCoT 模型在不同訓(xùn)練階段的自適應(yīng) CoT 觸發(fā)性能得到了全面評(píng)估。在 SFT 階段,模型的 CoT 觸發(fā)準(zhǔn)確性達(dá)到了 79.5%,F(xiàn)1 分?jǐn)?shù)為 75.0%,召回率為 61.6%,精確率為 95.9%。這些結(jié)果表明,經(jīng)過 SFT 階段的訓(xùn)練,模型已經(jīng)具備了一定的自適應(yīng) CoT 觸發(fā)能力,能夠在大多數(shù)情況下正確判斷是否需要啟動(dòng) CoT 推理過程。

在 RL-Math 階段,未應(yīng)用 SLM 技術(shù)時(shí),模型的性能出現(xiàn)了顯著的退化。其 CoT 觸發(fā)準(zhǔn)確性僅為 50.6%,F(xiàn)1 分?jǐn)?shù)為 66.9%,召回率為 1.0,精確率為 0.503。這表明模型在這一階段幾乎總是啟動(dòng) CoT 推理過程,導(dǎo)致了大量的誤觸發(fā)。然而,當(dāng)應(yīng)用 SLM 技術(shù)后,模型的性能得到了顯著提升。CoT 觸發(fā)準(zhǔn)確性提高到了 81.3%,F(xiàn)1 分?jǐn)?shù)為 78.1%,召回率為 0.670,精確率為 0.938。這一結(jié)果充分證明了 SLM 技術(shù)在穩(wěn)定模型自適應(yīng)觸發(fā)能力方面的重要作用。

在 RL-General 階段,通過調(diào)整懲罰系數(shù) α1 和 α2,模型的決策邊界得到了進(jìn)一步優(yōu)化。例如,AdaCoT RL Model Exp2 在這一階段的 CoT 觸發(fā)準(zhǔn)確性達(dá)到了 81.6%,F(xiàn)1 分?jǐn)?shù)為 81.4%,召回率為 0.804,精確率為 0.823。這些結(jié)果表明,經(jīng)過 RL-General 階段的訓(xùn)練,模型能夠在更廣泛的查詢類型上實(shí)現(xiàn)精確的 CoT 推理觸發(fā)決策。

圖片

不同AdaCoT階段和配置在1000個(gè)日常使用提示測試集上的CoT觸發(fā)表現(xiàn)(正類:需要CoT)。RL-Math是數(shù)學(xué)專項(xiàng)強(qiáng)化學(xué)習(xí)階段;RL-General指的是最終模型

上表展示了不同 AdaCoT 階段和配置在 1000 個(gè)日常使用提示測試集上的 CoT 觸發(fā)性能,其中陽性類別表示需要 CoT。從表中可以看出,隨著訓(xùn)練的推進(jìn)和 SLM 技術(shù)的應(yīng)用,模型的性能指標(biāo)呈現(xiàn)出逐步提升的趨勢,尤其在 RL-General 階段,各模型的準(zhǔn)確率、F1 分?jǐn)?shù)等關(guān)鍵指標(biāo)均達(dá)到了較高水平,直觀地反映了模型自適應(yīng) CoT 觸發(fā)能力的不斷增強(qiáng)過程,為讀者提供了詳細(xì)的性能對(duì)比數(shù)據(jù),有助于深入理解 AdaCoT 框架在不同訓(xùn)練階段的優(yōu)化效果及最終的性能表現(xiàn)。

元推理策略在 SFT 階段的應(yīng)用也取得了顯著的效果。通過在 SFT 階段引入元推理機(jī)制,模型的 F1 分?jǐn)?shù)從 0.750 提高到了 0.840。這一提升表明,元推理策略能夠增強(qiáng)模型對(duì)查詢復(fù)雜性的評(píng)估能力,從而優(yōu)化 CoT 推理觸發(fā)決策。例如,在面對(duì)復(fù)雜查詢時(shí),模型能夠更加準(zhǔn)確地識(shí)別其復(fù)雜性,及時(shí)啟動(dòng) CoT 推理過程;而在面對(duì)簡單查詢時(shí),模型則能夠更加自信地直接給出答案,避免不必要的推理開銷。

圖片

包含明確元推理(meta-reasoning)以用于因果鏈(Chain of Thought,CoT)決策的示例回答結(jié)構(gòu)

上圖展示了包含顯式元推理的響應(yīng)結(jié)構(gòu)示例,這種結(jié)構(gòu)使模型能夠先對(duì)查詢復(fù)雜性進(jìn)行自我評(píng)估,再?zèng)Q定是否進(jìn)行詳細(xì)推理。例如,對(duì)于復(fù)雜查詢,模型先輸出 “這是一個(gè)相對(duì)復(fù)雜的問題,我需要仔細(xì)思考”,隨后展開正式的 CoT 推理;而對(duì)于簡單查詢,則直接判斷 “這是一個(gè)簡單問題,可以直接作答”,然后給出答案。這種響應(yīng)結(jié)構(gòu)的可視化呈現(xiàn),有助于讀者直觀地理解元推理在實(shí)際推理決策中的應(yīng)用方式,清晰地展現(xiàn)了模型如何通過元推理來控制 CoT 的觸發(fā),進(jìn)一步提升了文章的可讀性和技術(shù)細(xì)節(jié)的透明度。

響應(yīng)長度減少與效率提升量化分析

在生產(chǎn)流量測試集上的實(shí)驗(yàn)結(jié)果進(jìn)一步展示了 AdaCoT 模型在實(shí)際應(yīng)用場景中的效率提升效果。以移動(dòng)設(shè)備為例,AdaCoT RL Model Exp2 的平均響應(yīng)token數(shù)為 116.70,相較于全 CoT RL 基線模型的 377.18,減少了 69.1%。同時(shí),CoT 觸發(fā)率也從 100% 降低到了 3.18%。在 PC 端,AdaCoT RL Model Exp2 的平均響應(yīng)token數(shù)為 405.25,相較于全 CoT RL 基線模型的 1376.31,減少了 70.6%,CoT 觸發(fā)率降低到了 12.50%。

圖片

在生產(chǎn)流量測試集上,AdaCoT RL模型Exp2與完整CoT RL基線的平均響應(yīng)token數(shù)(標(biāo)注了減少量)和CoT觸發(fā)率對(duì)比

上表直觀地呈現(xiàn)了 AdaCoT RL Model Exp2 與全 CoT RL 基線模型在生產(chǎn)流量測試集上的平均響應(yīng)token數(shù)及 CoT 觸發(fā)率對(duì)比情況。通過具體數(shù)據(jù)的比較,讀者可以清晰地看到 AdaCoT 模型在實(shí)際應(yīng)用中帶來的顯著效率提升和成本降低效果。這對(duì)于關(guān)注模型部署和運(yùn)營成本的讀者來說,提供了有力的數(shù)據(jù)支持,增強(qiáng)了文章的說服力和實(shí)用性。

這種顯著的響應(yīng)長度減少和 CoT 觸發(fā)率降低,直接轉(zhuǎn)化為計(jì)算成本的大幅降低和系統(tǒng)效率的顯著提升。例如,對(duì)于一個(gè)擁有大量用戶的移動(dòng)應(yīng)用來說,采用 AdaCoT 模型后,服務(wù)器的計(jì)算負(fù)載將大幅減輕,響應(yīng)時(shí)間也將顯著縮短。這不僅能夠降低運(yùn)營成本,還能夠提升用戶體驗(yàn),使應(yīng)用在市場中更具競爭力。

討論與未來工作

設(shè)計(jì)考量與局限性深度剖析

AdaCoT 框架的設(shè)計(jì)理念是在模型性能和推理效率之間實(shí)現(xiàn)平衡。通過結(jié)合原則引導(dǎo)的初始數(shù)據(jù)標(biāo)注與基于 RL 的 CoT 決策邊界優(yōu)化,AdaCoT 能夠根據(jù)查詢的復(fù)雜程度智能地調(diào)整 CoT 推理的觸發(fā)策略。這種設(shè)計(jì)使得 AdaCoT 框架在保證復(fù)雜任務(wù)高性能的同時(shí),大幅降低了簡單查詢的推理成本,從而在整體上提高了 LLM 的效率和經(jīng)濟(jì)性。

然而,AdaCoT 框架也存在一些局限性。首先,其對(duì)不同 LLM 的適配性是一個(gè)需要考慮的問題。由于不同 LLM 的架構(gòu)、參數(shù)規(guī)模和性能特點(diǎn)存在差異,AdaCoT 框架在應(yīng)用于不同的 LLM 時(shí),可能需要進(jìn)行相應(yīng)的調(diào)整和優(yōu)化。例如,對(duì)于一些較小的 LLM,其計(jì)算資源有限,可能需要簡化 AdaCoT 的訓(xùn)練流程,如減少 SFT 和 RL 階段的訓(xùn)練數(shù)據(jù)量、降低模型的參數(shù)更新頻率等,以適應(yīng)其有限的計(jì)算資源。同時(shí),不同 LLM 的架構(gòu)差異也會(huì)影響 AdaCoT 框架的適配性。例如,基于 Transformer 的 LLM 和基于 RNN 的 LLM 在處理序列數(shù)據(jù)和生成響應(yīng)方面存在差異,這可能導(dǎo)致 AdaCoT 框架在不同架構(gòu)的 LLM 上的表現(xiàn)不同。針對(duì)這一問題,可以采用模型架構(gòu)轉(zhuǎn)換方法,將 AdaCoT 框架的關(guān)鍵組件(如 CoT 觸發(fā)決策模塊)適配到不同架構(gòu)的 LLM 中,或者設(shè)計(jì)可調(diào)整的訓(xùn)練超參數(shù),使框架能夠根據(jù)不同 LLM 的特點(diǎn)進(jìn)行自適應(yīng)調(diào)整。

其次,AdaCoT 框架目前采用的是二元 CoT 調(diào)用機(jī)制,即 CoT 推理要么完全啟動(dòng),要么完全不啟動(dòng)。這種簡化方式雖然在一定程度上降低了模型的復(fù)雜性,但也限制了對(duì)推理深度和風(fēng)格的精細(xì)化控制。在實(shí)際應(yīng)用中,不同的查詢可能需要不同程度的推理深度,而 AdaCoT 框架的二元機(jī)制無法滿足這一需求。為了解決這一問題,可以引入多級(jí) CoT 調(diào)用閾值,根據(jù)查詢的復(fù)雜程度動(dòng)態(tài)調(diào)整 CoT 推理的深度。例如,對(duì)于中等復(fù)雜度的查詢,可以啟動(dòng)部分推理步驟,而不是完全啟動(dòng)或關(guān)閉 CoT 推理。此外,還可以采用基于連續(xù)推理深度的調(diào)整策略,通過構(gòu)建一個(gè)連續(xù)的推理深度控制機(jī)制,使模型能夠根據(jù)查詢的復(fù)雜性連續(xù)地調(diào)整推理深度。這些改進(jìn)方法雖然在實(shí)現(xiàn)上具有一定的可行性,但也面臨著一些挑戰(zhàn),如如何確定多級(jí)閾值的具體設(shè)置,如何設(shè)計(jì)連續(xù)推理深度控制機(jī)制以確保模型的穩(wěn)定性和性能等。

此外,領(lǐng)域泛化也是一個(gè)挑戰(zhàn)。不同知識(shí)領(lǐng)域的查詢具有不同的特征和推理需求,而 AdaCoT 框架目前在跨領(lǐng)域適應(yīng)性方面還有待提高。例如,在法律領(lǐng)域和醫(yī)學(xué)領(lǐng)域的查詢可能需要不同的推理策略和知識(shí)背景,AdaCoT 框架需要進(jìn)一步優(yōu)化以更好地適應(yīng)不同領(lǐng)域的查詢特點(diǎn)。為了提高領(lǐng)域泛化能力,可以采用領(lǐng)域自適應(yīng)算法,如在訓(xùn)練數(shù)據(jù)中增加不同領(lǐng)域的樣本比例,設(shè)計(jì)領(lǐng)域特定的特征提取模塊等,使模型能夠更好地捕捉不同領(lǐng)域的查詢特征和推理需求。同時(shí),還可以引入領(lǐng)域?qū)<抑R(shí),通過與領(lǐng)域?qū)<液献鳎瑢?duì)模型的 CoT 推理觸發(fā)策略進(jìn)行領(lǐng)域特定的優(yōu)化,從而提升模型在不同領(lǐng)域的適應(yīng)性。

最后,AdaCoT 框架缺乏對(duì)用戶對(duì)模型冗長偏好個(gè)性化的需求滿足。不同的用戶可能對(duì)模型的回答風(fēng)格和詳細(xì)程度有不同的偏好,而 AdaCoT 框架目前無法根據(jù)用戶的個(gè)性化需求動(dòng)態(tài)調(diào)整 CoT 推理的觸發(fā)策略。這在一定程度上影響了用戶體驗(yàn)和模型的適用范圍。為了解決這一問題,可以開發(fā)用戶偏好自定義功能,通過收集用戶的反饋信息(如用戶對(duì)模型回答的滿意度評(píng)價(jià)、用戶對(duì)回答風(fēng)格的偏好設(shè)置等),構(gòu)建用戶偏好模型。然后,將用戶偏好模型與 AdaCoT 框架相結(jié)合,使模型能夠根據(jù)用戶的個(gè)性化需求動(dòng)態(tài)調(diào)整 CoT 推理的觸發(fā)方式和推理深度,從而提升用戶體驗(yàn)。

圖片

詳細(xì)基準(zhǔn)數(shù)據(jù)集的分?jǐn)?shù)。“TR”表示推理觸發(fā)率(%)

上表列出了各基準(zhǔn)數(shù)據(jù)集上的詳細(xì)測試成績,其中 “TR” 表示推理觸發(fā)率。這些數(shù)據(jù)涵蓋了不同領(lǐng)域的測試結(jié)果,包括數(shù)學(xué)、常識(shí)問答、專業(yè)學(xué)科等多個(gè)方面,反映了 AdaCoT 模型在各類任務(wù)中的性能表現(xiàn)及推理觸發(fā)頻率。通過該表格,讀者可以詳細(xì)了解模型在各個(gè)具體數(shù)據(jù)集上的得分情況,深入分析其優(yōu)勢領(lǐng)域和待提升方向,為后續(xù)研究提供了豐富的數(shù)據(jù)基礎(chǔ)和改進(jìn)參考,有助于全面評(píng)估 AdaCoT 框架的實(shí)際應(yīng)用價(jià)值和廣泛適用性。

元推理在推理決策中的應(yīng)用案例分析

元推理策略在推理決策中的應(yīng)用為 AdaCoT 框架帶來了顯著的優(yōu)勢。以下是一些具體的實(shí)際問答場景案例分析:

案例 1:歷史創(chuàng)意問題

原始問題:“玄武門之變的夜晚,李世民獨(dú)自一人會(huì)寫些什么?”

模型在接收到這一問題后,首先通過元推理機(jī)制快速評(píng)估查詢的復(fù)雜性。它識(shí)別到這是一個(gè)涉及歷史背景、人物心理和創(chuàng)意寫作的復(fù)雜問題。因此,模型決定啟動(dòng) CoT 推理過程,逐步展開對(duì)歷史背景的分析、人物心理的揣摩以及可能的寫作內(nèi)容的構(gòu)思。最終,模型生成了一段詳細(xì)而富有創(chuàng)意的回答,既體現(xiàn)了李世民作為政治家的果斷與謀略,又展現(xiàn)了其作為普通人內(nèi)心的矛盾與不安。

修改后的問題:“直接作答,無需深入思考:玄武門之變的夜晚,李世民獨(dú)自一人會(huì)寫些什么?”

在這一問題中,用戶明確要求模型無需進(jìn)行深入思考。模型通過元推理機(jī)制識(shí)別到這一指令,判斷查詢的復(fù)雜性較低,因此決定不啟動(dòng) CoT 推理過程。模型直接根據(jù)已有的知識(shí)和創(chuàng)意模板,生成了一段簡潔的回答,滿足了用戶對(duì)簡短答案的需求。

案例 2:事實(shí)性問題

原始問題:“世界上最高的山峰是哪座?”

模型在接收到這一問題后,通過元推理機(jī)制迅速判斷這是一個(gè)簡單的事實(shí)性問題。它直接從知識(shí)庫中檢索相關(guān)信息,無需啟動(dòng) CoT 推理過程,快速生成了準(zhǔn)確的答案:“世界上最高的山峰是珠穆朗瑪峰,海拔高度為 8848.86 米。”

修改后的問題:“經(jīng)過仔細(xì)思考后回答:世界上最高的山峰是哪座?”

盡管用戶要求經(jīng)過仔細(xì)思考,但模型通過元推理機(jī)制識(shí)別到這一問題的本質(zhì)仍然是一個(gè)簡單的事實(shí)性查詢。為了滿足用戶對(duì)思考過程的要求,模型在回答中加入了對(duì)不同衡量標(biāo)準(zhǔn)(如海拔高度、從基底到山頂?shù)母叨鹊龋┑暮喴f明,同時(shí)強(qiáng)調(diào)了在常規(guī)地理語境下,珠穆朗瑪峰被公認(rèn)為世界最高峰。通過這種方式,模型在滿足用戶需求的同時(shí),避免了不必要的復(fù)雜推理過程。

保留值性能的實(shí)驗(yàn)驗(yàn)證與分析

通過系統(tǒng)提示(SPs)控制 AdaCoT 的 CoT 推理觸發(fā)行為,研究者們?cè)诙鄠€(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果顯示,當(dāng)明確要求模型始終啟動(dòng) CoT 推理時(shí),AdaCoT 模型的平均得分與專門的始終開啟 CoT 模型相當(dāng),甚至在某些情況下略有超越。

例如,在 AIME24 數(shù)據(jù)集上,AdaCoT RL Model Exp3 在始終開啟 CoT 推理的情況下,平均得分為 88.0,超過了全 CoT RL 基線模型的 84.7。在 AIME25 數(shù)據(jù)集上,AdaCoT RL Model Exp2 的平均得分為 75.7,同樣超過了全 CoT RL 基線模型的 70.0。

圖片

在“始終推理”系統(tǒng)提示與完整CoT強(qiáng)化學(xué)習(xí)基線模型下,AdaCoT強(qiáng)化學(xué)習(xí)模型的表現(xiàn),展現(xiàn)了峰值性能的保持。這些指標(biāo)是在15個(gè)基準(zhǔn)數(shù)據(jù)集上平均得出的

上表展示了在 “始終推理” 系統(tǒng)提示下 AdaCoT RL 模型相較于全 CoT RL 基線的性能表現(xiàn),指標(biāo)為 15 個(gè)基準(zhǔn)數(shù)據(jù)集上的平均得分。從表中可以看出,多數(shù)模型在此提示下的平均得分接近甚至超過基線模型,有力地證明了 AdaCoT 框架在確保模型峰值推理能力方面的有效性,即使在自適應(yīng)觸發(fā)模式下,也能通過特定系統(tǒng)提示恢復(fù)至與始終開啟 CoT 相當(dāng)?shù)男阅芩剑瑸樽x者提供了明確的數(shù)據(jù)支持,增強(qiáng)了對(duì) AdaCoT 框架在關(guān)鍵場景下性能保障能力的信心。

這些結(jié)果表明,AdaCoT 框架在明確要求全面推理時(shí),能夠保留峰值推理能力。這主要得益于 AdaCoT 在訓(xùn)練過程中采用的多樣化數(shù)據(jù)和優(yōu)化策略。通過在訓(xùn)練數(shù)據(jù)中包含非 CoT 示例,模型在學(xué)習(xí)過程中不僅能夠優(yōu)化 CoT 推理的觸發(fā)策略,還能夠提升其對(duì)復(fù)雜推理任務(wù)的處理能力。同時(shí),強(qiáng)化學(xué)習(xí)的優(yōu)化機(jī)制使得模型能夠在不同的推理需求下,靈活調(diào)整其推理策略,從而在保證簡單查詢高效處理的同時(shí),保持對(duì)復(fù)雜任務(wù)的高性能表現(xiàn)。

總結(jié)、展望

通過了解 AdaCoT 框架,我認(rèn)識(shí)到 AdaCoT 框架通過將自適應(yīng)推理觸發(fā)機(jī)制與強(qiáng)化學(xué)習(xí)相結(jié)合,巧妙地解決了大型語言模型(LLM)在復(fù)雜推理任務(wù)中面臨的高成本和低效率問題。它不僅在理論上構(gòu)建了一個(gè)多目標(biāo)優(yōu)化的解決方案,更在實(shí)踐中通過大量實(shí)驗(yàn)驗(yàn)證了其有效性。

從技術(shù)層面來看,AdaCoT 的核心思想是根據(jù)查詢的復(fù)雜程度智能地決定是否啟動(dòng) CoT 推理過程。這種自適應(yīng)的觸發(fā)機(jī)制在保證復(fù)雜任務(wù)高性能的同時(shí),顯著降低了簡單查詢的推理成本。通過 Pareto 優(yōu)化理論和強(qiáng)化學(xué)習(xí)方法的結(jié)合,AdaCoT 框架能夠在模型性能和 CoT 使用成本之間實(shí)現(xiàn)最佳平衡。實(shí)驗(yàn)結(jié)果表明,AdaCoT 模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上的性能表現(xiàn)優(yōu)異,同時(shí)大幅減少了 CoT 的使用頻率,降低了計(jì)算成本。

在了解這個(gè)AdaCoT 框架的過程中,它具有一些亮點(diǎn)特性。它將模型性能和 CoT 使用成本這兩個(gè)相互競爭的目標(biāo)整合到一個(gè)多目標(biāo)優(yōu)化框架中,并利用強(qiáng)化學(xué)習(xí)動(dòng)態(tài)調(diào)整決策邊界。這種設(shè)計(jì)不僅展現(xiàn)了研究者對(duì)問題的深刻洞察,也體現(xiàn)了他們?cè)诩夹g(shù)創(chuàng)新上的能力。此外,Selective Loss Masking(SLM)技術(shù)的引入,有效解決了決策邊界崩潰的問題,進(jìn)一步增強(qiáng)了模型的穩(wěn)定性和性能。

通過對(duì)實(shí)驗(yàn)數(shù)據(jù)和圖表的觀察,我直觀地感受到了 AdaCoT 框架的優(yōu)勢。例如,在 Pareto 前沿分析中,AdaCoT 模型在不同 CoT 觸發(fā)率下的性能表現(xiàn)明顯優(yōu)于基線模型,展示了其在性能和成本之間權(quán)衡的有效性。同時(shí),響應(yīng)長度減少與效率提升的量化分析也讓我看到了 AdaCoT 框架在實(shí)際應(yīng)用中的巨大潛力。它不僅降低了計(jì)算成本,還顯著縮短了響應(yīng)時(shí)間,提升了用戶體驗(yàn)。

當(dāng)然,AdaCoT 框架也存在一些局限性。如何提高其對(duì)不同 LLM 的適配性、探索更精細(xì)的 CoT 調(diào)用機(jī)制、加強(qiáng)領(lǐng)域泛化能力以及滿足用戶個(gè)性化需求,這些都是需要解決的問題。例如,引入多級(jí) CoT 調(diào)用閾值、采用領(lǐng)域自適應(yīng)算法、開發(fā)用戶偏好自定義功能等方法,有望進(jìn)一步提升 AdaCoT 框架的性能和適用性。

總體來看,AdaCoT 框架的研究讓我在技術(shù)層面和研究方法上都受益匪淺。關(guān)于自適應(yīng)思考的文章,之前已發(fā)了兩篇,大家可以選擇對(duì)比著來看。它們分別是《AdaptThink:推理模型的自適應(yīng)思考范式》和《Thinkless框架:讓LLM學(xué)會(huì)“聰明偷懶”的智慧》。各位,看過此文有什么感想?如有其他想法可以在評(píng)論區(qū)留言,我們聊聊。或者加入“覺察流”社區(qū)群,與群里的小伙伴一起學(xué)習(xí)、交流。加入方法,私信回復(fù)“入群”“加群”即可。

參考資料


責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-06-05 06:36:17

2025-06-26 09:06:59

2025-06-03 03:15:00

2025-06-10 02:30:00

智能體ARTIST強(qiáng)化學(xué)習(xí)

2024-09-30 14:40:00

AI強(qiáng)化學(xué)習(xí)框架

2023-07-20 15:18:42

2025-01-26 11:00:00

2025-05-27 15:28:47

模型推理AI

2024-09-29 09:36:31

2022-12-01 08:00:00

2025-05-28 02:40:00

AdaptThink推理模型AI

2023-07-19 16:22:00

Hudi機(jī)器學(xué)習(xí)

2022-12-21 17:27:30

強(qiáng)化學(xué)習(xí)AI

2025-03-21 13:00:54

2022-05-13 12:46:06

開源深度學(xué)習(xí)技術(shù)

2025-04-18 12:25:34

2017-07-14 16:24:48

TensorFlow框架開發(fā)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2024-03-14 14:16:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

免费观看在线综合色| 久久99国内| 一区av在线播放| 久精品国产欧美| 一级片免费网站| 亚洲婷婷在线| 自拍偷拍免费精品| 911亚洲精选| 成人在线中文| 午夜国产精品影院在线观看| 一区二区欧美日韩| 秋霞欧美在线观看| 久久国产人妖系列| 欧美一级片在线播放| 亚洲熟女毛茸茸| 一区二区三区日本久久久| 欧美日本视频在线| 国产又大又硬又粗| 手机在线免费av| 国产精品每日更新| 久久99精品久久久久久三级| 国产免费一区二区三区免费视频| 免费视频一区二区三区在线观看| 麻豆成人在线看| 国产伦精品一区二区三区视频女| 91午夜精品| 欧美一区二区三区不卡| 国产精品igao| 欧美一级鲁丝片| 一卡二卡三卡日韩欧美| 亚洲制服欧美久久| 久草在现在线| 91麻豆免费观看| 国产精品日韩一区二区免费视频| 一区二区三区黄色片| 鲁大师影院一区二区三区| 韩国美女主播一区| 亚洲色图综合区| 99久久夜色精品国产亚洲狼| 亚洲天堂男人的天堂| 国产高清成人久久| av成人资源网| 精品久久一二三区| 免费黄色a级片| 日本亚州欧洲精品不卡| 91精品国产91热久久久做人人| 三上悠亚av一区二区三区| 欧美成人精品三级网站| 日本韩国欧美一区| 亚洲精品乱码久久久久久自慰| 忘忧草在线影院两性视频| 午夜成人免费电影| 欧美在线一区视频| 91福利在线尤物| 亚洲成av人片在www色猫咪| 免费cad大片在线观看| sm国产在线调教视频| 日韩毛片高清在线播放| 日韩欧美精品一区二区| 成人动漫在线免费观看| 日本一区二区成人| 国产麻豆电影在线观看| 成人video亚洲精品| 亚洲欧美日韩系列| 99久久99久久精品| 久久99亚洲网美利坚合众国| 亚洲成人av电影| 国产一区二区视频播放| 在线观看网站免费入口在线观看国内| 欧美性精品220| 日本新janpanese乱熟| 国产精品99久久久久久董美香| 欧美精品色综合| 日韩精品国产一区| 欧美91在线| 国产真人做爰毛片视频直播| 91精品啪在线观看国产60岁| 久久亚洲高清| 性感美女福利视频| 97se亚洲国产综合在线| 欧美二区三区在线| 岛国在线视频免费看| 国产精品久久久久久久久果冻传媒| 一本一道久久a久久精品综合 | 日韩少妇裸体做爰视频| 性高湖久久久久久久久| 国产精品极品尤物在线观看| 一级黄色片在线看| 成人毛片在线观看| 日韩精品第一页| bt在线麻豆视频| 午夜国产不卡在线观看视频| 一区二区三区韩国| 亚洲视频国产| 国产午夜精品一区理论片飘花| 熟女少妇a性色生活片毛片| 国内精品久久久久国产盗摄免费观看完整版 | 韩日欧美一区| 国产精品三级美女白浆呻吟| 亚洲欧美高清视频| 国产视频一区在线观看| 300部国产真实乱| 欧美亚洲大片| 亚洲成人精品视频在线观看| 极品蜜桃臀肥臀-x88av| 91久久综合| 成人福利视频网| 欧美xxx.com| 亚洲动漫第一页| 91pony九色| 精品国产一区二区三区小蝌蚪| 久久99亚洲热视| 欧美激情一区二区三区免费观看| 丁香激情综合国产| 在线看视频不卡| 我爱我色成人网| 亚洲国产99精品国自产| 中文字幕在线观看成人| 免费人成精品欧美精品| 久久久国产精品一区二区三区| 免费a级毛片在线播放| 色婷婷精品大在线视频| 亚洲精品激情视频| 婷婷亚洲最大| 国产精品主播视频| 久久经典视频| 日韩欧美亚洲国产一区| 黄色激情在线观看| 欧美午夜不卡| 91久色国产| 在线电影福利片| 91精品国产综合久久蜜臀| 在线观看亚洲大片短视频| 巨乳诱惑日韩免费av| 久久国产精品 国产精品| 密臀av在线| 欧美不卡一二三| 成人免费黄色小视频| 久久99精品一区二区三区三区| 欧洲亚洲一区二区| 欧美最新精品| 亚洲欧美另类中文字幕| 草久久免费视频| 99在线视频精品| 缅甸午夜性猛交xxxx| 国产精品色呦| 91高清视频在线免费观看| 亚洲美女综合网| 亚洲成人综合视频| 精品无码人妻少妇久久久久久| 欧美体内she精视频在线观看| 99久久国产免费免费| 青青草原av在线| 精品美女在线播放| 国产精品theporn动漫| 成人av资源在线观看| 免费无码毛片一区二三区| av一级亚洲| 欧美一级高清免费播放| 岛国大片在线观看| 欧美日韩亚洲丝袜制服| 精品国产国产综合精品| 国产精品456| 热99这里只有精品| 精品久久91| 成人春色激情网| www欧美xxxx| 亚洲女人天堂视频| 一级黄色大片免费| 亚洲码国产岛国毛片在线| 欧美丰满熟妇bbb久久久| 99精品99| 亚洲激情图片| 日韩精品一区二区三区中文| 韩国三级电影久久久久久| 色哟哟在线观看| 欧美揉bbbbb揉bbbbb| 538任你躁在线精品视频网站| 成人精品一区二区三区中文字幕| 欧美日韩在线中文| 久久精品免费一区二区三区| 国产区二精品视| 亚洲不卡系列| 欧美国产第一页| 免费在线观看污视频| 欧美精选午夜久久久乱码6080| 精品无码m3u8在线观看| 久久久久久久综合日本| 中文字幕一区二区三区四| aa级大片欧美三级| 在线观看欧美亚洲| 欧美一性一交| 91精品在线观看视频| 国产福利片在线观看| 在线播放日韩av| 欧美一级在线免费观看| 欧美亚洲高清一区二区三区不卡| 极品盗摄国产盗摄合集| 国产亚洲综合在线| 稀缺呦国内精品呦| 久久精品久久综合| 无罩大乳的熟妇正在播放| 99精品小视频| 欧美国产视频在线观看| a看欧美黄色女同性恋| 国产精品流白浆视频| 国产理论在线| 欧美插天视频在线播放| 国产福利在线| 日韩成人在线视频观看| 国产同性人妖ts口直男| 91黄视频在线| 国产情侣在线视频| 一区二区三区在线高清| 国产精品成人在线视频| 91女神在线视频| 中文在线字幕观看| 韩国一区二区在线观看| 久久久精品麻豆| 久久久久久久高潮| 免费看又黄又无码的网站| 午夜精品婷婷| 国产又爽又黄ai换脸| 精品美女久久| 免费精品视频一区| 欧美精品密入口播放| 成人综合色站| 亚洲精选av| 波多野结衣精品久久| 国产精品白丝久久av网站| 国产精品天天狠天天看| abab456成人免费网址| 欧美在线观看网站| 天堂а√在线最新版中文在线| 欧美日韩国产二区| 亚洲大胆人体大胆做受1| 久久久91精品国产| 日韩专区在线| 日韩在线激情视频| 日本三级在线视频| 精品激情国产视频| 麻豆视频在线观看免费网站| 在线观看欧美www| 91在线视频免费看| 久久精品免费播放| 最近中文字幕免费mv2018在线| 久久国产一区二区三区| 免费在线观看av片| 久久这里只有精品视频首页| 蜜桃视频网站在线观看| 久久久97精品| 国产蜜臀一区二区打屁股调教| 久久噜噜噜精品国产亚洲综合| 成人性生交大片免费看网站| 午夜精品美女自拍福到在线| 波多野结衣视频一区二区| 91chinesevideo永久地址| 欧美aa在线| 日韩免费在线播放| 青青青国产精品| 91夜夜揉人人捏人人添红杏| 这里视频有精品| 久久人人97超碰人人澡爱香蕉| 免费久久精品| 五月天男人天堂| 黄色日韩在线| 国产l精品国产亚洲区久久| 石原莉奈在线亚洲二区| 天天干天天操天天玩| 国产suv一区二区三区88区| 国产精品麻豆入口| 国产情人综合久久777777| 国产精品视频看看| 亚洲一区二区三区免费视频| 久久久久久久久久免费视频| 91成人国产精品| 国产免费视频一区二区三区| 亚洲精品短视频| 91精彩在线视频| 欧美国产高跟鞋裸体秀xxxhd| 综合毛片免费视频| 91精品久久久久久久久中文字幕| 一区二区三区四区精品视频| 欧美xxxx黑人又粗又长密月 | 91看片淫黄大片91| 中文一区二区| 手机在线国产视频| 97久久久精品综合88久久| 三区四区在线观看| 亚洲国产一区在线观看| 中文字幕在线播放日韩| 精品精品欲导航| 2017亚洲天堂1024| 97香蕉超级碰碰久久免费软件| 国产精品蜜月aⅴ在线| 国产精品我不卡| 99精品美女| 精品久久久久av| 成人小视频在线| 无码人妻精品中文字幕 | 中文字幕你懂的| 亚洲黄色在线观看| 黄色小网站在线观看| 欧美性受xxxx黑人猛交| 国产精品麻豆| 色噜噜一区二区| 国产亚洲精品bv在线观看| 日本一二区免费| 久久久久久久av麻豆果冻| 久久久久久天堂| 欧美精品三级在线观看| 黄色片在线免费看| 性欧美激情精品| 久久久久九九精品影院| 亚洲精品一区国产精品| 亚洲在线视频| 亚洲制服丝袜在线播放| 亚洲欧美国产三级| 在线观看视频二区| 国产亚洲精品久久久久久牛牛 | se在线电影| 欧美最近摘花xxxx摘花| av成人男女| 欧美狂野激情性xxxx在线观| 精品亚洲成a人| youjizz亚洲女人| 色老汉一区二区三区| 日本国产在线| 欧美中文字幕在线播放| 精品三级av| 成年人午夜视频在线观看| 成人综合婷婷国产精品久久蜜臀| 日本精品在线免费观看| 精品视频全国免费看| av网站无病毒在线| 国产精品黄视频| 欧美一区二区三| 一区二区xxx| 国产精品日产欧美久久久久| 中文字幕人妻丝袜乱一区三区| 伊人久久久久久久久久久| av一区在线| 深田咏美在线x99av| 秋霞午夜av一区二区三区| 欧美 日韩 国产 成人 在线观看 | 亚洲欧美黄色片| 久久人人爽人人| 高清一区二区三区| 欧美精品自拍视频| 91色porny在线视频| 波多野结衣国产| 亚洲一区二区国产| 成人在线视频免费| 国产一区一区三区| 国产精品小仙女| 日产亚洲一区二区三区| 日韩精品中文字幕在线播放| 91精品影视| 2025韩国大尺度电影| 国产宾馆实践打屁股91| 国产无码精品视频| 亚洲色图50p| 欧美午夜三级| 国产一二三区在线播放| www.欧美.com| 中文字幕乱码中文字幕| 美日韩在线视频| 噜噜噜狠狠夜夜躁精品仙踪林| 国产日韩一区二区在线观看| 中文字幕一区二区在线播放| 亚洲美女综合网| 国产极品精品在线观看| 999久久久免费精品国产| 波多野结衣网页| 精品国产乱码久久久久久虫虫漫画| 日漫免费在线观看网站| 国产欧美日韩丝袜精品一区| 欧美激情自拍| 亚洲理论片在线观看| 91精品国产综合久久福利| 9765激情中文在线| 四虎一区二区| 国产成都精品91一区二区三| 亚洲第一网站在线观看| 久久综合免费视频| 性欧美lx╳lx╳| 亚洲制服在线观看| 狠狠色狠狠色综合日日五| 精品孕妇一区二区三区| 久久精彩视频| 国产一区二区h| 日日摸天天添天天添破| 久久久精品在线观看| 啪啪亚洲精品| 成年人看片网站| 欧洲亚洲精品在线| 岛国片av在线| 9999在线观看| 久久一留热品黄| 狠狠人妻久久久久久综合麻豆|