大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！精華

發(fā)布于 2024-12-27 14:44

瀏覽

0收藏

最近，像 o1 這樣的慢思考推理系統(tǒng)在解決復(fù)雜推理任務(wù)上表現(xiàn)出色，但核心技術(shù)未公開。研究界想探索其技術(shù)基礎(chǔ)，本文在此背景下展開研究。其重要意義在于提出的框架和方法能有效訓(xùn)練推理模型，在多個(gè)基準(zhǔn)測(cè)試上取得不錯(cuò)效果，有助于推動(dòng)大語言模型在復(fù)雜推理領(lǐng)域的發(fā)展，縮小與行業(yè)領(lǐng)先系統(tǒng)的差距，且研究資源公開，利于后續(xù)進(jìn)一步研究和合作。

解讀

本文旨在復(fù)現(xiàn)類似 o1 的慢思考推理系統(tǒng)，提出“模仿、探索和自我改進(jìn)”框架。首先通過蒸餾長格式思維數(shù)據(jù)微調(diào)模型以啟動(dòng)慢思考模式，接著讓模型探索難題生成多輪結(jié)果以找到高質(zhì)量解題軌跡，最后利用探索所得軌跡迭代優(yōu)化訓(xùn)練數(shù)據(jù)集實(shí)現(xiàn)自我提升。在 MATH-OAI、AIME 和 GPQA 三個(gè)基準(zhǔn)測(cè)試上的實(shí)驗(yàn)表明，該方法性能與行業(yè)推理系統(tǒng)相比具有競(jìng)爭力，如基于蒸餾的 3900 例訓(xùn)練變體在部分測(cè)試中表現(xiàn)突出，探索和自我改進(jìn)方法在使用 1100 例蒸餾數(shù)據(jù)時(shí)也有良好效果。

研究背景：慢思考推理系統(tǒng)如 o1 在解決復(fù)雜推理任務(wù)上表現(xiàn)突出，但因其由工業(yè)界開發(fā)維護(hù)，技術(shù)細(xì)節(jié)未公開，研究界雖積極探索復(fù)現(xiàn)但現(xiàn)有研究存在局限，如局限于特定領(lǐng)域或基礎(chǔ)模型較弱。此前作者團(tuán)隊(duì)也有相關(guān)研究但遇到如獎(jiǎng)勵(lì)模型泛化性差、推理耗時(shí)、無法實(shí)現(xiàn)訓(xùn)練時(shí)縮放等問題，在此背景下開展本次研究。
技術(shù)創(chuàng)新：

a.提出“模仿、探索和自我改進(jìn)”的全新框架來訓(xùn)練推理模型，區(qū)別于以往復(fù)雜的獎(jiǎng)勵(lì)模型和樹搜索算法，通過簡單有效的方式提升模型性能。

b.采用蒸餾 o1 類似系統(tǒng)的長格式思維數(shù)據(jù)構(gòu)建數(shù)據(jù)集，并進(jìn)行數(shù)據(jù)混合與預(yù)處理，確保數(shù)據(jù)質(zhì)量和多樣性，有效引導(dǎo)模型學(xué)習(xí)慢思考推理。

c.在自我改進(jìn)階段應(yīng)用監(jiān)督微調(diào)與直接偏好優(yōu)化相結(jié)合的方法，并通過迭代優(yōu)化訓(xùn)練數(shù)據(jù)，利用探索生成的高質(zhì)量軌跡提升模型能力。

實(shí)現(xiàn)設(shè)計(jì)：

a.模仿學(xué)習(xí)：從 DeepSeek - R1 - Lite - Preview 和 QwQ - 32B - preview 等系統(tǒng)收集長格式思維數(shù)據(jù)，統(tǒng)一格式并混合不同領(lǐng)域及難度問題數(shù)據(jù)后進(jìn)行預(yù)處理，再用監(jiān)督微調(diào)訓(xùn)練 Qwen2.5 - 32B - Instruct 模型，使其遵循慢思考輸出格式。

b.探索與自我改進(jìn)：讓模型對(duì)難題多次生成候選軌跡收集正確答案進(jìn)行探索；迭代優(yōu)化訓(xùn)練數(shù)據(jù)，從外部系統(tǒng)蒸餾數(shù)據(jù)開始，不斷納入新軌跡并過濾；通過監(jiān)督微調(diào)（以長度和困惑度篩選數(shù)據(jù)）和直接偏好優(yōu)化（選擇合適正負(fù)實(shí)例）方法利用探索數(shù)據(jù)提升模型，同時(shí)考慮在未來用強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化。

實(shí)驗(yàn)結(jié)果：

a.與行業(yè)系統(tǒng)對(duì)比：在 MATH - OAI、AIME、GPQA 基準(zhǔn)測(cè)試上，行業(yè)級(jí)慢思考推理系統(tǒng)性能優(yōu)異，本文基于蒸餾的 3900 例訓(xùn)練變體接近行業(yè)水平，如在 AIME 上達(dá)到 46.7%準(zhǔn)確率，MATH - OAI 上達(dá) 90.2%準(zhǔn)確率。

b.不同訓(xùn)練方法對(duì)比：迭代訓(xùn)練變體也有成效，如在 AIME 上結(jié)合探索和自我改進(jìn)使性能從 33.3%提升到 40.0%及以上；數(shù)據(jù)混合實(shí)驗(yàn)表明難題數(shù)據(jù)和多領(lǐng)域數(shù)據(jù)對(duì)提升性能重要；DPO 訓(xùn)練中僅對(duì)齊思維過程有較好效果且 SFT 損失在某些設(shè)置下影響不大。

近年來，類似于 OpenAI 的 o1 等慢思考（slow-thinking）推理系統(tǒng)在解決復(fù)雜推理任務(wù)方面展現(xiàn)了卓越的能力。這些系統(tǒng)在回答查詢之前，經(jīng)過較長時(shí)間的思考與推理，能夠生成更加全面、準(zhǔn)確且有理有據(jù)的解決方案。然而，這些系統(tǒng)主要由工業(yè)界開發(fā)和維護(hù)，其核心技術(shù)尚未公開披露。因此，越來越多的研究工作開始致力于探索這些強(qiáng)大推理系統(tǒng)背后的技術(shù)基礎(chǔ)。在此背景下，我們的團(tuán)隊(duì)致力于實(shí)現(xiàn)類似于 o1 的推理系統(tǒng)，希望開發(fā)一個(gè)技術(shù)開放的慢思考推理模型。本文介紹了我們?cè)趶?fù)現(xiàn) o1 類推理系統(tǒng)方面的研究進(jìn)展，提出了一個(gè) “模仿、探索和自我提升” 的框架，作為訓(xùn)練推理模型的主要技術(shù)手段。在本工作中，我們僅使用 1100 條蒸餾的長思維鏈數(shù)據(jù)作為種子數(shù)據(jù)，通過自我探索與改進(jìn)就能夠取得不錯(cuò)的效果: 在非常困難的數(shù)學(xué)奧林匹克數(shù)據(jù)集 AIME 達(dá)到了 46.7 的評(píng)分，在 MATH-OAI 上也達(dá)到了 87.4 的評(píng)分，在跨學(xué)科 GPQA 上也取得了 53.0 的評(píng)分。

1. 背景

慢思考推理系統(tǒng)通過在回答用戶查詢之前進(jìn)行深入的內(nèi)部推理，能夠有效解決復(fù)雜的推理任務(wù)。這種方法不同于傳統(tǒng)的鏈?zhǔn)剿季S（chain-of-thought）推理，它允許模型在更長的時(shí)間內(nèi)進(jìn)行深度思考，并利用更多的計(jì)算資源來推演，從而生成更為復(fù)雜和細(xì)致的推理步驟。此類能力在解決數(shù)學(xué)問題、編程挑戰(zhàn)和邏輯推理等任務(wù)中尤為突出。

然而，由于工業(yè)界對(duì)這些系統(tǒng)的核心技術(shù)細(xì)節(jié)通常保密，學(xué)術(shù)界在再現(xiàn)這些系統(tǒng)時(shí)面臨著諸多挑戰(zhàn)。現(xiàn)有的研究大多局限于特定領(lǐng)域（如數(shù)學(xué)領(lǐng)域），或基于相對(duì)較弱的基礎(chǔ)模型，導(dǎo)致所實(shí)現(xiàn)的系統(tǒng)在性能上與工業(yè)級(jí)系統(tǒng)相比存在明顯差距。因此，開發(fā)一個(gè)技術(shù)開放的 o1 類推理系統(tǒng)，仍然是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。

2. 研究方法

為了實(shí)現(xiàn)這一目標(biāo)，我們提出了一個(gè)“模仿、探索與自我提升”的三階段訓(xùn)練框架。該框架旨在通過訓(xùn)練模型模仿長思維鏈中的思考模式，鼓勵(lì)模型在面對(duì)具有挑戰(zhàn)性的問題時(shí)進(jìn)行深入探索，并通過迭代改進(jìn)訓(xùn)練數(shù)據(jù)，不斷提升模型的推理能力。

大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！-AI.x社區(qū)

2.1. 模仿（Imitate）

在初始階段，我們通過收集和整理長思維鏈數(shù)據(jù)，對(duì)模型進(jìn)行微調(diào)，使其能夠在回答問題之前，生成詳細(xì)的內(nèi)部推理步驟。這些思維過程包括規(guī)劃、分而治之、自我修正、總結(jié)和回溯等復(fù)雜的推理行為。

為了構(gòu)建這樣的訓(xùn)練數(shù)據(jù)，我們采用了數(shù)據(jù)蒸餾的方法，從現(xiàn)有的 o1 類推理系統(tǒng)（如和）中提取關(guān)于Math，Code，Science，Puzzle領(lǐng)域的長思維鏈。這些數(shù)據(jù)經(jīng)過預(yù)處理后，作為模型的訓(xùn)練數(shù)據(jù)，幫助模型學(xué)習(xí)如何按照指定的格式生成長思維鏈和最終的解決方案。

大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！-AI.x社區(qū)

2.2. 探索（Explore）

僅僅通過模仿，模型可能還不足以處理具有挑戰(zhàn)性的問題。為此，我們鼓勵(lì)模型在困難的問題上進(jìn)行探索，生成多個(gè)可能的解答路徑（稱為“軌跡”）。通過生成多樣化的解答，模型有更大的機(jī)會(huì)找到正確的解決方案。

在實(shí)踐中，我們采用了簡單的搜索策略，對(duì)每個(gè)問題生成多個(gè)解答軌跡，直到找到包含正確答案的解答。隨著生成的軌跡數(shù)量增加，我們可以收集到更多高質(zhì)量的解答，這些解答也有助于進(jìn)一步提升模型的能力。

2.3. 自我提升（Self-Improve）

最后，我們利用模型在探索過程中獲得的正確軌跡，進(jìn)一步強(qiáng)化其推理能力。通過不斷將新的高質(zhì)量解答融入訓(xùn)練數(shù)據(jù)，模型能夠在每次迭代中改進(jìn)自身，特別是在處理復(fù)雜任務(wù)時(shí)，表現(xiàn)出更為卓越的推理能力。

在這個(gè)階段，我們采用了兩種優(yōu)化方法來進(jìn)一步提升模型的推理能力。一是繼續(xù)進(jìn)行監(jiān)督微調(diào)（SFT），利用模型生成的高質(zhì)量解答作為訓(xùn)練數(shù)據(jù)，幫助模型不斷優(yōu)化其生成能力；二是采用直接偏好優(yōu)化（DPO），通過比較高質(zhì)量與低質(zhì)量解答之間的差異，指導(dǎo)模型學(xué)習(xí)更加優(yōu)越的生成策略，從而提高其解答質(zhì)量和推理效果。

3.實(shí)驗(yàn)設(shè)計(jì)

3.1 實(shí)驗(yàn)設(shè)置

為了驗(yàn)證我們方法的有效性，我們?cè)谌齻€(gè)具有挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)：

MATH-OAI：包含500道數(shù)學(xué)競(jìng)賽題目，來源于 MATH 測(cè)試集。
AIME：由30道難度較高的數(shù)學(xué)問題組成，專為挑戰(zhàn)頂尖高中生的解決問題能力而設(shè)計(jì)。
GPQA：包含198道生物、物理和化學(xué)領(lǐng)域的選擇題。

由于在多個(gè)評(píng)測(cè)中表現(xiàn)優(yōu)異，能夠提供出色的推理能力，我們選擇了該模型作為基礎(chǔ)模型。為了與工業(yè)級(jí)系統(tǒng)進(jìn)行全面比較，我們將我們的模型與幾款領(lǐng)先的 o1 類模型進(jìn)行了對(duì)比，包括、和。

3.2 實(shí)驗(yàn)結(jié)果

大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！-AI.x社區(qū)

工業(yè)界慢思考推理系統(tǒng)在三個(gè)基準(zhǔn)測(cè)試中都取得了優(yōu)異的表現(xiàn)，尤其在最具挑戰(zhàn)性的基準(zhǔn)測(cè)試 AIME 上改進(jìn)顯著。總體而言，o1-preview 表現(xiàn)出更均衡的性能，而和在數(shù)學(xué)領(lǐng)域表現(xiàn)更好。這些結(jié)果表明慢思考在增強(qiáng) LLM 的復(fù)雜推理能力方面的有效性。
使用經(jīng)過預(yù)處理后從和獲得的 3.9k 個(gè)蒸餾實(shí)例進(jìn)行SFT后，我們的方法在 AIME 上實(shí)現(xiàn)了 46.7% 的準(zhǔn)確率，在 MATH-OAI 上實(shí)現(xiàn)了 90.2% 的準(zhǔn)確率（表2第二部分的第一組）。同時(shí)，訓(xùn)練數(shù)據(jù)從 1.1k 增加到 3.9k 帶來的效果表明，增加高質(zhì)量數(shù)據(jù)的數(shù)量可以有效提高模型性能（表2第二部分的第一組）。
我們方法的迭代訓(xùn)練變體（表2第二部分中的第二組和第三組）也可以在三個(gè)基準(zhǔn)上取得令人滿意的結(jié)果。使用帶有 SFT 1.1k 的變體作為參考，我們觀察到結(jié)合探索和自我改進(jìn)可以有效提高性能，例如，MATH-OAI 的性能從 86.0% 提高到 89.8%，AIME 的性能從 33.3% 提高到 46.7%。

3.3 進(jìn)一步分析

3.3.1 關(guān)于模仿學(xué)習(xí)

大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！-AI.x社區(qū)

去除困難數(shù)學(xué)問題會(huì)顯著降低模型的表現(xiàn)，特別是在 AIME 這一最具挑戰(zhàn)性的基準(zhǔn)上。這表明困難問題對(duì)于提升推理模型的能力至關(guān)重要，尤其是在需要較長思考過程的情況下。
僅使用數(shù)學(xué)數(shù)據(jù)（不包含其他領(lǐng)域數(shù)據(jù)）有助于提升 AIME 的性能，但對(duì) MATH-OAI 和 GPQA 的性能有負(fù)面影響。

3.3.2 關(guān)于DPO

大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！-AI.x社區(qū)

僅使用 Thought 的實(shí)驗(yàn)表現(xiàn)出較為積極的結(jié)果。可能的原因是思考過程是學(xué)習(xí)的核心部分，一旦思考過程得到很好的建立，LLM 能夠容易地生成相應(yīng)的解決方案。
當(dāng)同時(shí)使用 Thought 和 Solution 時(shí)，SFT 損失對(duì)優(yōu)化似乎沒有正面影響，這可能是因?yàn)榻鉀Q方案已經(jīng)在 DPO 訓(xùn)練過程中得到了整合。

4. 研究意義

4.1. 核心貢獻(xiàn)

我們提出了一個(gè)簡單而有效的三階段訓(xùn)練框架，通過“模仿、探索和自我提升”來訓(xùn)練模型，實(shí)現(xiàn)了類似 o1 的慢思考推理能力。
我們證明了長思維鏈在跨領(lǐng)域的可遷移性，即使只在數(shù)學(xué)領(lǐng)域進(jìn)行訓(xùn)練，模型也能在科學(xué)和其他領(lǐng)域展示出色的推理能力。
我們給出了一個(gè)開放技術(shù)細(xì)節(jié)的類 o1 系統(tǒng)實(shí)現(xiàn)方法，在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集上取得了與工業(yè)級(jí)系統(tǒng)相當(dāng)?shù)男阅堋?/li>

4.2. 研究意義

我們的研究表明，通過適當(dāng)?shù)挠?xùn)練策略和數(shù)據(jù)選擇，大語言模型能夠有效地生成長思維鏈，從而解決復(fù)雜的推理任務(wù)，這有助于推動(dòng)開源社區(qū)的相關(guān)研究。

此外，我們的方法不依賴復(fù)雜的獎(jiǎng)勵(lì)模型或顯式的樹搜索算法，使得實(shí)現(xiàn)過程更加簡單高效，這為未來在更多領(lǐng)域和更大規(guī)模上訓(xùn)練類似的推理系統(tǒng)提供了可行的途徑。

4.3. 未來方向

在未來的研究中，我們計(jì)劃：

擴(kuò)展探索的規(guī)模：增加模型在探索階段的規(guī)模，以更全面地提升模型能力。
豐富訓(xùn)練數(shù)據(jù)：通過引入更多領(lǐng)域和難度級(jí)別的高質(zhì)量數(shù)據(jù)，進(jìn)一步增強(qiáng)模型的泛化能力。

5.總結(jié)

本文介紹了我們?cè)趯?shí)現(xiàn) o1 類慢思考推理系統(tǒng)方面的研究進(jìn)展，提出了一個(gè)“模仿、探索和自我提升”的訓(xùn)練框架。通過實(shí)驗(yàn)驗(yàn)證，我們的方法在多個(gè)具有挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集上取得了優(yōu)異的性能，證明了其有效性和巨大潛力。我們的主要發(fā)現(xiàn)可以概括為以下幾點(diǎn)：

通過使用少量高質(zhì)量的演示數(shù)據(jù)，可以有效激發(fā) LLM 進(jìn)行慢思考的能力。一旦這種能力建立，它似乎能夠自然地在不同領(lǐng)域之間泛化。
數(shù)學(xué)領(lǐng)域的演示數(shù)據(jù)尤其適合用于提升 LLM 的慢思考能力，且包含較長思考過程的數(shù)據(jù)在提升模型解決復(fù)雜問題的能力方面尤其有效。
與 LLM 在快速思考模式下生成的正式回復(fù)不同，慢思考過程通常以靈活、非正式的方式表達(dá)，幫助引導(dǎo)模型走向正確的解題路徑。
慢思考能力可以通過探索和自我改進(jìn)有效增強(qiáng)，而離線學(xué)習(xí)的方法帶來的改進(jìn)通常主要發(fā)生在初期迭代，尤其是在面對(duì)具有挑戰(zhàn)性的任務(wù)時(shí)。

模型的慢思考示例

大語言模型o1慢思考推理系統(tǒng)的破局之路：模仿、探索與自我提升的深度揭秘！-AI.x社區(qū)

參考資料

標(biāo)題：Technical Report on Slow Thinking with LLMs: II Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
作者：Yingqian Min, Zhipeng Chen, Jinhao Jiang, Jie Chen, Jia Deng, Yiwen Hu, Yiru Tang, Jiapeng Wang, Xiaoxue Cheng, Huatong Song, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Ji-Rong Wen
單位：Gaoling School of Artificial Intelligence, Renmin University of China; BAAI
標(biāo)簽：人工智能、大語言模型、慢思考推理系統(tǒng)
概述：本文介紹了一種模仿、探索和自我改進(jìn)的框架，用于訓(xùn)練類似 o1 的慢思考推理系統(tǒng)，并在三個(gè)基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn)，取得了有競(jìng)爭力的結(jié)果。
鏈接：https://arxiv.org/pdf/2412.09413

本文轉(zhuǎn)載自 ??旺知識(shí)??，作者：陳杰，鄧佳，旺知

標(biāo)簽

大語言

模型

已于2024-12-27 16:04:04修改

贊

回復(fù)