無需外部數據！AI自問自答實現推理能力進化

2025-08-11 08:38:00

卡內基梅隆大學團隊提出新框架SQLM——一種無需外部數據的自我提問模型。

AI通過自問自答就能提升推理能力？！

這正是卡內基梅隆大學團隊提出的新框架SQLM——一種無需外部數據的自我提問模型。

該框架包含提問者（proposer）和解答者（solver）兩個角色，提問者生成與給定主題相關的問題，解答者旨在解決問題。

網友們神評，“簡直是帶有RL的GAN”。

值得一提的是，此團隊中又雙叒叕現華人身影～

通過強化學習最大化期望獎勵

當前大語言模型的訓練很大程度上仍依賴人工整理數據集，堪稱費時費力。

為了減輕這一負擔，研究人員開發了用于強化學習的無監督獎勵函數。然而，這些函數仍然依賴于預先提供的高質量輸入提示。

因此，問題的難點從“生成答案”轉移到了“生成高質量問題”。

這凸顯出當前方法的一個關鍵不足：

缺乏一種可擴展且自我維持的流程，能夠在無人干預的情況下自動生成有意義的問題和答案。

為此，研究者提出了SQLM框架，一種非對稱的自我博弈框架，其中提問者，解答者回答該問題，兩者均通過強化學習進行訓練，以最大化期望獎勵。

其中，提問者生成問題會對解答者形成條件影響，而解答者的表現又反過來為提問者提供獎勵，從而不斷優化提問者。

由于缺乏真實答案，研究者設計了基于“生成者–驗證者差距”的自監督獎勵函數。

若生成器-驗證器差距小（例如算數問題），則采用多數投票作為代理獎勵。

若生成器-驗證器差距大（例如編程問題），先由提問者生成測試用例，獎勵則基于通過測試的比例。

這種極小極大式的訓練框架通過自博弈實現了穩定訓練，并使獎勵機制能夠針對具體問題進行自適應調整。

為了評估模型的不同能力，研究者進行了三部分任務，并使用Qwen2.5-3B-Instruct運行實驗。

算術任務

研究人員讓提問者生成一個三位數的算數問題，并將其作為解答器的輸入。他們按照TinyZero的設置，構建了一組包含4096個三位數乘法問題的測試集。

代數任務

研究者讓模型生成最多包含兩個變量的線性方程，并在OMEGA基準中的100道線性方程測試題上進行評估。

編程問題

他們讓模型生成類似LeetCode中簡單題的問題，輸入為整數列表，輸出為單個整數或另一個列表，并在Codeforces測試集的一個子集上進行評估。

實驗結果顯示，SQLM將Qwen2.5-3B-Instruct在算術任務上的準確率提高了14%，在代數任務上提高了16%；在編程任務上的準確率提高了7%。

此外，上表還顯示出SQLM顯著優于格式獎勵基線（用于穩定訓練和規范輸出格式的參考值），表明推理能力的真正提升。

Lili Chen，本科畢業于加州大學伯克利分校，現博士就讀于卡內基梅隆大學。

Katerina Fragkiadaki，卡內基梅隆大學機器學習系計算機科學副教授，博士畢業于賓夕法尼亞大，曾在加州大學伯克利分校擔任博士后研究員，并于谷歌研究院工作。

Hao Liu，博士畢業于加州大學伯克利分校，曾任谷歌DeepMind研究員，即將出任卡內基梅隆大學機器學習系的助理教授。

Deepak Pathak，Skild AI創始人，本科就讀于印度理工學院坎普爾分校，博士畢業于加州大學伯克利分校，曾在Meta擔任了一年的研究員，現任卡內基梅隆大學計算機科學學院的助理教授。

責任編輯：張燕妮來源：量子位