無需外部數據!AI自問自答實現推理能力進化
AI通過自問自答就能提升推理能力?!
這正是卡內基梅隆大學團隊提出的新框架SQLM——一種無需外部數據的自我提問模型。

該框架包含提問者(proposer)和解答者(solver)兩個角色,提問者生成與給定主題相關的問題,解答者旨在解決問題。
網友們神評,“簡直是帶有RL的GAN”。

值得一提的是,此團隊中又雙叒叕現華人身影~
通過強化學習最大化期望獎勵
當前大語言模型的訓練很大程度上仍依賴人工整理數據集,堪稱費時費力。
為了減輕這一負擔,研究人員開發了用于強化學習的無監督獎勵函數。然而,這些函數仍然依賴于預先提供的高質量輸入提示。
因此,問題的難點從“生成答案”轉移到了“生成高質量問題”。
這凸顯出當前方法的一個關鍵不足:
缺乏一種可擴展且自我維持的流程,能夠在無人干預的情況下自動生成有意義的問題和答案。

為此,研究者提出了SQLM框架,一種非對稱的自我博弈框架,其中提問者
,解答者
回答該問題,兩者均通過強化學習進行訓練,以最大化期望獎勵。

其中,提問者生成問題會對解答者形成條件影響,而解答者的表現又反過來為提問者提供獎勵,從而不斷優化提問者。
由于缺乏真實答案,研究者設計了基于“生成者–驗證者差距”的自監督獎勵函數。
若生成器-驗證器差距小(例如算數問題),則采用多數投票作為代理獎勵。

若生成器-驗證器差距大(例如編程問題),先由提問者生成測試用例,獎勵則基于通過測試的比例。


這種極小極大式的訓練框架通過自博弈實現了穩定訓練,并使獎勵機制能夠針對具體問題進行自適應調整。
為了評估模型的不同能力,研究者進行了三部分任務,并使用Qwen2.5-3B-Instruct運行實驗。
算術任務
研究人員讓提問者生成一個三位數的算數問題,并將其作為解答器的輸入。他們按照TinyZero的設置,構建了一組包含4096個三位數乘法問題的測試集。
代數任務
研究者讓模型生成最多包含兩個變量的線性方程,并在OMEGA基準中的100道線性方程測試題上進行評估。
編程問題
他們讓模型生成類似LeetCode中簡單題的問題,輸入為整數列表,輸出為單個整數或另一個列表,并在Codeforces測試集的一個子集上進行評估。

實驗結果顯示,SQLM將Qwen2.5-3B-Instruct在算術任務上的準確率提高了14%,在代數任務上提高了16%;在編程任務上的準確率提高了7%。
此外,上表還顯示出SQLM顯著優于格式獎勵基線(用于穩定訓練和規范輸出格式的參考值),表明推理能力的真正提升。
團隊介紹

Lili Chen,本科畢業于加州大學伯克利分校,現博士就讀于卡內基梅隆大學。

Katerina Fragkiadaki,卡內基梅隆大學機器學習系計算機科學副教授,博士畢業于賓夕法尼亞大,曾在加州大學伯克利分校擔任博士后研究員,并于谷歌研究院工作。

Hao Liu,博士畢業于加州大學伯克利分校,曾任谷歌DeepMind研究員,即將出任卡內基梅隆大學機器學習系的助理教授。

Deepak Pathak,Skild AI創始人,本科就讀于印度理工學院坎普爾分校,博士畢業于加州大學伯克利分校,曾在Meta擔任了一年的研究員,現任卡內基梅隆大學計算機科學學院的助理教授。


































