數(shù)學(xué)訓(xùn)練讓AI變笨?強化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異
當數(shù)學(xué)天才遇上現(xiàn)實問題
想象一下,你身邊有個數(shù)學(xué)天才,能輕松解決高考數(shù)學(xué)壓軸題,甚至在數(shù)學(xué)競賽中屢獲佳績。但當你讓他幫忙寫個郵件、回答生活常識問題時,他卻表現(xiàn)得像個"書呆子"——要么答非所問,要么干脆說不會。
這聽起來很熟悉嗎?在AI大模型的世界里,這種現(xiàn)象正在真實上演。
最近,研究人員發(fā)現(xiàn)了一個令人意外的現(xiàn)象:那些在數(shù)學(xué)推理任務(wù)上表現(xiàn)出色的AI模型,在處理其他類型問題時卻頻頻"翻車"。更讓人驚訝的是,不同的訓(xùn)練方法竟然會導(dǎo)致截然不同的結(jié)果——同樣是數(shù)學(xué)訓(xùn)練,強化學(xué)習(xí)訓(xùn)練出來的模型能夠"舉一反三",而監(jiān)督學(xué)習(xí)訓(xùn)練的模型卻容易"一根筋"。
圖片
1、問題的核心:數(shù)學(xué)能力能否遷移?
數(shù)學(xué)推理的"虛假繁榮"
近年來,AI在數(shù)學(xué)推理任務(wù)上的表現(xiàn)可謂突飛猛進。各種模型在MATH、AIME等數(shù)學(xué)競賽基準測試上的分數(shù)周周刷新,有些甚至超越了人類專家的平均水平。
圖片
但這里有個關(guān)鍵問題:這些數(shù)學(xué)上的進步,真的代表了AI推理能力的全面提升嗎?
研究團隊決定給這些"數(shù)學(xué)天才"們來一場全面體檢,測試內(nèi)容包括:
?數(shù)學(xué)推理:傳統(tǒng)的數(shù)學(xué)競賽題目
?其他推理:科學(xué)問答、代碼生成、智能體規(guī)劃等
?非推理任務(wù):日常對話、指令遵循、常識問答等
令人意外的發(fā)現(xiàn)
結(jié)果讓人大跌眼鏡:大多數(shù)在數(shù)學(xué)上表現(xiàn)優(yōu)異的模型,在其他任務(wù)上的表現(xiàn)都很糟糕。
為了量化這種現(xiàn)象,研究者提出了"可遷移性指數(shù)"的概念。簡單來說,就是看一個模型在數(shù)學(xué)上的進步,能否帶動其他能力的提升。
關(guān)鍵發(fā)現(xiàn)來了:使用強化學(xué)習(xí)(RL)訓(xùn)練的模型普遍具有更好的遷移性,而使用監(jiān)督學(xué)習(xí)(SFT)訓(xùn)練的模型往往出現(xiàn)"災(zāi)難性遺忘"——數(shù)學(xué)能力提升了,但其他能力卻大幅下降。
2、深度實驗:同樣的數(shù)據(jù),不同的命運
嚴格的對照實驗
為了確保這個發(fā)現(xiàn)的可靠性,研究團隊設(shè)計了一個嚴格的對照實驗:
實驗設(shè)置:
?使用相同的數(shù)學(xué)數(shù)據(jù)集
?采用相同的基礎(chǔ)模型(Qwen3-14B)
?分別用監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)兩種方法訓(xùn)練
監(jiān)督學(xué)習(xí)方法:讓模型學(xué)習(xí)"標準答案",就像傳統(tǒng)的師傅帶徒弟,手把手教每一步怎么做。
強化學(xué)習(xí)方法:只告訴模型最終答案對錯,讓它自己探索解題路徑,就像讓學(xué)生自己摸索,答對了給獎勵,答錯了給懲罰。
圖片
結(jié)果對比一目了然
數(shù)學(xué)任務(wù)表現(xiàn):
?強化學(xué)習(xí)模型:AIME24達到55.7%,MATH500達到87.8%
?監(jiān)督學(xué)習(xí)模型:表現(xiàn)稍遜,但差距不大
其他推理任務(wù):
?強化學(xué)習(xí)模型:在代碼生成上比監(jiān)督學(xué)習(xí)模型高出17.1%
?監(jiān)督學(xué)習(xí)模型:進步不均勻,有些任務(wù)甚至退步
非推理任務(wù):
?強化學(xué)習(xí)模型:不僅沒有下降,反而有所提升
?監(jiān)督學(xué)習(xí)模型:普遍出現(xiàn)性能下降
這個結(jié)果太有趣了:同樣的數(shù)據(jù),不同的訓(xùn)練方法,竟然造就了完全不同的"AI人格"。
3、技術(shù)揭秘:為什么會有這種差異?
從"大腦內(nèi)部"找答案
研究團隊深入模型內(nèi)部,用兩種方法分析了訓(xùn)練對模型造成的影響:
1. 潛在空間分析(PCA分析) 這就像給模型的"大腦"做核磁共振,看看訓(xùn)練前后神經(jīng)網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)發(fā)生了什么變化。
發(fā)現(xiàn):
?強化學(xué)習(xí)模型:內(nèi)部表示變化很小,就像在原有知識基礎(chǔ)上精細調(diào)整
?監(jiān)督學(xué)習(xí)模型:內(nèi)部表示發(fā)生大幅漂移,就像把原來的知識體系推倒重建
2. 輸出分布分析 這相當于分析模型在回答問題時的"思維模式"變化。
發(fā)現(xiàn):
?強化學(xué)習(xí)模型:只有少數(shù)幾個關(guān)鍵詞的使用頻率發(fā)生變化,比如"定義"、"添加"、"數(shù)字"等任務(wù)相關(guān)詞匯
?監(jiān)督學(xué)習(xí)模型:大量不相關(guān)詞匯的使用都發(fā)生了變化,甚至在不需要推理的問題上也會啟動復(fù)雜的推理過程
一個生動的類比
想象你要訓(xùn)練一個廚師:
監(jiān)督學(xué)習(xí)就像:給他一本詳細的食譜,每道菜都有標準做法,他嚴格按照食譜執(zhí)行。結(jié)果是:做食譜上的菜很棒,但遇到新菜品或者需要靈活應(yīng)變時就抓瞎了。
強化學(xué)習(xí)就像:只告訴他做出來的菜好不好吃,讓他自己摸索。結(jié)果是:他不僅學(xué)會了做菜,還培養(yǎng)了味覺直覺,能夠舉一反三,處理各種情況。
論文標題:Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning
論文鏈接:???https://arxiv.org/abs/2507.00432??
本文轉(zhuǎn)載自??????AI帝國??????,作者:無影寺

















