精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?

發布于 2025-7-11 06:36
瀏覽
0收藏

這篇文章旨在探討**數學推理能力的提升是否能泛化到其他領域?**研究發現,盡管許多LLM在數學基準測試上取得了顯著進步,但這些提升在很大程度上未能有效遷移到其他領域。通過對20多個開源推理調優模型進行評估,并對Qwen3-14B模型進行控制實驗,研究發現,基于強化學習(RL)調優的模型展現出更好的跨領域泛化能力,而基于監督微調(SFT)的模型則常常導致通用能力的遺忘。通過對潛在空間表示和token空間分布漂移的分析,揭示了SFT會導致顯著的表示和輸出漂移,而RL則能保留通用領域的結構。這表明,在推進推理模型時,需要重新思考當前的后訓練方法,特別是對SFT蒸餾數據的依賴。

一、概述

?Title:Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning

?URL:?? https://arxiv.org/abs/2507.00432v1??

?Authors:Maggie Huan, Yuetai Li, Tuney Zheng, Xiaoyu Xu, Seungone Kim, Minxin Du, Radha Poovendran, Graham Neubig, Xiang Yue

?Code:?? https://github.com/ReasoningTransfer/Transferability-of-LLM-Reasoning??

1.Motivation

?數學推理能力的進步是否能提高LLM的通用能力?盡管LLM在MATH和AIME等數學基準測試上取得了顯著進展,但這些進步是否能泛化到更廣泛的領域,還是僅僅是狹隘的過擬合?

?現有推理模型的能力遷移性如何?模型在數學推理方面的提升能否遷移到其他推理領域(如科學問答、代碼、智能體規劃、邏輯演繹)以及不需大量推理的任務(如對話問答、指令遵循)?

?SFT和RL對模型通用能力及潛在表示的影響?在數學數據上進行訓練時,SFT和RL這兩種不同的微調范式如何影響模型的泛化能力、內部表示和token分布,以及導致性能差異的原因是什么?

2.Methods

本文通過廣泛評估和控制實驗,發現數學推理能力在LLM中的泛化能力與微調方法密切相關。RL調優的模型在數學任務上取得進步的同時,能更好地保留和泛化通用能力,而SFT調優的模型則容易導致災難性遺忘。 進一步通過潛在空間PCA分析和token分布KL散度分析發現,RL能保持模型內部表示的穩定性和輸出的精確性,而SFT則導致顯著的表示和輸出漂移。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

詳細方法和步驟:

Q1: 實驗如何設計?:

? 基于Qwen3-14B-Base模型進行控制實驗,僅使用高質量的數學數據集進行微調。

?SFT設置:使用Qwen3-32B作為教師模型生成完整的思維鏈(CoT)推理軌跡,并采用拒絕采樣(reject sampling)選擇正確答案作為SFT的訓練目標。

?RL設置:采用標準的GRPO(Generalized Reinforcement Policy Optimization)框架,以答案正確性作為獎勵信號進行訓練,rollout=16,batch size=128。

? 確保SFT和RL從相同的數據樣本中學習,以公平比較兩種范式,數據規模為47k,來自MATH和DeepScaler的數據。

Q2: 采用了哪些數據集來評測?

數學推理,其他推理比如說代碼和agent planning,以及非推理任務比如說QA

?數學推理任務:MATH500、AIME24/25、OlympiadBench,僅包含純數學問題。

?其他推理任務:LiveCodeBench(代碼生成)、GPQA-Diamond(醫學推理)、ACPBench(智能體規劃)、HeadQA(醫療保健領域QA),包含更通用的推理問題。

?非推理任務:CoQA(對話QA)、IFEval(指令遵循)、HaluEval(事實性與幻覺區分)、MC-TACO(時間常識理解),主要包含事實性、對齊或對話問題。

? 使用準確率(accuracy)作為評估指標。

Q3: 評估metrics有哪些?

1.可遷移性指數(Transferability Index, TI)定義:

? 定義了組級別的相對增益 ,其中是組中的所有基準測試集合,和分別是模型和基準模型在基準測試 上的得分。

? TI 計算公式:,。TI 值大于0表示存在正向遷移。

2.潛在空間PCA分析:

? 對模型不同層級的隱藏狀態進行主成分分析(PCA),測量模型內部表示在訓練前后的變化

? 通過計算表示中心(PCA投影坐標的平均值)之間的歐氏距離來量化潛在空間漂移。

3.Token空間分布漂移分析:

? 計算訓練前后模型輸出token分布的KL散度,評估輸出空間的變化

? 分析token排名漂移(token rank shift),即微調后模型生成token的原始排名與基準模型排名的差異,以了解模型對特定token的偏好變化。

3 Conclusion

?相對于SFT,RL調優在數學推理能力提升的同時,能更好地保留并泛化通用能力。盡管RL調優的模型專注于數學推理,但它們在其他推理任務和非推理任務上也能保持甚至提升性能,顯著優于SFT調優的模型,后者常導致通用能力的遺忘。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

?PCA模型訓練穩定性分析分析:RL調優的模型在潛在空間(中間層的特征)中漂移更小,保持了通用領域的結構,而SFT則引起顯著的表示和輸出漂移。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

?Token分布穩定性分析:RL僅選擇性地調整任務相關的token,優化更精準,而SFT會帶來比較大的改變。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

? Case Study:RL對模型的改動比SFT也更小。說明對通用任務的影響也更小。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

4 Limitation

?控制實驗的數學數據集相對較小:控制實驗中使用的數學數據集(47K高質量數學問題)雖然足夠高質量,但相較于真實世界中用于訓練大型LLM的數據集規模仍然較小。這可能會限制研究結論在更大規模和更廣泛數據條件下的普遍適用性。

?未能完全控制所有變量:盡管在控制實驗中努力確保SFT和RL從相同數據中學習,但在實際的模型微調過程中,仍存在其他難以完全控制的變量(如GRPO和拒絕采樣在實現上的差異、超參數的選擇等),這些因素可能對結果產生一定影響,導致結論的普適性受到挑戰。

?獎勵函數的簡單性:RL模型采用的獎勵信號僅為“答案正確性”。這是一種相對簡單的獎勵函數,可能無法完全捕獲復雜推理過程中產生的中間步驟質量、解題的效率或優雅性。如果獎勵函數設計更復雜,結果可能會有所不同,但相應的RL訓練難度也會大幅增加。

?診斷方法的局限性:PCA和KL散度分析提供了對模型內部表示和輸出分布變化的洞察,但這些方法仍然是宏觀的、解釋性的工具。它們可以揭示“發生了什么”,但可能無法深入解釋“為什么會發生”以及更深層次的機制改變,尤其是在面對復雜模型行為時。

5 Future Work

?探索更復雜的RL獎勵設計:未來工作可以研究如何設計更精細、能夠捕獲推理過程質量的獎勵函數,例如基于思維鏈(CoT)步驟的中間獎勵、搜索效率獎勵等,以期在進一步提升推理能力的同時更好地保留通用能力。

?研究結合SFT和RL的混合訓練策略:考慮到SFT在某些方面(如對指令的精確遵循)仍有其優勢,可以探索SFT和RL的有效結合方式,例如先進行少量SFT以建立基礎能力,再通過RL進行精細化優化,看是否能兼顧兩者優點并克服各自的局限性。

?在更大規模和多語言數據集上驗證RL的泛化能力:將本研究的發現推廣到更大規模、更多樣化的數據集和多語言場景中,以驗證RL在不同語言和文化背景下的泛化能力,并探索其在跨文化推理任務中的表現。

?深入分析模型內部機制:運用更先進的可解釋性工具和技術,深入剖析RL和SFT這兩種微調方式如何影響LLM的神經元激活模式、信息流路徑以及知識編碼方式,從而更全面地理解它們對模型通用能力遷移性的影響。

?探索負向遷移的緩解策略:針對SFT可能導致的通用能力遺忘問題,研究具體的緩解策略,例如利用知識蒸餾、多任務學習、持續學習等技術,以避免模型在專業化訓練過程中“顧此失彼”而喪失其他重要能力。

二、總結

結論1: LLM在數學推理能力提升并非總能遷移到其他領域。 通過對20多個開源模型和受控實驗進行評估,發現許多在數學基準測試上表現強勁的模型,在其他推理和非推理任務上往往無法有效遷移其增益,甚至出現災難性遺忘。這推翻了“數學能力提升即通用能力提升”的直觀假設,強調了模型在專業化訓練后泛化能力面臨的挑戰。

CMU |LLM在數學推理能力的提升是否能遷移到其他領域?-AI.x社區

結論2: 強化學習(RL)相比監督微調(SFT)在保持LLM通用能力方面具有顯著優勢。

結論4: 在實際應用中,需要重新思考當前的LLM后訓練策略。

本文轉載自???NLP PaperWeekly???,作者:NLP PaperWeekly

收藏
回復
舉報
回復
相關推薦
久草精品在线观看| 国产精品一线| 亚洲欧美日韩国产成人精品影院| 亚洲一区二区日本| 日本三级欧美三级| 国产网站在线播放| 精品在线一区二区三区| 久久久久久久爱| 久久久视频6r| 永久免费精品视频| 91激情五月电影| 欧美一区二区三区综合| 中文字幕 自拍偷拍| 91精品一区二区三区综合在线爱| 亚洲精品国产精品久久清纯直播| 日本黄大片一区二区三区| 久久大胆人体| 国产超碰在线一区| 国产精品激情av电影在线观看| 青青草成人免费视频| 久久久加勒比| 激情久久av一区av二区av三区| 亚洲自拍三区| 嫩草在线播放| 成人性视频网站| 国产欧美一区二区三区久久人妖| 日本三级黄色大片| 午夜久久黄色| 1000部国产精品成人观看| 五月激情久久| 午夜国产精品视频免费体验区| 亚洲国产欧美一区二区三区同亚洲| 国产成人手机视频| 僵尸再翻生在线观看免费国语| 中文字幕一区二区三| 久久综合福利| 亚洲欧美激情四射在线日| 欧美精品在线免费观看| 免费人成在线观看视频播放| 成人高清网站| 97se亚洲国产综合在线| 欧美亚州一区二区三区| 久久精品一区二区三| 人妻中文字幕一区二区三区| 久久精品午夜福利| 国产超碰人人模人人爽人人添| 久久国产精品毛片| 69视频在线播放| 久草视频在线资源站| 国产精品国产三级国产在线观看| 亚洲人成在线观| v天堂中文在线| 综合视频一区| 精品久久人人做人人爰| 久久aaaa片一区二区| 91精品亚洲一区在线观看| 国产乱码精品一区二区三区四区| 国产视频精选在线| 成人午夜碰碰视频| 国产91视觉| 亚洲精品国产片| 亚洲一区免费| 欧美性资源免费| 黄色在线免费观看| aa视频在线观看| 99日韩精品| 欧美韩国理论所午夜片917电影| 欧美黑人猛猛猛| 亚洲尤物av| 亚洲精品一区二三区不卡| 欧美 日本 国产| 中文字幕亚洲影视| 国产亚洲欧洲高清| 国产免费嫩草影院| 亚洲欧美偷拍自拍| 久久乐国产精品| 特一级黄色大片| 久久亚洲精选| 91精品国产综合久久香蕉最新版 | 国产真实有声精品录音| 综合激情国产一区| 欧美成人精品激情在线视频| 日韩一级大片| 国产精品一区二区久久| 国产露脸无套对白在线播放| 国产丶欧美丶日本不卡视频| 精品日本一区二区| 欧美午夜电影一区二区三区| 亚洲乱码国产乱码精品精98午夜| 日韩av新片网| 亚洲爱爱视频| 欧美一级艳片视频免费观看| www.88av| 97精品中文字幕| 97久久精品国产| 一区二区三区在线免费观看视频 | 日本道免费精品一区二区三区| 玖玖爱视频在线| 成人香蕉社区| 一区二区欧美在线| 久久久综合久久| 欧美裸体在线版观看完整版| 久久成人精品一区二区三区| 51妺嘿嘿午夜福利| 亚洲色图网站| 奇米一区二区三区四区久久| 99国产精品一区二区三区| 99国产精品久久久久久久久久久| 日韩高清在线播放| 国产在线xxx| 欧美日韩国产片| av无码一区二区三区| 久久一级电影| 欧美一级成年大片在线观看 | 精品福利一二区| 国产三级在线观看完整版| 在线精品在线| 成人羞羞国产免费| 欧美日韩影视| 亚洲国产精品欧美一二99| 五月婷婷丁香色| 亚洲福利天堂| 久久久人成影片一区二区三区| 一级黄色大片网站| 久久久久久网| 国产精品99久久久久久久| 欧洲不卡视频| 91久久精品国产91性色tv | av日韩在线播放| 久久九九热免费视频| 亚洲午夜无码久久久久| 91视频国产观看| 男人天堂手机在线视频| 成人在线视频www| 91精品福利在线一区二区三区| 少妇精品一区二区三区| 一本色道久久综合亚洲精品高清| eeuss一区二区三区| 成年人黄视频在线观看| 欧美日韩成人一区| 欧美色图17p| 日韩av不卡一区二区| 免费影院在线观看一区| 深夜成人在线| 日韩电影免费观看中文字幕 | 色综合视频一区二区三区高清| 95视频在线观看| 亚洲视频日本| 韩国成人一区| 岛国在线视频网站| 亚洲第一区第一页| 欧美a∨亚洲欧美亚洲| 蜜桃久久av| 久久av一区二区三区亚洲| 国产在线观看免费网站| 亚洲欧美中日韩| 91亚洲精品久久久蜜桃借种| 国产精品国产一区| 91精品久久久久久久久青青| 麻豆91在线| 日韩视频免费直播| 精品无码一区二区三区电影桃花 | 日p在线观看| 欧美日韩大陆一区二区| √天堂中文官网8在线| 国产一区二区不卡| 欧美12av| 97久久网站| 久久天天躁狠狠躁夜夜av| 精品久久久无码中文字幕| 一区二区成人在线视频| 在线看黄色的网站| 久久深夜福利| 黄色a级在线观看| www.神马久久| 久久免费国产视频| 国产日本在线视频| 欧美福利视频导航| 青青草视频成人| 蜜桃一区二区三区在线| 欧美日韩中文字幕在线播放 | 奇米精品在线| 精品一区二区三区中文字幕在线| 欧美—级a级欧美特级ar全黄| 色视频在线看| 欧美日本在线播放| 久操视频免费在线观看| 久久久精品tv| 精品国产午夜福利在线观看| 亚洲中午字幕| 在线国产精品网| 久久草在线视频| 国产精品久久综合av爱欲tv| 秋霞在线午夜| 中文字幕日韩精品在线| 人妻无码中文字幕| 欧美日韩和欧美的一区二区| 国产午夜福利片| 国产精品国产精品国产专区不蜜| 国产伦精品一区二区免费| 人人狠狠综合久久亚洲| 亚洲国产精品成人天堂| 久久中文亚洲字幕| 久久精品国产精品国产精品污| 日韩电影精品| 55夜色66夜色国产精品视频| 操你啦在线视频| 国产亚洲视频中文字幕视频| 国精产品一品二品国精品69xx| 欧美在线视频你懂得| 国产午夜免费视频| 亚洲欧美偷拍卡通变态| 国产手机在线观看| 2022成人影院| 久香视频在线观看| 国产精品久久久久av电视剧| 日韩一区二区三区免费播放| 亚洲一区二区三区四区五区中文| 女人高潮一级片| 性色一区二区| 蜜臀精品一区二区| 亚洲激情久久| 亚洲精品中文字幕在线| 日韩欧美ww| 久久亚洲精品一区| 巨骚激情综合| 亚洲精品一区中文| 性生交免费视频| 九色国产在线观看| 欧美日本免费一区二区三区| 亚洲免费黄色网址| 亚洲成人av电影| 极品盗摄国产盗摄合集| 亚洲欧洲日韩综合一区二区| 女女互磨互喷水高潮les呻吟| www.亚洲免费av| 亚洲精品鲁一鲁一区二区三区| 激情深爱一区二区| 午夜久久久精品| 免费精品99久久国产综合精品| 50路60路老熟妇啪啪| 一本综合精品| 2022亚洲天堂| 亚洲影音先锋| 国产熟女高潮视频| 久久福利精品| 男人舔女人下面高潮视频| 久久久久.com| 激情五月亚洲色图| 免费观看在线综合色| 亚洲精品久久久中文字幕| 免费成人在线观看| 91福利免费观看| 国产一区二区按摩在线观看| 国模大尺度视频| 亚洲高清av| 天天夜碰日日摸日日澡性色av| 国产精品欧美日韩一区| 蜜桃成人免费视频| 国产精品三级| 日韩欧美亚洲日产国| 成人在线免费观看91| 亚洲第一导航| 中文乱码免费一区二区三区下载| 精品一区二区三区毛片| 国产精品第十页| 无码播放一区二区三区| 天天影视天天精品| 国产盗摄视频在线观看| 影音国产精品| 久久人妻精品白浆国产| 久久99精品久久久久久久久久久久| 小早川怜子一区二区三区| 国产99精品在线观看| 特级西西人体4444xxxx| 国产午夜精品理论片a级大结局 | 中文字幕视频一区二区三区久| 麻豆网址在线观看| 亚洲高清三级视频| 五月婷婷激情视频| 91精品免费在线观看| 亚洲精品视频专区| 亚洲日本中文字幕免费在线不卡| 五月婷婷在线视频| 久久久久久香蕉网| 亚洲国产尤物| 国产精品二区二区三区| 免费不卡中文字幕在线| 男同互操gay射视频在线看| 一区在线视频观看| 在线看的黄色网址| 成人免费av在线| 日本人亚洲人jjzzjjz| 一区二区三区四区激情 | 欧美精品vⅰdeose4hd| 人妻无码中文字幕| 中文字幕日韩欧美在线视频| 精品日韩av| 国产精品亚洲美女av网站| 岛国精品一区| 桥本有菜av在线| 免费日韩av片| 国产吃瓜黑料一区二区| 亚洲国产精品高清| 中文字幕国产综合| 亚洲激情欧美激情| 日本中文字幕在线观看视频| 日韩一级完整毛片| 第一页在线观看| 性欧美暴力猛交69hd| 久久er热在这里只有精品66| 久久久久高清| 激情丁香综合| 亚洲成人手机在线观看| 国产日韩av一区| 日韩网红少妇无码视频香港| 4438x亚洲最大成人网| 加勒比一区二区三区在线| 欧美极品少妇全裸体| 深夜日韩欧美| 亚洲精品日韩成人| 日韩在线一区二区| 亚洲精品20p| 久久久www免费人成精品| 日韩免费在线视频观看| 欧美一级在线观看| 欧美日本一道| 国产一区玩具在线观看| 国产一区二区三区四区二区| 色欲av无码一区二区人妻| av中文字幕在线不卡| 国产一级一片免费播放| 欧美成人video| 污污在线观看| 91成人免费在线观看| 亚欧美无遮挡hd高清在线视频| 国产又黄又猛又粗又爽的视频| 久久久久久免费毛片精品| 国产情侣自拍av| 日韩电影免费观看在线观看| 日本不良网站在线观看| 精品欧美一区二区在线观看视频| 伊人成人网在线看| 国产精品成人99一区无码| 亚洲一二三四久久| 人妻少妇精品无码专区久久| 久久久久久久久久av| 国产伦理久久久久久妇女| 五月丁香综合缴情六月小说| 成人小视频在线| 日本特黄特色aaa大片免费| 亚洲精品在线电影| 日本蜜桃在线观看视频| 久久国产主播精品| 老鸭窝亚洲一区二区三区| 一级片视频免费看| 欧美日韩精品一区二区天天拍小说 | 日韩精品黄色网| 色在线视频观看| 欧美一区二区在线| 免费成人av在线播放| 五月综合色婷婷| 日韩女优av电影在线观看| h片在线观看下载| 蜜桃网站成人| 蜜桃av一区二区在线观看| 少妇影院在线观看| 精品国产一区二区三区久久久蜜月| 国产网红女主播精品视频| 久久久久久一区| 免费在线欧美视频| 私库av在线播放| 亚洲国产欧美在线成人app | 99日韩精品| 国产黄色录像视频| 日韩一区二区在线播放| 老牛影视精品| 亚洲第一在线综合在线| 国产激情精品久久久第一区二区| 日韩av免费网址| 国产亚洲精品久久| 欧美片网站免费| 成人中文字幕在线播放| 亚洲国产精品v| 亚洲精品无amm毛片| 国产精品国产亚洲伊人久久| 2023国产精品久久久精品双| 国产精品久久无码| 欧美三级午夜理伦三级中视频| 91在线中文| 成人国产精品色哟哟| 狠狠色狠狠色综合日日tαg| 新91视频在线观看| 日韩亚洲欧美高清| 女生影院久久| 国产激情片在线观看| 久久精品夜夜夜夜久久| 亚洲精品国产一区二| 国产精品中文字幕在线观看| 99热这里只有成人精品国产|