精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎? 原創

發布于 2025-5-30 10:47
瀏覽
0收藏

針對提升LLM推理能力面臨的挑戰,斯坦福大學研究人員提出了“思考、修剪、訓練”(TPT)框架,讓LLM利用自生成且驗證正確的數據迭代優化。研究表明,無需強化學習、大型數據集或外部教師模型,TPT可以使較小模型推理性能媲美甚至超越大模型,凸顯了TPT框架在提升模型推理能力和準確性的潛力。

目前,缺乏高質量的訓練數據仍然是提高大型語言模型(LLM)推理能力的主要障礙之一。

斯坦福大學研究人員最近進行的一項研究探索了一個頗具吸引力的替代方案:LLM能否通過學習自己生成的推理痕跡來提高推理能力?他們提出了“??思考、修剪、訓練??”(TPT)框架,允許LLM使用精心選擇的自生成數據迭代地改進它們的推理能力。?

這種方法可能是朝著創造更智能、更高效的人工智能模型邁出的一步,而不是簡單地構建更大的模型和數據集。

提升人工智能推理能力面臨的挑戰

在LLM進行初始訓練之后,提升其推理能力目前主要有兩種策略。一種方法是“監督微調”(SFT),即LLM從精心整理的問題數據集及其逐步解決方案中學習。另一種流行的方法是“蒸餾”,即一個規模較小的LLM通過模仿一個能力更強、規模更大的“教師”模型的輸出進行學習。?

而這兩種方法都有局限性。SFT需要大量高質量的推理示例數據集,創建這些數據集通常成本昂貴又耗時。另一方面,“蒸餾”完全依賴于獲得強大的、通常是專有的“教師”模型。

這就提出了一個令人信服的問題:LLM能否通過對自己生成的數據進行遞歸微調來改進?早期的嘗試面臨著一個被稱為“模式崩潰”(Mode Collapse)的重大障礙。當LLM在未經過濾的輸出上迭代訓練時,它們的性能往往會隨著時間的推移而下降,可能會開始產生幻覺,忘記以前學到的知識,并生成質量較低的文本,從而陷入惡性循環。

在迭代訓練中,一個相關但不同的風險是“模式崩潰”。當一個模型開始收斂于一組狹窄的高概率輸出時,就會發生這種情況,其響應變得不那么多樣化和具有探索性。雖然之前關于模式崩潰的研究主要集中于沒有明確正確或錯誤答案的一般文本生成上,但對于可以驗證正確性的推理任務進行遞歸微調,則帶來了模式崩潰的可能性,即模型局限于非常具體的答案,失去了探索替代推理路徑的能力。

思考、修剪、訓練(TPT)框架

斯坦福大學研究人員希望探究,在不采用其他方法帶來的復雜性的情況下,模型推理能力的自我提升是否可行。盡管此前許多研究將自我提升視為強化學習(RL)問題,但TPT采取了更為直接的路徑。?

它采用標準的SFT,但有一個關鍵轉折:模型僅在經過驗證的正確推理嘗試中進行微調。研究人員探索了是否可以通過仔細選擇這種自生成的數據來實現有效的迭代細化。

以下是思考、修剪、訓練(TPT)框架的工作原理:

·思考(Think):提示當前版本的模型為一組問題生成逐步解決方案(推理痕跡或“思維鏈”)。?

·修剪(Prune):這是一種過濾解決方案,通過檢查已知的基本事實答案,只保留那些明顯正確的解決方案。這種基于正確性的修剪是避免早期遞歸訓練嘗試中出現的模式崩潰的關鍵。

·訓練(Train):使用SFT在其自身經過驗證的正確推理軌跡集上對模型進行微調。

然后重復這個循環,新改進的模型為下一輪TPT生成數據。

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎?-AI.x社區

圖1 思考、修剪、訓練(TPT)框架的工作原理

至關重要的是,與DeepSeek-R1或LLaMA 3.1的后訓練(Post-training)等模型中使用的基于強化學習(RL)的方法不同,TPT只關注這種遞歸的、基于正確性的SFT。它表明,不需要強化學習、學習獎勵函數或外部“教師”模型,而是依靠結構化提示和基礎事實驗證,就可以實現自我完善。?

為了嚴格測試這些改進是否來自真正的自我完善,而不僅僅是接觸更多的數據,研究人員仔細設計了實驗。在每一輪TPT中,他們保持訓練數據集大小不變,每個問題只使用一個唯一的正確解決方案。

此外,他們并沒有在各輪TPT流程中積累數據,而是采用最新模型版本中新生成的解決方案取代了訓練集。這確保了任何性能提升都真正歸功于迭代改進過程。

正如斯坦福大學研究人員在論文所指出的那樣,“研究表明,在嚴格的數據約束下,迭代微調可以帶來有意義的收益,這表明模型改進不僅僅是數據集的擴展。”

讓更小的模型發揮更大的作用

研究人員在谷歌公司的Gemma模型(gemma2-2b-it, gemma2-9b-it)和Meta公司的Llama模型(Llama-3.1-1B-Instruct, Llama-3.1-70B-Instruc)的指令調優版本上測試了TPT,主要在GSM8K數學單詞問題基準和CodeContests編程挑戰數據集上對它們進行了評估。

其結果令人矚目。通過TPT流程,相對較小的模型實現了與更大的模型相當甚至更優的推理性能。例如,在GSM8K上,Gemma2-2B模型的準確率(Pass@1,意味著首次嘗試就獲得正確結果)從41.9%躍升至57.6%。Gemma2-9B模型超過了規模更大的LLaMA-3.1-70B-Instruct的基準性能。相應地,使用TPT的LLaMA-3.1-70B將Pass@1分數從78.6%提升至91.5%,甚至超過了當時GPT-4o在該基準上的報告得分。

有趣的是,這些模型性能提升的速度各不相同。規模較小的Gemma-2-2B模型的性能需要四輪TPT才能達到峰值,而中等規模的Gemma-2-9B模型在三輪TPT內提升更快。大型LLaMA-70B模型的性能僅在一輪TPT之后就得到顯著提升,這表明較大模型可能更快地整合了自生成推理的學習內容。

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎?-AI.x社區

圖2 Gemma2-2B模型和Gemma2-9B模型在四輪TPT中的性能表現

研究人員還研究了模式崩潰的可能性。雖然模型在第一次嘗試(Pass@1)時的準確性不斷提高,但它們在多次嘗試(通過Pass@20或Pass@50測量)中生成多種正確答案的能力在第一輪TPT之后趨于平穩。這表明,TPT流程確實引導這些模型優先考慮高可信度、正確的解決方案,而不是探索不同的推理路徑。然而,研究人員認為,這并不一定對數學和編程等任務有害,在這些任務中,正確性和效率往往是最重要的。通過將模型集中在經過驗證的推理上,TPT甚至可以幫助減少幻覺,并提高對準確性敏感的應用程序的可靠性。

“思考、修剪、訓練”(TPT)框架有力地論證了大型語言模型(LLM)能夠進行自我訓練成為更優秀的推理者。正如研究人員在論文中所寫的那樣,“結構化推理提示、基于正確性的修剪,以及對經過驗證的解決方案的監督微調,可以在沒有外部監督的情況下實現推理能力的自我提升,凸顯了簡化框架在LLM推理和準確性方面進一步發展的潛力。”

原文標題:??Can LLMs learn to reason without RL or large datasets???,作者:Ben Dickson

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-5-30 11:11:00修改
收藏
回復
舉報
回復
相關推薦
亚洲va久久| 欧美日韩国产观看视频| 国内精品视频一区二区三区八戒 | 国产又爽又黄网站亚洲视频123| 99综合精品| 在线视频国产日韩| 亚洲妇女无套内射精| 神马久久午夜| 最新高清无码专区| 久久国产精品一区二区三区四区 | 3d动漫精品啪啪| 国产无限制自拍| av在线资源网| 97久久精品人人澡人人爽| 日韩免费观看网站| 久草视频手机在线观看| 伊甸园亚洲一区| 欧美一区二区三区日韩| 欧在线一二三四区| 午夜伦理在线视频| 欧美国产视频在线| 国产日韩一区欧美| 国产精品玖玖玖| 香蕉久久国产| 欧美高清自拍一区| 天天操天天摸天天舔| 色婷婷综合久久久久久| 日韩欧美专区在线| 中文字幕 日韩 欧美| 午夜不卡影院| 亚洲国产精品综合小说图片区| 亚洲精品不卡| 日本天堂影院在线视频| 国产凹凸在线观看一区二区| 国产欧美日韩精品在线观看| 国产91精品看黄网站在线观看| 激情偷拍久久| 久久99国产综合精品女同| 亚洲色图27p| 日韩国产欧美一区二区| 亚洲人av在线影院| 在线观看av中文字幕| 伊人久久影院| 欧美一卡二卡三卡| 亚洲一区二区三区四区五区| 韩漫成人漫画| 欧美性猛交xxxx富婆弯腰| 亚洲中文字幕无码av永久| av网址在线播放| 亚洲欧美影音先锋| 亚洲自拍三区| 日本在线www| 国产精品不卡一区| 亚洲欧美日韩国产yyy| 国内精品在线视频| 26uuu亚洲综合色| 久久大片网站| 日本大片在线观看| 91蜜桃在线免费视频| 国产一区免费视频| 丝袜视频国产在线播放| 久久午夜羞羞影院免费观看| 免费亚洲一区二区| 国产天堂素人系列在线视频| 国产欧美一二三区| 伊人狠狠色丁香综合尤物| 国内精品久久久久久野外| 亚洲欧洲无码一区二区三区| www亚洲国产| 色婷婷视频在线观看| 亚洲国产日韩精品| 久色视频在线播放| 欧美美女日韩| 欧美精品三级在线观看| wwwxxxx在线观看| 国产主播性色av福利精品一区| 亚洲激情在线视频| 亚洲最大成人网站| 日韩一区三区| 欧美激情亚洲国产| 无码人妻av免费一区二区三区 | 亚洲第一色av| 日本精品视频| 亚洲精品suv精品一区二区| 在线 丝袜 欧美 日韩 制服| 成人91在线| 欧美成年人视频| 国产精品乱子伦| 蜜臀91精品一区二区三区| 91人成网站www| 手机av在线免费观看| 久久精品网站免费观看| 欧美 日韩 国产 在线观看| 999精品网| 欧美性一级生活| 亚洲熟女乱综合一区二区| 同性恋视频一区| 日韩在线观看高清| 日韩三级视频在线播放| 麻豆成人综合网| 国产精品推荐精品| 日韩av免费观影| 亚洲丝袜制服诱惑| 男人揉女人奶房视频60分| 亚洲成人精品综合在线| 日韩高清免费观看| 色偷偷男人天堂| 最新日韩欧美| 成人乱色短篇合集| 五月天婷婷在线观看| 中文字幕亚洲一区二区av在线| 成人毛片一区二区| 成人免费91| 亚洲人成五月天| 久热精品在线观看| 久久99在线观看| 欧美日韩大片一区二区三区| 手机在线免费av| 精品视频一区二区不卡| 人妻少妇精品视频一区二区三区| 国产精品99在线观看| 欧美亚洲另类制服自拍| 精品国产乱码一区二区三| 欧美国产日本韩| 日韩欧美亚洲天堂| 成人爽a毛片| 美女av一区二区| 中文字字幕在线观看| 91丨porny丨首页| 日本黄色片一级片| 电影91久久久| 色偷偷av一区二区三区| 亚洲第一网站在线观看| 99精品国产91久久久久久| 黄色一级大片免费| 欧洲精品99毛片免费高清观看| 一区二区三区日韩在线| 久久久成人免费视频| 成人激情文学综合网| 蜜桃网站在线观看| 亚洲老司机网| 啊v视频在线一区二区三区| 91黑人精品一区二区三区| 91色综合久久久久婷婷| 你真棒插曲来救救我在线观看| 国产免费av国片精品草莓男男| 中文字幕亚洲天堂| 中文字幕乱码人妻二区三区| 国产农村妇女精品| 丁香婷婷激情网| 国内精品视频在线观看| 国产不卡av在线| 国产一级免费在线观看| 欧美最新大片在线看| 男人舔女人下部高潮全视频| 久久国产精品久久w女人spa| 欧洲精品在线一区| 在线看欧美视频| 中日韩美女免费视频网址在线观看 | 免费av一区| 国产精品99久久久久久久久| 二区在线观看| 欧美日韩精品二区第二页| 亚洲a∨无码无在线观看| 蜜臀av亚洲一区中文字幕| 亚洲一区二区三区精品在线观看| 国产亚洲人成a在线v网站| 精品国产一区av| 精品毛片一区二区三区| 亚洲黄色在线视频| 日韩成人av影院| 国产欧美精品| 秋霞在线观看一区二区三区| 成人精品动漫| 欧美成人激情在线| 欧洲成人一区二区三区| 色综合久久久久综合体| 欧美福利在线视频| 国产精品一区二区免费不卡| 东北少妇不带套对白| 要久久电视剧全集免费| 国产精品女人网站| 香蕉久久aⅴ一区二区三区| 亚洲国内精品在线| 天天干,天天干| 亚洲色图视频网| 国产国语性生话播放| 免费不卡在线视频| 每日在线观看av| 不卡av一区二区| 国产91精品入口17c| 亚洲妇女成熟| 久久网福利资源网站| 污视频在线免费| 欧美日韩电影在线播放| 激情四射综合网| 国产日韩欧美精品在线| 能看毛片的网站| 奶水喷射视频一区| 国产成人精品免费看在线播放| 久草精品视频| 成人情趣片在线观看免费| 91白丝在线| 播播国产欧美激情| 四虎在线免费观看| 欧美二区乱c少妇| 西西44rtwww国产精品| 亚洲欧洲韩国日本视频| 日韩精品卡通动漫网站| 久久精品国产秦先生| 日韩精品一区二区三区久久| 亚洲综合自拍| 色综合久久久久久久久五月| 国产精品极品在线观看| 国产欧美日韩高清| 色老太综合网| 午夜欧美大片免费观看| 成人日日夜夜| 最好看的2019的中文字幕视频| 天堂а√在线8种子蜜桃视频| 91精品国产一区二区三区| 国产99久久久久久免费看| 天天综合天天综合色| 国产午夜手机精彩视频| 中文字幕欧美日本乱码一线二线| 亚洲一区二区三区无码久久| 成人免费精品视频| 中文字幕一区二区在线观看视频| 日韩不卡一区二区三区 | 日本在线不卡视频| 国产精品333| 最新日韩在线| 精品久久久久久无码中文野结衣| 天天综合网91| 一区二区三区四区| 成人综合一区| 五月天亚洲综合| 欧美亚洲在线日韩| 日本一区二区三区四区在线观看 | 亚洲三区在线| 操欧美老女人| 四虎永久国产精品| 激情综合网五月| 欧美日韩三区四区| 自拍亚洲一区| 日韩精品一区二区三区丰满| 最新国产一区| 欧美另类一区| 精品日本12videosex| 日韩精品一区二区三区四区五区| 深爱激情综合网| 视频在线精品一区| 青青一区二区三区| 一本一道久久a久久精品综合| 欧美综合另类| 亚洲免费av网| 欧美影视一区| 99在线免费视频观看| 亚洲欧美伊人| 日本人体一区二区| 亚洲一区日本| 国产福利一区视频| 麻豆精品一二三| 先锋资源在线视频| 国产成人亚洲综合a∨婷婷图片| 波多野结衣三级视频| 波多野结衣中文一区| 少妇光屁股影院| 国产亚洲女人久久久久毛片| 人妻精品久久久久中文| 国产精品情趣视频| 欧美成人精品欧美一级| 亚洲大片免费看| 亚洲精品男人的天堂| 欧美性做爰猛烈叫床潮| 国产特黄一级片| 亚洲精品一线二线三线| 欧洲毛片在线| 精品国产欧美一区二区三区成人 | 久久不见久久见中文字幕免费| 少妇特黄a一区二区三区| 五月天久久网站| 人妻少妇精品久久| 久久久久久一区二区| 亚洲欧美手机在线| 9l国产精品久久久久麻豆| 国产精品无码久久久久一区二区| 国产精品福利av| 日韩黄色a级片| 欧美日韩国产欧美日美国产精品| 亚洲伦理在线观看| 亚洲香蕉成人av网站在线观看| 久久bbxx| 欧美在线视频在线播放完整版免费观看 | 国产精品亚洲二区| 中文字幕精品在线播放| 国产精品一区亚洲| 免费在线观看污网站| eeuss影院一区二区三区 | 亚洲国产日韩a在线播放性色| 欧美一区二区三区网站| 欧美一区二区三区免费大片 | 色婷婷久久综合中文久久蜜桃av| 欧美一区二区精品久久911| 国产又爽又黄网站亚洲视频123| 久久人人爽人人爽爽久久| 樱花草涩涩www在线播放| 亚洲mm色国产网站| 国产成人短视频在线观看| 97碰在线视频| 韩国毛片一区二区三区| 精品国产av无码| 午夜激情一区二区三区| 国产又大又粗又硬| 国产亚洲一区二区精品| 超碰成人av| aaa级精品久久久国产片| 成人高清电影网站| 男女视频网站在线观看| 国产激情视频一区二区在线观看| 无码人妻aⅴ一区二区三区69岛| 五月激情综合色| 亚洲AV无码一区二区三区性| 在线观看欧美日韩| 欧美aa视频| 久久久久久久久久久一区| 欧美午夜一区二区福利视频| 欧美视频国产视频| 国产拍揄自揄精品视频麻豆| 中国一级免费毛片| 精品99一区二区| 日本三级韩国三级欧美三级| 成人免费福利视频| 91蜜臀精品国产自偷在线| 九九九在线观看视频| 久久色视频免费观看| 91在线看视频| 日韩av在线网站| 国产va在线视频| 精品国产乱码久久久久久108| 极品av少妇一区二区| 久久久久亚洲av无码专区首jn| 亚洲精品综合在线| 国产精品毛片一区二区在线看舒淇| 日韩在线精品视频| 欧美大片网站| 欧美一级免费在线观看| 韩国女主播成人在线观看| 51精品免费网站| 日韩欧美三级在线| 俺来也官网欧美久久精品| 动漫3d精品一区二区三区| 欧美片第1页综合| 一级黄色电影片| 亚洲风情在线资源站| 熟妇人妻系列aⅴ无码专区友真希| 欧美精品九九久久| 露出调教综合另类| 欧美日韩亚洲一| 日本一区二区久久| 亚洲手机在线观看| 久久深夜福利免费观看| 日韩精品视频在线看| 777av视频| 久久麻豆一区二区| 天天干,天天干| 久久精品免费电影| 日韩精品一区二区三区中文字幕 | 精品深夜av无码一区二区老年| 亚洲大尺度美女在线| 亚洲天堂av影院| 日韩在线三级| 国产老肥熟一区二区三区| 不卡的免费av| 亚洲天堂精品在线| 99国内精品久久久久| 日韩日韩日韩日韩日韩| 日本一区二区三区四区在线视频 | 国产老肥熟一区二区三区| 久视频在线观看| 国产午夜精品全部视频在线播放| 久久夜夜久久| 欧美精品卡一卡二| 欧美激情在线免费观看| 性色av蜜臀av| 日本精品va在线观看| 欧美残忍xxxx极端| 在线观看一区二区三区视频| 欧美性猛交xxxx黑人| 成人在线网址| 另类视频在线观看+1080p| 九九**精品视频免费播放| 日本熟妇一区二区| 中文字幕国内精品| 中文久久电影小说| 天天爽人人爽夜夜爽| 亚洲午夜在线电影| 9色在线视频网站| 精品视频在线观看| 国产精品影视天天线|