精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎?

譯文 精選
人工智能
LLM能否通過學習自己生成的推理痕跡來提高推理能力?他們提出了“??思考、修剪、訓練??”(TPT)框架,允許LLM使用精心選擇的自生成數據迭代地改進它們的推理能力。?

譯者 | 李睿

審校 | 重樓

針對提升LLM推理能力面臨的挑戰,斯坦福大學研究人員提出了“思考、修剪、訓練”(TPT)框架,讓LLM利用自生成且驗證正確的數據迭代優化。研究表明,無需強化學習、大型數據集或外部教師模型,TPT可以使較小模型推理性能媲美甚至超越大模型,凸顯了TPT框架在提升模型推理能力和準確性的潛力。

目前,缺乏高質量的訓練數據仍然是提高大型語言模型(LLM)推理能力的主要障礙之一。

斯坦福大學研究人員最近進行的一項研究探索了一個頗具吸引力的替代方案:LLM能否通過學習自己生成的推理痕跡來提高推理能力?他們提出了“思考、修剪、訓練”(TPT)框架,允許LLM使用精心選擇的自生成數據迭代地改進它們的推理能力。

這種方法可能是朝著創造更智能、更高效的人工智能模型邁出的一步,而不是簡單地構建更大的模型和數據集。

提升人工智能推理能力面臨的挑戰

在LLM進行初始訓練之后,提升其推理能力目前主要有兩種策略。一種方法是“監督微調”(SFT),即LLM從精心整理的問題數據集及其逐步解決方案中學習。另一種流行的方法是蒸餾”,即一個規模較小的LLM通過模仿一個能力更強、規模更大的“教師”模型的輸出進行學習。

而這兩種方法都有局限性。SFT需要大量高質量的推理示例數據集,創建這些數據集通常成本昂貴又耗時。另一方面,“蒸餾”完全依賴于獲得強大的、通常是專有的“教師”模型。

這就提出了一個令人信服的問題:LLM能否通過對自己生成的數據進行遞歸微調來改進?早期的嘗試面臨著一個被稱為“模式崩潰”(Mode Collapse)的重大障礙。當LLM在未經過濾的輸出上迭代訓練時,它們的性能往往會隨著時間的推移而下降,可能會開始產生幻覺,忘記以前學到的知識,并生成質量較低的文本,從而陷入惡性循環。

在迭代訓練中,一個相關但不同的風險是“模式崩潰”。當一個模型開始收斂于一組狹窄的高概率輸出時,就會發生這種情況,其響應變得不那么多樣化和具有探索性。雖然之前關于模式崩潰的研究主要集中于沒有明確正確或錯誤答案的一般文本生成上,但對于可以驗證正確性的推理任務進行遞歸微調,則帶來了模式崩潰的可能性,即模型局限于非常具體的答案,失去了探索替代推理路徑的能力。

思考、修剪、訓練(TPT)框架

斯坦福大學研究人員希望探究,在不采用其他方法帶來的復雜性的情況下,模型推理能力的自我提升是否可行。盡管此前許多研究將自我提升視為強化學習(RL)問題,但TPT采取了更為直接的路徑。

它采用標準的SFT,但有一個關鍵轉折:模型僅在經過驗證的正確推理嘗試中進行微調。研究人員探索了是否可以通過仔細選擇這種自生成的數據來實現有效的迭代細化。

以下是思考、修剪、訓練(TPT)框架的工作原理:

  • 思考(Think):提示當前版本的模型為一組問題生成逐步解決方案(推理痕跡或“思維鏈”)。
  • 修剪(Prune):這是一種過濾解決方案,通過檢查已知的基本事實答案,只保留那些明顯正確的解決方案。這種基于正確性的修剪是避免早期遞歸訓練嘗試中出現的模式崩潰的關鍵。
  • 訓練(Train):使用SFT在其自身經過驗證的正確推理軌跡集上對模型進行微調。

然后重復這個循環,新改進的模型為下一輪TPT生成數據。

圖1 思考、修剪、訓練(TPT)框架的工作原理

至關重要的是,與DeepSeek-R1或LLaMA 3.1的后訓練(Post-training)等模型中使用的基于強化學習(RL)的方法不同,TPT只關注這種遞歸的、基于正確性的SFT。它表明,不需要強化學習、學習獎勵函數或外部“教師”模型,而是依靠結構化提示和基礎事實驗證,就可以實現自我完善。

為了嚴格測試這些改進是否來自真正的自我完善,而不僅僅是接觸更多的數據,研究人員仔細設計了實驗。在每一輪TPT中,他們保持訓練數據集大小不變,每個問題只使用一個唯一的正確解決方案。

此外,他們并沒有在各輪TPT流程中積累數據,而是采用最新模型版本中新生成的解決方案取代了訓練集。這確保了任何性能提升都真正歸功于迭代改進過程。

正如斯坦福大學研究人員在論文所指出的那樣,“研究表明,在嚴格的數據約束下,迭代微調可以帶來有意義的收益,這表明模型改進不僅僅是數據集的擴展。”

讓更小的模型發揮更大的作用

研究人員在谷歌公司的Gemma模型(gemma2-2b-it, gemma2-9b-it)和Meta公司的Llama模型(Llama-3.1-1B-Instruct, Llama-3.1-70B-Instruc)的指令調優版本上測試了TPT,主要在GSM8K數學單詞問題基準和CodeContests編程挑戰數據集上對它們進行了評估。

其結果令人矚目。通過TPT流程,相對較小的模型實現了與更大的模型相當甚至更優的推理性能。例如,在GSM8K上,Gemma2-2B模型的準確率(Pass@1,意味著首次嘗試就獲得正確結果)從41.9%躍升至57.6%。Gemma2-9B模型超過了規模更大的LLaMA-3.1-70B-Instruct的基準性能。相應地,使用TPT的LLaMA-3.1-70B將Pass@1分數從78.6%提升至91.5%,甚至超過了當時GPT-4o在該基準上的報告得分。

有趣的是,這些模型性能提升的速度各不相同。規模較小的Gemma-2-2B模型的性能需要四輪TPT才能達到峰值,而中等規模的Gemma-2-9B模型在三輪TPT內提升更快。大型LLaMA-70B模型的性能僅在一輪TPT之后就得到顯著提升,這表明較大模型可能更快地整合了自生成推理的學習內容。

圖2 Gemma2-2B模型和Gemma2-9B模型在四輪TPT中的性能表現

研究人員還研究了模式崩潰的可能性。雖然模型在第一次嘗試(Pass@1)時的準確性不斷提高,但它們在多次嘗試(通過Pass@20或Pass@50測量)中生成多種正確答案的能力在第一輪TPT之后趨于平穩。這表明,TPT流程確實引導這些模型優先考慮高可信度、正確的解決方案,而不是探索不同的推理路徑。然而,研究人員認為,這并不一定對數學和編程等任務有害,在這些任務中,正確性和效率往往是最重要的。通過將模型集中在經過驗證的推理上,TPT甚至可以幫助減少幻覺,并提高對準確性敏感的應用程序的可靠性。

“思考、修剪、訓練”(TPT)框架有力地論證了大型語言模型(LLM)能夠進行自我訓練成為更優秀的推理者。正如研究人員在論文中所寫的那樣,“結構化推理提示、基于正確性的修剪,以及對經過驗證的解決方案的監督微調,可以在沒有外部監督的情況下實現推理能力的自我提升,凸顯了簡化框架在LLM推理和準確性方面進一步發展的潛力。”

原文標題:Can LLMs learn to reason without RL or large datasets?,作者:Ben Dickson

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2025-05-28 02:25:00

2024-09-13 06:32:25

2025-03-21 13:00:54

2025-10-10 09:02:16

2025-10-11 04:00:00

2022-12-01 08:00:00

2022-07-31 23:55:23

區塊鏈加密貨幣代幣

2025-06-05 06:36:17

2025-06-10 11:22:09

強化學習AI模型

2025-10-10 08:33:49

2020-01-23 15:33:07

AI 數據人工智能

2025-05-26 17:16:51

2025-02-20 09:11:28

2021-03-05 09:00:00

人工智能強化學習廣告

2019-07-19 13:39:47

2022-12-21 17:27:30

強化學習AI

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2025-06-23 09:14:00

2025-03-07 09:24:00

點贊
收藏

51CTO技術棧公眾號

国产伦精品一区二区三| 亚洲美女www午夜| 久久久91精品国产一区二区精品 | 亚洲春色一区二区三区| 在线成人h网| 亚洲视频综合网| 999久久久精品视频| 超级白嫩亚洲国产第一| 日本一区二区三区久久久久久久久不| 成人欧美一区二区三区在线| 日本亚洲色大成网站www久久| 精品午夜久久| 精品国产露脸精彩对白| 久久黄色免费看| av网址在线免费观看| 97久久精品人人爽人人爽蜜臀| 国产精品久在线观看| 国产中文字字幕乱码无限| 欧美日韩激情在线一区二区三区| 欧美电影免费观看完整版| 免费在线观看毛片网站| 丁香影院在线| 亚洲欧洲精品成人久久奇米网| 久久精品美女| 亚洲AV无码精品国产| 日本欧美一区二区三区乱码| 久久久亚洲影院你懂的| 久久av红桃一区二区禁漫| 麻豆精品av| 日韩欧美不卡在线观看视频| 激情黄色小视频| 久久uomeier| 午夜精品福利视频网站| 91精品国产毛片武则天| av中文字幕在线| wwwwww.欧美系列| 国产精选在线观看91| 国产乱码精品一区二区| 免费黄网站欧美| 日韩av观看网址| 一级片免费网址| 99精品福利视频| 免费高清视频精品| 在线视频亚洲欧美| 色一情一交一乱一区二区三区 | jizzjizz日本少妇| 国产一区二区三区网| 亚洲精品98久久久久久中文字幕| 四川一级毛毛片| 精品国产亚洲日本| 欧美一级生活片| 在线观看日本www| 99精品女人在线观看免费视频 | 午夜精品久久久久久久第一页按摩| 男人的天堂久久精品| 国产成人在线精品| 男人天堂视频在线| 奇米影视一区二区三区| 国产精品久久久久久久久久久久| 国产性生活视频| 日韩福利视频网| 国产精品高潮呻吟久久av野狼| 无码人妻久久一区二区三区不卡| 亚洲欧美日韩精品一区二区| 欧美在线一级va免费观看| 天天爽夜夜爽夜夜爽精品| 亚洲伦伦在线| 欧美孕妇毛茸茸xxxx| 麻豆精品久久久久久久99蜜桃| 国产精品久久久久久久免费软件 | 精品无码av无码免费专区| 特级毛片在线| 精品国产福利视频| 无码精品国产一区二区三区免费| 亚洲天堂1区| 欧美二区乱c少妇| 国产xxx在线观看| 欧美调教在线| 国产一区二区日韩| 女人18毛片毛片毛片毛片区二| 一级欧美一级日韩| 亚洲精选国产| 国产91精品网站| 在线免费观看一级片| 国产一区美女在线| 国产乱子伦精品| 川上优的av在线一区二区| 欧美精品色一区二区三区| www.com黄色片| 日韩成人在线电影| 日韩三级电影网址| 波多野结衣影院| 欧美日韩第一| 欧美放荡办公室videos4k| 五月天婷婷综合网| 男女激情视频一区| av色综合网| 精品成人一区二区三区免费视频| 国产精品国产自产拍在线| av动漫在线播放| 在线手机中文字幕| 欧美一区二区在线观看| 超碰caoprom| 日韩电影免费在线观看| 欧美精品videosex牲欧美| 欧美一区二区三区网站| 国产一区二区三区免费观看| 久久久com| www国产在线观看| 日韩欧美成人网| 色姑娘综合天天| 欧美猛男做受videos| 欧美激情a在线| 欧美国产一级片| 成人v精品蜜桃久久一区| 亚洲视频小说| 亚洲国产精品无码久久久| 永久免费毛片在线播放| 一本色道亚洲精品aⅴ| 波多野结衣免费观看| 你微笑时很美电视剧整集高清不卡| 超碰日本道色综合久久综合| 岛国av中文字幕| 成人动漫中文字幕| 大地资源网在线观看免费官网| 电影久久久久久| 亚洲激情视频在线| 欧美精品一区二区成人| 精品系列免费在线观看| 欧洲国产精品| 美女搞黄视频在线观看| 欧美成人伊人久久综合网| 国产在视频线精品视频| 视频在线观看国产精品| 精品视频第一区| 久久大胆人体| 日韩三级视频在线观看| 色哟哟一一国产精品| 免费在线看成人av| 日本欧美精品久久久| 日韩欧美精品一区二区三区| 精品国产欧美一区二区| 欧美激情精品久久久久久免费| 石原莉奈在线亚洲二区| 免费av一区二区三区| 国产伦子伦对白在线播放观看| 欧美成人video| 欧美日韩亚洲国产另类| 国产乱码精品一区二区三 | 农村妇女精品一二区| 欧美a级网站| 51ⅴ精品国产91久久久久久| 人妻一区二区三区四区| 亚洲成a人在线观看| 日本一区二区在线观看视频| 激情综合激情| 久久99精品久久久久久青青日本 | 欧美大片aaaa| 国产日韩欧美在线看| 一区二区高清不卡| 777亚洲妇女| 深夜福利影院在线观看| 国产一级在线| 亚洲精品国产精品乱码不99| 在线观看一区二区三区视频| 欧美网站在线| 国产日韩一区二区| 日韩伦理精品| 中文字幕少妇一区二区三区| 91福利在线观看视频| 亚洲视频一区二区在线观看| 国产伦理在线观看| 91久久黄色| 欧美日韩综合网| 欧美黄色网络| 欧美国产日韩一区二区在线观看| 无码h黄肉3d动漫在线观看| 自拍av一区二区三区| 亚洲高清无码久久| 久久久精品性| 天天爱天天做天天操| 成人搞黄视频| 国产精品精品视频| caoporn免费在线| 亚洲国产女人aaa毛片在线| 久久久久久无码午夜精品直播| 国产精品蜜臀在线观看| 亚洲成a人片在线www| 久久成人一区| 黑人巨茎大战欧美白妇| 亚洲精品aaaaa| 91免费在线视频网站| 美女的胸无遮挡在线观看| 日韩在线视频中文字幕| 亚洲国产精彩视频| 欧美中文字幕亚洲一区二区va在线| av激情在线观看| 久久青草国产手机看片福利盒子 | 久久久久久一区二区三区四区别墅| 九九久久久久99精品| 欧美孕妇性xxxⅹ精品hd| 欧美人体做爰大胆视频| 免费日韩一级片| 自拍偷拍国产精品| 亚洲欧美va天堂人熟伦| 成人免费毛片app| 九九热精品在线播放| 亚洲国产午夜| 色乱码一区二区三区熟女| 日韩精品社区| 92国产精品视频| 色天使综合视频| 91国内产香蕉| 亚洲电影视频在线| 一本色道久久综合亚洲精品小说 | 在线一区视频观看| 91精品国产乱码久久久久久蜜臀| 欧美激情黑人| 国产亚洲综合久久| 亚州男人的天堂| 精品美女在线播放| 91福利免费视频| 在线观看91视频| 好看的av在线| 性欧美疯狂xxxxbbbb| 日韩女优一区二区| ...xxx性欧美| 国产精品情侣呻吟对白视频| 2014亚洲片线观看视频免费| 成人区人妻精品一区二| 国产成人精品亚洲777人妖| 日韩av.com| 蜜桃一区二区三区四区| 十八禁视频网站在线观看| 亚洲激情婷婷| 男人天堂手机在线视频| 欧美精品一卡| 精品免费久久久久久久| 欧美韩国日本在线观看| 性欧美.com| 成人aaaa| 亚洲永久激情精品| 日韩欧美午夜| 伊人久久婷婷色综合98网| 日韩av专区| 在线观看欧美亚洲| 欧美国产一级| 日韩不卡一二区| 在线中文字幕亚洲| 粉嫩av一区二区三区天美传媒| 久久久久免费av| 日本一区二区三区四区五区六区| 久久精品欧美一区| 亚洲一区三区电影在线观看| 成人无号精品一区二区三区| 亚洲欧洲日夜超级视频| av亚洲免费| 色噜噜色狠狠狠狠狠综合色一| 波多野结衣在线观看一区二区| 亚洲 日韩 国产第一区| 日韩成人a**站| 亚洲AV无码成人精品一区| 亚洲国产精品久久久久蝴蝶传媒| www.黄色网址.com| 国产一区日韩欧美| 69sex久久精品国产麻豆| 亚洲欧洲一区| 美女黄色片视频| 国内外成人在线| 五月天丁香社区| 久久亚洲一区二区三区四区| 韩国女同性做爰三级| 国产精品天美传媒沈樵| 久久高清内射无套| 亚洲3atv精品一区二区三区| 丁香六月婷婷综合| 欧美三日本三级三级在线播放| 一区二区美女视频| 无遮挡的视频在线观看| 色8久久久久| 国产精品成人v| 日韩美香港a一级毛片| 国产日韩在线播放| 538任你躁精品视频网免费| 精品国产综合久久| 色88久久久久高潮综合影院| 加勒比海盗1在线观看免费国语版| 影音先锋久久精品| 波多结衣在线观看| 国产iv一区二区三区| 国产精品无码一区二区三区免费 | 欧美一区二区黄| 婷婷在线免费视频| 中文字幕免费精品一区| 视频在线这里都是精品| 欧美在线视频免费| 日韩成人在线看| 欧美精品中文字幕一区二区| 91久久高清国语自产拍| 日本www在线视频| 老司机精品视频导航| 污污污www精品国产网站| 国产精品免费久久久久| 日本一级片免费看| 欧美精品第1页| 噜噜噜噜噜在线视频| 久久99热精品| 精品欧美一区二区三区在线观看| 99re视频| 91精品99| 九九九在线观看视频| 成人午夜电影久久影院| 日韩在线视频网址| 色婷婷综合在线| 高h放荡受浪受bl| 久久天天躁狠狠躁夜夜躁2014| 自由日本语热亚洲人| 成人91视频| 亚洲啊v在线观看| 午夜dv内射一区二区| 成人动漫视频在线| 国内偷拍精品视频| 欧美日韩一区成人| 久草在线网址| 91极品视频在线| 欧美大胆视频| 久久久久免费看黄a片app| 国产精品一区久久久久| 亚洲av无一区二区三区| 91国产丝袜在线播放| 天堂网www中文在线| 欧美精品videos另类日本| 精品午夜av| 国产大尺度在线观看| 美腿丝袜亚洲一区| 制服 丝袜 综合 日韩 欧美| 欧美午夜性色大片在线观看| 蜜桃av噜噜一区二区三区麻豆| 久久精品视频亚洲| 亚洲精品成a人ⅴ香蕉片| 亚洲国产欧美一区二区三区不卡| 蜜乳av另类精品一区二区| 日本japanese极品少妇| 午夜精品福利在线| 天堂在线资源网| 91精品国产色综合久久不卡98| 久久精品66| 国产亚洲综合视频| 91丨九色丨国产丨porny| 日韩精品成人一区| 亚洲黄色有码视频| 蜜桃视频在线观看免费视频| 韩国成人一区| 亚洲一区网站| 性欧美精品中出| 欧美日韩在线三区| 精品黄色免费中文电影在线播放| 国产专区欧美专区| 亚洲精品国产首次亮相| 中文字幕久久久久久久| 亚洲www啪成人一区二区麻豆| 色综合久久久久久| 欧美一级大片视频| 日韩电影一区| 中文字幕一二三| 午夜久久电影网| 国产视频精品久久| 成人女保姆的销魂服务| 欧美片第1页综合| 欧美无人区码suv| 91国偷自产一区二区三区成为亚洲经典| 成年人在线观看| 亚洲伊人久久综合| 国产美女一区| 国产午夜福利一区| 欧美一区二区三区婷婷月色| heyzo高清在线| 奇米视频888战线精品播放| 激情深爱一区二区| 久久精品无码人妻| 亚洲图片在线综合| www.久久99| 国产中文字幕免费观看| 国产精品高潮呻吟| 日本韩国免费观看| 国产精品com| 欧美一区不卡| 日韩人妻一区二区三区| 欧美日韩精品一二三区| 狂野欧美激情性xxxx欧美| 日本一区不卡| 国产suv一区二区三区88区| 永久免费无码av网站在线观看| 日韩亚洲综合在线| 精品欠久久久中文字幕加勒比| 国产九九在线观看| 欧美日韩激情小视频| 美女av在线播放| 日本免费高清不卡| 成人做爰69片免费看网站|