精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓模型像人一樣思考

發布于 2025-2-13 12:10
瀏覽
0收藏

一、背景

2024年9月OpenAI發布的o1-preview模型展現出了在解決復雜問題上的強大邏輯思維能力。相比之前傳統的Chat類模型,o1類模型在解決問題時會構建出長序列的思維鏈chain-of-thought(CoT)進行推理,通過問題拆解、中間步驟驗證、思維探索等方法,最終找到問題的正確解答方法。OpenAI對o1模型的介紹中也著重強調了CoT的重要性【1】。

類似于人類在回答一個困難問題時可能會思考很長時間,o1 在解決問題時也采用了鏈式思維。通過強化學習,o1 學會了優化自己的思維鏈條并改進使用的策略。它學會了識別和糾正自己的錯誤,學會將復雜的步驟拆解成更簡單的部分,學會在當前方法無效時嘗試不同的解決方案。這個過程顯著提升了模型的推理能力。

我們分別測試了ChatGPT與OpenAI o1-preview對"strawberry"單詞中字母"r"的數量的回答,發現o1-preview不僅給出了正確答案,還展示了它獲取答案的推理過程。

讓模型像人一樣思考-AI.x社區

o1-preview的出現激起了人工智能領域對大模型推理能力探索的浪潮。至今已經涌現出了QwQ,DeepSeek等許多性能比肩o1的開源模型。與此同時,研究者們探索出了多種模型思維鏈生成的構建方法。本文就目前最主流的有監督學習SFT + 強化學習RL方法進行一些簡單介紹,希望能夠給到讀者一些啟發。

二、構建流程

構建模型思維鏈背后的關鍵技術,正是強化學習。強化學習通過獎懲機制,激勵模型進行探索,促進其在任務執行中的持續優化。與傳統的有監督微調方法相比,強化學習強調更多的探索和自我優化,能夠幫助模型突破數據本身的局限,學會更多的推理模式和思維方式。下面就SFT和強化學習在思維鏈中的應用分別進行介紹。

1.有監督微調SFT

有監督微調SFT是一種非常高效的讓模型學習“模仿”生成思維鏈來解決問題的訓練方法。通過在預先構建好的CoT數據中進行teacher learning,SFT可以讓不具備生成長CoT內容或者CoT效果比較差的基礎模型性能得到大幅提升。SkyThought通過在數學問題中進行研究,作者發現使用高質量CoT數據進行SFT,模型就能夠達到比肩o1-preview的效果【2】。

讓模型像人一樣思考-AI.x社區

然而僅使用CoT數據進行SFT會存在幾點問題:

  • 目前CoT的數據主要通過API蒸餾高性能o1類模型生成,這些模型本身的CoT生成能力決定了使用生成數據SFT后的模型上限。
  • CoT數據的人工標注成本昂貴,在SFT的后期,模型性能的提升可能對高質量數據的需求成指數級增加。
  • SFT方式是一種確定性的學習方式,目前還沒有研究發現僅通過SFT能夠讓模型出現超出數據范圍的探索能力,這可能會限制模型學會通用推理能力。

為了解決上面的問題,我們需要借助強化學習的力量。目前幾乎所有的研究人員都將SFT作為強化學習的前置訓練,以此加速強化學習的訓練。值得一提的是,在最近開源的DeepSeek-R1技術報告中,作者發現即使不使用SFT直接在基礎模型上進行強化學習訓練,模型也能學會生成思維鏈,而且在訓練到一定階段,模型的思維鏈中還會自發性地涌現出反思這類行為。不過作者也提到,這種直接強化學習得到的模型生成的內容可讀性會比較差【3】。因此,SFT作為RL的前置訓練還是有必要的。

2.強化學習訓練

強化學習RL早已在人工智能領域大量應用,無論是之前名噪一時的AlphaGo,還是最近幾年大模型訓練中的RLHF,強化學習已被證明可以應用在進一步提升SFT后的模型性能。在介紹如何應用RL提升模型長CoT能力之前,我們先簡單回顧下RL的幾個重要概念。

(1)結果監督法

結果監督方法顧名思義,是指只利用最終的結果來對整個策略步驟進行優化的方法。

數據生成:結果監督的數據一般可通過人工標注或者模型生成獲得。在使用模型生成時,一般會采用拒絕采樣reject sampling的方法。對于數學這類有明確答案的問題,我們可以直接比較生成的最終答案和gt是否匹配,不匹配的數據直接刪除。對于代碼問題,可以通過執行測試樣例的方法剔除錯誤數據。

模型訓練:結果獎勵模型ORM一般采用二分類模型,通過標注的數據來判斷結果是否正確。所以直接在數據上進行有監督訓練即可。

(2)過程監督法

過程監督方法是對思維鏈的每步推理都進行評分,因此PRM是一種針對思維鏈訓練的改進獎勵模型。相比于結果監督,過程監督的獎勵更加稠密,因此訓練時穩定性和效率會更好。這里我們可以參考OpenAI的比對試驗,相比于結果監督模型ORM,過程監督模型PRM在每個問題生成的N個候選答案中找到正確答案的概率更大,并且隨著N的增加,其與ORM之間的差距會進一步拉大【4】。

讓模型像人一樣思考-AI.x社區

數據生成:OpenAI開源的過程監督數據集PRM800K質量比較高,采用的是人工標注的方法,只可惜PRM800K數據集只有數學問題。除了人工標注方法外,也可以通過模型生成,感興趣的可以參考Math-Shepherd中的方法【5】。

模型訓練:過程獎勵模型本質上是一個輸出標量分值的模型,不同的研究者會使用不一樣的訓練方法,可以參考Math-Shepherd中的方法將整個推理過程輸入,mask掉步驟以外的tokens,這樣可以提高訓練效率。最近也發現一篇清華研究者提出的使用隱式獎勵訓練PRM的方法,這種方法可以直接使用ORM數據來訓練,也很有參考價值【6】。

結果監督和過程監督方法對比 


優點

缺點

結果監督

  • 標注簡單
  • 無須進行步驟拆分
  • 給模型更大的優化自主性
  • 學習不穩定,容易陷入局部最優
  • 訓練效率低


過程監督

  • 訓練穩定,高效
  • 能引導模型進行步驟級的優化
  • 標注成本高
  • 需要明確的步驟拆分方法

強化學習訓練

無論是使用結果獎勵模型還是過程獎勵模型,有了這些模型我們就可以對策略模型的輸出結果打分,然后使用PPO這類強化學習算法不斷調整模型參數,讓模型自己優化思維鏈。

3.解碼策略

o1類模型的推理除了正常的序列解碼之外,還可以結合蒙特卡洛樹搜索(Monte Carlo Tree Search,MCTS)來增加思維鏈的搜索空間,從而提高模型找到正確答案的概率。

蒙特卡洛樹搜索是一種通過模擬隨機游戲過程來尋找最優策略的算法。該算法的主要步驟可以分為四個階段【7】:

  • 選擇(Selection):從根節點開始,按照一定的策略(如使用UCT方法)選擇一個子節點,直到到達一個尚未完全展開的節點
  • 擴展(Expansion):在選擇的節點上開展新的子節點
  • 模擬(Simulation):從擴展的新節點開始,進行隨機模擬直到到達終止狀態
  • 回溯(Backpropagation):將模擬的結果反饋回樹的上層節點,更新這些節點的狀態信息

讓模型像人一樣思考-AI.x社區

相比于每個節點都隨機采樣的方法,MCTS依靠(Upper Confidence Bound applied for Trees,UCT)算法實現了搜索過程中規避掉已充分探索的低概率獲勝節點,成為找到最佳決策路徑的一種非常高效的搜索算法。

UCT值的計算方法

讓模型像人一樣思考-AI.x社區

Q:截止到本輪rollout為止,該節點的累積reward

N:截止到本輪rollout為止,該節點的累積被訪問次數

N_parent:截止到本輪rollout為止,該節點的父節點累積被訪問次數

c:探索權重,c值越大,MCTS越傾向于選擇選擇累積被訪問次數較少的節點

通過UCT的公式,搜索的前期一般將c設置的比較大,對節點充分探索。在探索后期將c值減小,從而更多采樣獲勝概率高的路徑,提高評估準確性。

MCTS方法在大模型推理中的應用

在這里我們以微軟的開源工作rStar來詳細介紹MCTS是如何應用在大模型推理階段的。首先假設我們已提前訓練好一個具有CoT能力的模型M,并且在模型M中預先定義了5個行動策略,A1、A2、A3、A4和A5。它們分別代表了模型在推理的每一步可以選擇的行動,如重構問題、拆解問題,推理下一步等等。在每次回答問題之前,模型會先根據設定的rollouts數量用MCTS方法構建樹,然后再從所有的有效回答中選擇最佳的一個返回給用戶。

上面的描述可能不容易理解,我們可以通過一次rollout過程來幫助我們理解。首先我們把原始問題看作是樹的根節點,從根節點出發我們進行一次MCTS。在第一次搜索階段,因為根節點下面都沒有子節點,所以MCTS會選擇根節點,而在后續探索中,如果一個節點之前已經被探索過,MCTS會根據其子節點的UCT值選擇最大的一個。接著,我們對根節點進行拓展,MCTS會將所有可能的子節點都擴展出來,然后從中隨機選擇一個。后面的模擬就是會不斷重復選擇-擴展,直到到達葉子節點(節點生成了最終答案,或者節點到達了最大步驟限制)。這樣一個從根節點到葉子節點的路徑稱之為1個rollout。我們可以發現,在一次rollout過程中,MCTS是有可能在一些擴展階段生成出葉子節點(但是沒有被選擇)。此外,實際推理過程中,模型在每個節點都會生成多個sample,每個sample都會被當作一個節點,以此拓展搜索空間。

在多輪rollouts之后,我們就得到了一棵相對完整的樹,之后在rStar中,作者使用了另一個打分模型從所有的有效結果路徑中找到一個評分最高的路徑作為最終結果【8】。

讓模型像人一樣思考-AI.x社區

三、總結

模型思維鏈能力的構建離不開SFT和RL的共同訓練。SFT作為RL的前置訓練用來提升模型思維鏈內容的基礎質量,因此需要保證數據的質量。RL訓練用于進一提高模型思維鏈的探索能力,其中結果監督和過程監督兩種方法各有利弊,應結合自身情況選擇。

參考資料:

【1】??https://openai.com/index/learning-to-reason-with-llms/??

【2】??https://novasky-ai.github.io/posts/sky-t1/??

【3】??https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file??

【4】??https://arxiv.org/abs/2305.20050??

【5】??https://arxiv.org/abs/2312.08935??

【6】??https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f??

【7】??https://en.wikipedia.org/wiki/Monte_Carlo_tree_search??

【8】???https://zhuanlan.zhihu.com/p/9154878387??

本文轉載自 ??AI遇見云??,作者: AI遇見云

已于2025-2-13 13:38:28修改
收藏
回復
舉報
回復
相關推薦
1024成人网| 日韩av电影天堂| 精品国产一区a| 欧洲精品在线播放| 天天干视频在线观看| 亚洲自拍另类| 伊人伊人伊人久久| www.成人黄色| 国产白丝在线观看| 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 国产91精品欧美| 97国产精品视频| 黄色aaa视频| 成人51免费| 亚洲va欧美va人人爽| 精品综合久久| 一级黄色大毛片| 牛夜精品久久久久久久99黑人| 欧美成人精品二区三区99精品| a在线视频观看| 日韩专区在线| 不卡视频免费播放| 国产欧美日韩视频| 五月天婷婷丁香| 日韩av二区| 亚洲成人网在线| 日韩av片专区| 一本大道色婷婷在线| 中文字幕一区二区三区乱码在线 | 一本大道色婷婷在线| 中文字幕一区在线观看| 久久精品第九区免费观看 | 激情成人综合| 在线电影中文日韩| 最新版天堂资源在线| 欧美性片在线观看| 精品国产乱码久久久久久天美| 污视频在线免费观看一区二区三区| 亚洲精品无amm毛片| 麻豆国产欧美一区二区三区| 韩剧1988在线观看免费完整版| 美国黄色特级片| 麻豆成人入口| 欧美电影免费提供在线观看| 日本a√在线观看| av免费不卡| 一区二区三区欧美日| 亚洲一区二区三区免费观看| 污视频网站免费观看| 麻豆一区二区在线| 国产精品久久久久久久久久免费 | 亚洲一二三四视频| 欧美**字幕| 日韩电影中文 亚洲精品乱码| 美女日批在线观看| 欧美黄色网络| 欧美午夜在线观看| av五月天在线| av有声小说一区二区三区| 欧美日韩免费在线观看| 拔插拔插海外华人免费| 日韩精品亚洲人成在线观看| 亚洲日本成人在线观看| 亚洲国产欧美日韩| 超碰国产在线观看| 中文字幕精品一区二区精品绿巨人| 欧美人与物videos另类| 青青草在线播放| 97se狠狠狠综合亚洲狠狠| 国产日韩亚洲精品| 天堂中文在线看| 97se亚洲国产综合在线| 欧美激情www| 你懂的视频在线观看| 久久久久久久久免费| 看高清中日韩色视频| 欧美日韩激情视频一区二区三区| av亚洲精华国产精华| 国产一区免费在线观看| 性感美女福利视频| xfplay精品久久| 欧美日韩最好看的视频| 国产在线观看免费| 国产精品欧美久久久久无广告 | 欧美a级免费视频| 日本在线视频中文有码| 亚洲香肠在线观看| 99999精品视频| 朝桐光一区二区| 欧美日韩成人一区二区| 国产欧美精品一二三| av不卡一区二区| 日韩成人性视频| 人人妻人人澡人人爽| 国产国产精品| 国内外成人免费激情在线视频网站 | 国产香蕉在线| 国产精品乱码久久久久久| 日本久久高清视频| 91九色在线看| 在线观看日韩一区| 永久免费看片在线观看| 亚洲精品中文字幕99999| 一区二区三区美女xx视频| 久久久久久久久久网站| av不卡免费看| 国产区精品视频| 人妻无码一区二区三区久久99| 久久蜜臀精品av| 国产又爽又黄ai换脸| 国产高清中文字幕在线| 欧美丝袜第三区| 亚洲成年人在线观看| 欧美精品色图| 欧美极品欧美精品欧美视频| 亚洲毛片一区二区三区| 国产精一品亚洲二区在线视频| 国产精品污www一区二区三区| 国产三级在线| 亚洲国产欧美在线| 嫩草影院国产精品| 国产精品久av福利在线观看| 最近2019好看的中文字幕免费| 免费在线视频观看| 麻豆精品一区二区| 久久国产精品久久精品国产| av观看在线| 在线观看一区二区精品视频| 日本不卡视频一区| 欧美大黑bbbbbbbbb在线| 欧美专区在线观看| 亚洲欧美强伦一区二区| 国产精品丝袜一区| 哪个网站能看毛片| 超碰97久久国产精品牛牛| 搡老女人一区二区三区视频tv| 久久久久久久黄色片| 国产美女主播视频一区| 亚洲v日韩v欧美v综合| 狠狠躁少妇一区二区三区| 欧美一级高清片| 午夜黄色福利视频| 视频在线观看91| 久久国产精品久久| 超碰在线视屏| 日韩欧美国产电影| 日韩av手机在线免费观看| 日日摸夜夜添夜夜添国产精品| 国产精品视频一区二区三区经| 快射视频在线观看| 欧美日韩精品系列| 天天操天天干天天操天天干| 久久久久久久波多野高潮日日| 国产伦精品一区| 国产高清在线a视频大全| 日韩久久精品一区| 激情综合网五月天| 国产精品99久久久久久久女警 | 97久久超碰| 欧美裸身视频免费观看| 国产精品久久久久久久一区二区| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久久av爽李琼 国产精品美女久久久久高潮 | 日韩片之四级片| 国产av 一区二区三区| 狠狠色综合日日| 五月天综合婷婷| av在线播放一区二区| 久久资源免费视频| h片在线免费看| 亚洲黄色小视频| 黄色av电影网站| 亚洲福利一区| 精品999在线观看| 制服丝袜专区在线| 亚洲视频在线观看| 中文字幕在线观看1| 国产精品婷婷午夜在线观看| 亚洲va在线va天堂va偷拍| 午夜精品久久久久久久四虎美女版| 成人a级免费视频| 麻豆传媒在线观看| 日韩欧美第一区| 国产无遮挡又黄又爽在线观看| 99视频热这里只有精品免费| 六月丁香婷婷激情| 欧美一区二区麻豆红桃视频| 成人精品视频久久久久| 女人天堂av在线播放| 亚洲黄色有码视频| 成人小视频在线播放| 综合电影一区二区三区 | 精品亚洲永久免费| 99精品视频在线观看| jizz欧美激情18| 亚洲一区二区三区无吗| 国新精品乱码一区二区三区18| 自拍网站在线观看| 综合av色偷偷网| 性一交一乱一乱一视频| 日韩欧美中文免费| 在线观看黄网址| 波多野结衣视频一区| 亚洲人辣妹窥探嘘嘘| 欧美午夜久久| 欧美亚洲国产免费| 精品视频在线观看免费观看 | 在线看片成人| 色播亚洲婷婷| 成人av综合网| 国产精品视频自拍| freexxx性亚洲精品| 尤物精品国产第一福利三区| 精品人妻aV中文字幕乱码色欲| 欧美午夜女人视频在线| 国精产品一区一区二区三区mba| 成年人午夜久久久| 日本在线播放一区二区| 亚洲在线视频| 艳母动漫在线观看| 久久91精品| 好吊色欧美一区二区三区视频| 日韩色性视频| 日本91av在线播放| 国产三线在线| 操91在线视频| 国产youjizz在线| 亚洲第一中文字幕在线观看| 一级黄色大片免费| 欧美性20hd另类| 久久久精品人妻一区二区三区四 | av在线资源站| 亚洲激情成人网| 国产一区二区小视频| 色狠狠综合天天综合综合| 精品人妻在线播放| 一区二区在线观看免费视频播放| 久久久久久成人网| 久久久久久久久伊人| 中文字幕乱码一区| 成人性色生活片免费看爆迷你毛片| 嫩草影院国产精品| 日韩和欧美的一区| 青青青在线播放| 夜夜精品视频| 拔插拔插海外华人免费| 欧美三区美女| 无码人妻精品一区二区蜜桃百度| 欧美电影一区| 亚洲高清乱码| 欧美日韩老妇| 欧美裸体网站| 国产精品嫩模av在线| 久久偷窥视频| 亚洲成人一品| 久久爱av电影| 日韩理论电影中文字幕| 国产精品美女黄网| 999久久久精品一区二区| 91在线观看网站| 视频一区国产| 成人在线资源网址| 99精品中文字幕在线不卡| av成人免费观看| 视频精品二区| 99影视tv| caoporn成人| 国产麻豆一区二区三区在线观看| 91夜夜蜜桃臀一区二区三区| 国产精品播放| 国产精品白浆| 国产一区视频观看| 国产va免费精品观看精品视频| 欧美性色黄大片人与善| 久久福利综合| 97精品国产97久久久久久粉红| 亚洲激情中文在线| 污污污污污污www网站免费| 精久久久久久| 成人在线观看你懂的| 亚洲自拍另类| 色噜噜狠狠一区二区| 国产毛片精品国产一区二区三区| 无码人妻一区二区三区精品视频| 成年人国产精品| 中文字幕在线1| 国产精品精品国产色婷婷| 国产性xxxx| 精品成人久久av| 日韩黄色片网站| 91精品国产免费| 蜜桃视频在线观看www| 亚洲人精选亚洲人成在线| 调教视频免费在线观看| 欧美日韩999| 电影一区二区三| 国产美女扒开尿口久久久| 欧美视频二区欧美影视| 久久久影院一区二区三区| 成人毛片在线| 免费看欧美一级片| 日韩在线一区二区三区| 国产高清av片| 2021久久国产精品不只是精品| 国产一二三四区在线| 亚洲资源中文字幕| 进去里视频在线观看| 精品免费一区二区三区| 成人在线播放视频| 欧美精品激情在线| 成人福利一区二区| 国产精品久久久久久久小唯西川| 精品国产一区二区三区久久久樱花| 日本精品福利视频| 日韩精品福利网| 亚洲欧美综合视频| 中文字幕高清不卡| 日韩三级一区二区三区| 欧美日本韩国一区二区三区视频 | 国产剧情av在线播放| 国产在线观看不卡| 一区二区三区日本久久久| 国产激情片在线观看| 久久国产精品色婷婷| 日本aaa视频| 亚洲综合视频网| 亚洲天堂网在线观看视频| 亚洲精品久久久久久久久久久久久| 黄网站免费在线观看| 国产aⅴ夜夜欢一区二区三区| 99re8这里有精品热视频8在线| 亚洲综合首页| 日韩精品一二三区| 大黑人交xxx极品hd| 亚洲一区二区影院| 国产人妖一区二区三区| 中文字幕欧美专区| 欧美二三四区| 麻豆视频成人| 影音先锋国产精品| 成年人性生活视频| 亚洲色图视频网| 影音先锋国产在线| 在线观看日韩av| 都市激情综合| 久久久综合亚洲91久久98| 亚洲二区视频| 亚洲美女高潮久久久| 亚洲一二三四久久| 亚洲免费黄色片| 色综合久久88色综合天天看泰| 成人在线啊v| 黄色一级视频播放| 国产真实乱子伦精品视频| 中文字幕无码日韩专区免费| 欧美日韩亚洲另类| 137大胆人体在线观看| 国产精品视频xxx| 成人在线免费观看网站| 免费看污污网站| 国产精品国产三级国产aⅴ中文| 中文在线a天堂| 中文字幕亚洲欧美一区二区三区| 亚洲不卡系列| 亚洲精品成人久久久998| 老司机午夜精品| 小向美奈子av| 在线综合视频播放| 污视频网站在线免费| 国产精品欧美久久| 国产精品日韩| 久久久久久九九九九九| 色88888久久久久久影院野外 | 色偷偷av一区二区三区乱| 免费一级欧美在线观看视频| 伊人色综合影院| 国产一区二区电影| 久久久综合久久| 日韩精品免费一线在线观看| 97久久香蕉国产线看观看| 亚洲伊人婷婷| 国产一区二区不卡在线| 国产精品1234区| 亚洲精品自拍偷拍| 久久久免费人体| 老司机午夜网站| a亚洲天堂av| 免费视频网站在线观看入口| 色婷婷综合久久久久| 亚洲大奶少妇| 欧美精品99久久| 中文字幕精品在线不卡| 亚洲av无码一区二区乱子伦| 欧美一级淫片videoshd| 日韩欧美精品综合| 一级黄色电影片| 91福利在线导航| www在线视频| 欧美日韩高清在线一区| 狠狠色丁香久久婷婷综| 日韩美女视频网站|