精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI | Let’s Verify Step by Step詳細解讀

發布于 2024-7-12 11:00
瀏覽
0收藏

一、概述

title:Let’s Verify Step by Step

論文地址:https://arxiv.org/abs/2305.20050

代碼:https://github.com/openai/prm800k

1.1 Motivation

  • 近期大模型的出現極大的提升了復雜問題的多步推理能力,例如可以通過逐步思考(CoT)改善推理任務,但是即使最先進的模型也會產生邏輯錯誤。
  • 如何訓練一個更好的reward model,來做大模型的alignment對齊研究也是一個具有挑戰的問題。
  • 結果監督(只提供最終的結果作為監督信號)和過程監督(提供每一個中間推理結果的反饋)哪個好,還有待詳細對比和研究。

1.2 Methods

  1. 實驗步驟和方法:
  • 訓練最可靠的reward model:對GPT-4模型進行微調,拿到最可靠的ORM和PRM。
  • 生成器:通過GPT-4生成所有候選解決方法,此步GPT-4沒經過RL來alignment優化。
  • 評價:對生成的結果進行N選1,最終根據答案來評分。
  • 兩種不同規模的模型:所有大模型是通過GPT-4微調,沒有經過RL訓練,小規模模型和GPT4類似,但是計算量少200倍,模型在15億數學相關的數據集MathMix上進行了微調。
  1. 過程反饋數據收集方法:

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • 數據收集方案【基礎方案】:對于每一步收集人類反饋結果
  • 優化策略【高價值負樣本挖掘】:標注數據的時候,盡可能對更有可能欺騙reward模型的數據來進行標注,如果展示明顯錯誤的解決方案,獲得的反饋價值沒那么大
  • 迭代訓練獎勵模型【高價值負樣本挖掘】:在每次迭代中,對每個問題生成N個解決方案,并僅向數據標注者展示得分最高的K個具有說服力的錯誤答案解決方案。作者嘗試將此top-K過濾應用于問題級別(每個問題K個解決方案)或全局級別(總共K個解決方案,在問題之間不均勻分布)
  1. ORM以及PRM建模方法
  • Outcome-supervised Reward Models (ORMs):直接判斷一個solution最終結果是正確還是錯誤的【有可能中間推理錯誤,最終結果正確的現象】。
  • Process-supervised Reward Models (PRMs):在每一步都加入監督信號,訓練PRMs去預測每一step是否正確。同時加入了每一步step的標記,這樣可以直接在自回歸模型進行訓練,也方便在遇到結束位置標記時來進行監督反饋。
  • 如何解決ORM和PRM監督信號不對等的問題:在提供過程監督時,他們有意選擇只監督到第一個錯誤的步驟。這樣做使得結果監督和過程監督之間的比較更加簡單明了。對于正確的解決方案,兩種方法提供相同的信息,即每個步驟都是正確的。對于不正確的解決方案,兩種方法都揭示了至少存在一個錯誤,而過程監督還揭示了該錯誤的具體位置。如果他們在第一個錯誤之后提供額外的過程監督,那么過程監督將具有更大的信息優勢。這個決策還保持了對人類的標注成本相似:在不依賴于易于檢查的最終答案的情況下,確定解決方案的正確性等價于確定其第一個錯誤。

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

說明:左邊是正確的slutions,右邊有部分推理是錯誤的,PRM(過程監督)正確地指出了錯誤答案中的錯誤

1.3 Conclusion

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • 過程監督比結果監督好很多,在數學領域,能極大的提升performance,訓練更可靠的reward model,本文訓練的過程監督模型在MATH子數據集解決了78%的問題,消除這一重大進入障礙將促進對大型語言模型對齊的相關研究。
  • 主動學習(active learning)可以極大提升過程監督的效率(data efficiency提升2.6倍)。
  • 放出了PRM800K數據集:80萬 step-level人類反饋的標簽(本文訓練reward model的數據集)

二、詳細內容

1 大規模監督學習

目的:比較PRM(過程監督) vs ORM(結果監督)最佳表現與N(每個問題N個solution的數量選一個最終的結果)的關系

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • N:每個問題solution的個數
  • ORM:結果監督,解決72.4%,比投票好一點,說明加上監督信號的reward 模型還是有用的。
  • PRM:過程監督,解決78.2%的問題,比ORM好不少。
  • Majority Voting:投票,感覺也不錯,需要產生多個結果來投票,有點類似模型融合。
  • 與N的關系:隨著N的增大,PRM和ORM的gap越來越大,說明相對于ORM和Majority Voting,PRM能更有效的在眾多答案中找到正確的答案。

2 小規模合成監督學習【公平對比ORM和PRM】

背景:由于數據集構建,監督方法的不同,以及結果評判方法的不同,直接對比ORM和PRM有點不太好比較

原因:(1)ORM和PRM的訓練集無法直接進行比較:PRM訓練集是通過主動學習構建的,偏向于錯誤答案的解決方案,并且規模小了一個數量級。(2)ORM最終答案的評分正確但可能推理過程錯誤帶來評判不公平。(3)收集人工反饋的成本很高,無法輕易地通過人工標注者去除這些因素

解決方法:使用大規模的PRM(PRMlarge)來監督較小的模型來進行相關的消融實驗。這個設置可以以較低的成本模擬大量的數據收集。

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • solution生成:從一個小規模的生成器中隨機選取每個問題1到200個解決方案。
  • 三種監督方式:相當于利用大的PRMlarge來做小模型的PRM或者ORM,控制PRM或者ORM作為變量,監督模型PRMlarge保持不變的:

PRM(PRMlarge supervised):利用PRMlarge(即大規模PRM,以下簡稱PRMlarge)來做過程監督

ORM(PRMlarge supervised):利用PRMlarge(即大規模PRM,以下簡稱PRMlarge)來做結果監督

ORM(final-answer supervised):不看過程,只看最終結果,相當于只拿最終結果來進行監督

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • 結論:

圖(a)根據500個最佳選擇來評估每個獎勵模型。我們看到,在所有數據收集規模上,PRM過程監督的表現都大大優于兩種形式的結果監督(ORM(PRMlarge supervised)和 ORM(final-answer supervised))。

圖(b)通過其在N個不同值中的最佳表現來評估每個系列的最佳獎勵模型。我們看到,使用PRMlarge進行結果監督明顯比最終答案檢查更有效。這可以解釋為,PRMlarge為使用不正確的推理得出正確最終答案【結果正確,推理錯誤】的解決方案提供了更好的監督。

3 主動學習

  • 背景:主動學習是一種機器學習技術,它可以通過選擇最具價值的樣本來優化模型訓練過程。
  • 方法步驟:

使用一種小規模的獎勵模型PRMselector,每個問題評分1000個樣本。

從每個問題選擇N個樣本,其中80%是最令人信服的錯誤答案樣本,20%是剩下的最令人信服的樣本(正確或錯誤答案)

使用PRMlarge對所選樣本進行評分并基于這些評分并進行訓練

  • 結論:

性能如圖4a所示。通過比較具有和不具有主動學習的最佳擬合線的斜率,這種數據標記方案的性能比均勻數據標記大約高效2.6倍。

當使用最大主動學習數據集(每個問題200個樣本)訓練模型時,結果略低于預期的趨勢線,可能是因為200個樣本代表了整體選擇池(1000個樣本)的相當大比例,導致相對缺乏多樣性限制了主動學習的潛在優勢。

4 泛化能力

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • 方法:一個包含224個STEM問題的保留集上評估了大規模ORM和PRM,這些問題來自最近的AP物理學、AP微積分、AP化學、AMC10和AMC12考試。這些測試是在預訓練數據集編制之后發布的,因此可以高度確信模型沒有見過這些問題。
  • 結論:PRM的泛化能力表現優于ORM和多數投票。這向我們表明,PRM可以容忍適度的distribution shift,其強勁的表現在新的測試問題上保持不變。

三、參考文獻

  1. OpenAI最新研究Let's verify step-by-step,過程勝于結果!:??https://mp.weixin.qq.com/s/bvrJKy8dufRF0KfC90PDMA??
  2. Let's Verify Step by Step:??https://mp.weixin.qq.com/s/6ELuM8gkrp1RP1wE47hi0Q???

本文轉載自??NLP PaperWeekly??,作者: 胡翔 

已于2024-7-13 00:32:36修改
收藏
回復
舉報
回復
相關推薦
一区二区三区视频在线观看免费| 97高清免费视频| 玖玖爱视频在线| 亚洲国产精品精华素| 99麻豆久久久国产精品免费| 国产国语刺激对白av不卡| 一区国产精品视频| 黄色一级片黄色| 九色视频在线播放| 国产精品中文字幕一区二区三区| 最近2019年好看中文字幕视频| www.四虎成人| a视频在线观看免费| 久久亚洲私人国产精品va媚药| 国色天香2019中文字幕在线观看| 女同性αv亚洲女同志| 久久r热视频| 悠悠色在线精品| 国产精品久久九九| 伊人色综合久久久| 亚洲成人原创| 久久久999国产| 亚洲精品久久久一区二区三区| 久久五月天婷婷| 国产高清在线免费| 日本特黄久久久高潮| 午夜精品久久久久久久99热| 波多野结衣影院| 中文在线免费二区三区| 一区二区在线观看视频| 亚洲精品中文字幕在线| 国产巨乳在线观看| 久久综合导航| 91精品国产91久久久| 欧美人妻一区二区| 亚洲精品进入| 欧美精品在线观看播放| 波多野结衣作品集| 午夜精品久久久久久久久久蜜桃| 欧美激情在线观看视频免费| 久久久一本精品99久久精品66| 亚洲成人av网址| 亚洲一区观看| 国外色69视频在线观看| 人妻视频一区二区| 日日天天久久| 亚洲精品中文字幕有码专区| 捆绑裸体绳奴bdsm亚洲| 极品束缚调教一区二区网站| 精品粉嫩超白一线天av| 亚洲美女高潮久久久| 美国十次综合久久| 日韩一区二区影院| 国产高潮免费视频| 国产区二区三区| 国产一二三区在线观看| 成人黄色一级视频| 国产精品久久精品视| 欧美一级特黄aaaaaa| www.日韩av| 蜜桃在线一区二区三区精品| 欧美午夜黄色| 欧美国产一区在线| 一区二区三区精品国产| 最爽无遮挡行房视频在线| 国产日韩一级二级三级| 国产精品果冻传媒潘| 丰满少妇被猛烈进入| 成人成人成人在线视频| 久久久av水蜜桃| 国产有码在线| 亚洲欧美另类图片小说| 国产精品又粗又长| 台湾佬中文娱乐久久久| 最新亚洲精品| 国产精品天干天干在观线| 亚洲精品乱码视频| 国产乱色在线观看| 亚洲国产精品综合小说图片区| 日本高清不卡一区二区三| 成人av毛片| 综合久久给合久久狠狠狠97色 | 日本女优在线视频一区二区| 国产成人啪精品视频免费网| 久久国产免费观看| 99精品久久| 国产精品高清免费在线观看| 日韩字幕在线观看| 日韩一区欧美二区| 欧美日韩精品在线观看| 国产精品三级网站| 99国产精品久久久久99打野战| 日本午夜一区二区| 亚洲a成v人在线观看| 少妇高潮久久久| 国产日韩欧美精品电影三级在线| 99精品在线直播| 99久久国产免费| a级精品国产片在线观看| 天堂精品一区二区三区| 性欧美ⅴideo另类hd| 色狠狠色噜噜噜综合网| 欧美xxxx黑人| 成人在线免费观看91| 久久久欧美一区二区| 在线免费观看av片| 久久国产成人午夜av影院| 日韩欧美一级二级三级| 国产欧美综合精品一区二区| 三级视频在线| 亚洲黄色免费网站| 亚洲综合欧美在线| 三级精品视频| 亚洲欧美日韩中文在线| 小早川怜子久久精品中文字幕| 欧美艳星介绍134位艳星| 久久久亚洲网站| 国产精品爽爽久久久久久| www久久久久| 成人在线播放网址| 自拍偷拍亚洲| 色av吧综合网| 亚洲图片欧美日韩| 99久免费精品视频在线观看| 真人做人试看60分钟免费| 国产精品.xx视频.xxtv| 国产精品人人爽人人做我的可爱| 欧美成人精精品一区二区频| 蜜臀aⅴ国产精品久久久国产老师| 女人抽搐喷水高潮国产精品| 欧美大码xxxx| 国产精品久久久久久免费| 国产成人精品亚洲日本在线桃色| 国产日韩欧美一区二区| 4438x成人网全国最大| 欧美情侣在线播放| 日韩不卡av在线| 日韩av网站在线观看| 欧美极品色图| jizzjizz亚洲| 91精品国产高清一区二区三区蜜臀 | 午夜伦理在线视频| 又爽又大又黄a级毛片在线视频| www.日韩在线| 福利视频一二区| 大型av综合网站| 欧美精品videosex性欧美| www.av日韩| 亚洲在线一区二区三区| 亚洲成年人av| 亚洲三级视频| 久久综合狠狠综合久久综青草| 巨大荫蒂视频欧美大片| 欧美性感美女h网站在线观看免费| 污网站在线免费| 91久久夜色精品国产按摩| 国产男女猛烈无遮挡91| 久草中文在线| 日韩精品中文字幕在线一区| 少妇太紧太爽又黄又硬又爽小说 | caoporn97在线视频| 欧美视频你懂的| 亚洲av成人精品一区二区三区| 日韩av在线中文字幕| 国产精品激情av在线播放| av电影在线网| 欧美性猛交xxxx乱大交极品| 国产一级二级在线观看| 老妇喷水一区二区三区| 亚洲图片欧洲图片日韩av| 婷婷激情成人| 国产一区二区三区视频| 一起草av在线| 一区二区三区四区不卡视频| 免费a v网站| 久久一区激情| 五月天男人天堂| 国产福利资源一区| 欧美成人午夜激情视频| 国内成+人亚洲| 激情影院在线观看| 精品久久久久久久久久久久久久久久久| 九九热免费在线| 久久国产精品99久久人人澡| 人妻无码一区二区三区四区| 欧洲vs亚洲vs国产| 91精品久久久久久久久久久久久| 高清毛片在线看| 一本色道a无线码一区v| 性欧美丰满熟妇xxxx性久久久| 欧美午夜a级限制福利片| 久久亚洲综合网| 国产一区二区视频在线看| 97在线精品视频| 精品麻豆一区二区三区| 日韩www在线| 97精品人妻一区二区三区香蕉| 国产日韩精品一区二区三区 | 大地资源网3页在线观看| 韩国成人精品a∨在线观看| 久久亚洲国产成人精品无码区| 清纯唯美激情亚洲| 青青久久aⅴ北条麻妃| 美女写真理伦片在线看| 日韩精品在线视频美女| 精品人妻一区二区三区日产乱码| 亚洲免费色视频| 欧美做受xxxxxⅹ性视频| 国产成人综合自拍| 激情五月婷婷久久| 99av国产精品欲麻豆| 在线观看成人免费| 奇米影视亚洲| 蜜桃视频在线观看91| 91精品国产自产在线丝袜啪 | 国产精久久久久久| 国产精品伦一区| 一本色道综合久久欧美日韩精品 | 999在线免费观看视频| 中文字幕这里只有精品| 久久99久久99精品中文字幕| 熟妇人妻av无码一区二区三区| 福利微拍一区二区| 欧美片一区二区| 亚洲欧美在线另类| ass极品国模人体欣赏| 国产午夜精品福利| 国产艳俗歌舞表演hd| 粉嫩av一区二区三区| 亚洲国产综合av| 国产精品一区亚洲| 欧美黑人在线观看| 亚洲国产最新| 精品久久久三级| 成人性生交大片免费看96| 国产成人一区二区三区电影| 久久五月精品| 激情综合亚洲| 欧美一区二区福利| 久久久久毛片免费观看| 国产做受69高潮| 日本aa在线| 欧美国产日韩xxxxx| 欧美人与牲禽动交com| 国产亚洲欧洲在线| 成人高潮片免费视频| 欧美一级久久久| 亚洲春色一区二区三区| 欧美变态口味重另类| 高清毛片aaaaaaaaa片| 精品久久久久99| 中文在线免费观看| 精品视频一区二区不卡| 伊人免费在线观看| 3751色影院一区二区三区| 五月婷婷激情网| 精品久久久久久久久久久久久| 香蕉久久久久久久| 国产精品不卡一区二区三区| 青青草影院在线观看| 欧美日韩xx| 亚洲色图17p| melody高清在线观看| 精品国产一区二区三区久久狼黑人 | 99国产超薄丝袜足j在线观看| 波多野结衣亚洲| 欧美高清视频免费观看| 欧美精品电影| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | a毛片在线免费观看| 日韩欧美黄色影院| 香蕉视频911| 国产一区二区三区在线视频| 免费观看久久久久| 久久久久久久国产精品视频| 日本www在线观看视频| 欧美日韩hd| 一区二区三区观看| 亚洲性人人天天夜夜摸| 国产91在线视频观看| 欧美aaa在线| 5月婷婷6月丁香| 欧美aaaaaa午夜精品| 午夜诱惑痒痒网| 精品在线观看视频| 五月天丁香社区| 国产欧美精品一区| 久久久久成人片免费观看蜜芽| 亚洲精选在线视频| 91看片在线播放| 欧美日韩三级在线| 蜜臀久久99精品久久久| 伊人久久免费视频| 男女av在线| 久久国产精品久久久久久久久久| 免费人成在线观看播放视频| 久久免费高清视频| 嫩草伊人久久精品少妇av杨幂| 国产成人欧美在线观看| 视频精品二区| 亚洲日本一区二区| 亚洲美女在线播放| 国产精品无圣光一区二区| 激情五月婷婷小说| 欧美视频三区在线播放| 蜜臀久久久久久999| 久久久精品2019中文字幕神马| 亚洲区欧洲区| 国产精品国产三级国产aⅴ浪潮| 户外露出一区二区三区| 成人免费91在线看| 国产精品88久久久久久| 北条麻妃在线视频观看| 国产大陆a不卡| 国产日产在线观看| 日韩欧美福利视频| 韩国av电影在线观看| xxx成人少妇69| 精品亚洲美女网站| 国产精品久线在线观看| 亚欧美在线观看| 久久久精品黄色| 日本三级中文字幕| 午夜视频在线观看一区| 国产免费高清av| 最新亚洲国产精品| 三上悠亚国产精品一区二区三区| 成人黄色午夜影院| 日韩av大片| 北条麻妃视频在线| 久久毛片高清国产| 日韩欧美成人一区二区三区| 亚洲国产精品999| 操喷在线视频| 动漫精品视频| 精品久久综合| www.欧美日本| 国产精选一区二区三区| 亚洲欧美日本一区| 亚洲不卡在线观看| 懂色av一区二区三区四区| 欧美成人合集magnet| 成人污版视频| 久久久久久久久网| 国产一区二区不卡| 青草影院在线观看| 日韩视频免费直播| 国产资源在线看| 国产精品99久久99久久久二8| 成人黄色av网址| 性高湖久久久久久久久aaaaa| 老司机精品视频一区二区三区| 麻豆乱码国产一区二区三区| 最新中文字幕第一页| 亚洲欧美中文日韩在线| 3d欧美精品动漫xxxx无尽| 亚洲资源在线看| 午夜国产精品视频免费体验区| 人妻熟女一二三区夜夜爱| www国产成人免费观看视频 深夜成人网| 美国一级片在线观看| 欧美夫妻性生活| 丝袜在线视频| 精品国产91亚洲一区二区三区www| 93在线视频精品免费观看| 久久久999视频| 久久久久久99久久久精品网站| 久久精品www人人爽人人| 精品乱人伦小说| 午夜影院在线播放| 欧美日韩电影一区二区| 美女视频黄久久| 欧洲猛交xxxx乱大交3| 亚洲成avwww人| 亚洲性受xxx喷奶水| 亚洲高清视频一区二区| 亚洲欧美高清| 国产一区二区三区视频播放| 欧美一区二区三区日韩| 麻豆mv在线观看| 国产精品精品国产色婷婷| 在线看成人av| 日韩色在线观看| 春色校园综合激情亚洲| 日韩精品av一区二区三区| 国产一二三精品| 国产又黄又爽又色| 精品国产视频在线| 三级精品视频| 亚洲国产欧美91| 一本一道综合狠狠老| 国产黄a三级三级三级av在线看| 国产精品亚洲精品| 激情成人亚洲| 国产传媒在线看| 精品成人一区二区| 久久青草视频| 国产又大又硬又粗| 亚洲精品免费在线观看| 国产黄a三级三级看三级|