精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北大千問團(tuán)隊(duì)推出數(shù)學(xué)專用版CriticGPT,“找茬”讓大模型進(jìn)步更快

人工智能 新聞
在無需訓(xùn)練的設(shè)置下,驗(yàn)證器能夠在推理時(shí)輔助模型在GSM8K上的準(zhǔn)確率從86.6%提升到88.2%。

批評(píng)不僅能讓人進(jìn)步,也能讓大模型的能力提升。

OpenAI就用這個(gè)思路造了個(gè)“找茬模型”CriticGPT。非常巧合的是,就在CriticGPT放出的前幾天,北大聯(lián)合千問等團(tuán)隊(duì)以類似的思路設(shè)計(jì)出了“數(shù)學(xué)專用版”CriticGPT。

在無需訓(xùn)練的設(shè)置下,驗(yàn)證器能夠在推理時(shí)輔助模型在GSM8K上的準(zhǔn)確率從86.6%提升到88.2%。

在GSM8K數(shù)據(jù)集上,它可以讓模型的準(zhǔn)確率從86.6%提升到88.2%。

圖片

CriticGPT的核心思路是在代碼中故意設(shè)置bug并進(jìn)行詳細(xì)標(biāo)注,然后用得到的數(shù)據(jù)訓(xùn)練出會(huì)debug的模型。

北大團(tuán)隊(duì)發(fā)現(xiàn),這種方法不僅在代碼當(dāng)中有用,也能幫助語言模型解決數(shù)學(xué)問題

于是團(tuán)隊(duì)利用相似的思路,把代碼換成數(shù)學(xué)問題,推出了“數(shù)學(xué)版CriticGPT”——Math-Minos

用GPT4逐步提出修正意見

在數(shù)學(xué)推理領(lǐng)域,驗(yàn)證解決方案的正確性,是確保推理質(zhì)量的關(guān)鍵步驟。

然而,現(xiàn)有的數(shù)學(xué)驗(yàn)證器大多依賴于二元分類標(biāo)簽進(jìn)行訓(xùn)練,這種方式在提供正確或錯(cuò)誤原因的解釋上存在明顯不足,無法給驗(yàn)證器提供足夠充分的監(jiān)督信號(hào)來訓(xùn)練。

Math-Minos則克服了這一局限,提供了更深入的解釋,極大地豐富了驗(yàn)證器的訓(xùn)練信息。

它引入了逐步的自然語言反饋作為理由標(biāo)簽,不僅指出了解決方案的正誤,還能逐步分析出錯(cuò)誤的原因。

圖片

在自然語言反饋的獲取上,研究團(tuán)隊(duì)一開始使用GPT-4生成訓(xùn)練數(shù)據(jù),但通過實(shí)驗(yàn)發(fā)現(xiàn),即使是GPT-4,在逐步評(píng)價(jià)數(shù)學(xué)推理任務(wù)時(shí)也會(huì)出現(xiàn)一定比例的錯(cuò)誤。

為了一定程度避免這個(gè)問題,研究人員通過在提示中引入步驟級(jí)別的二元分類標(biāo)簽,簡化了GPT-4的任務(wù),使得GPT-4能夠更準(zhǔn)確地生成評(píng)估。

圖片

 首先,通過監(jiān)督式微調(diào),使用自然語言反饋?zhàn)鳛橛?xùn)練數(shù)據(jù),有效提升了模型的評(píng)估能力。

其次,通過標(biāo)準(zhǔn)的ORM(Outcome Reward Model,輸出獎(jiǎng)勵(lì)模型)和PRM(Process Reward Model,過程獎(jiǎng)勵(lì)模型)訓(xùn)練,實(shí)現(xiàn)了高效的推理,這種做法有兩個(gè)好處。

一是通過兩階段訓(xùn)練,可以將二分類數(shù)據(jù)和監(jiān)督微調(diào)數(shù)據(jù)解耦。

由于監(jiān)督信號(hào)的稀疏性,訓(xùn)練二分類的數(shù)據(jù)往往遠(yuǎn)多于監(jiān)督微調(diào)的數(shù)據(jù),而研究發(fā)現(xiàn),僅需要少量的監(jiān)督微調(diào)數(shù)據(jù),就可以很大程度提升模型的評(píng)估能力

另一方面,在驗(yàn)證器進(jìn)行驗(yàn)證時(shí),不需要顯示地生成自然語言反饋,讓推理過程更高效。

圖片

ORM任務(wù)表現(xiàn)明顯提升

總得來看,研究人員在訓(xùn)練階段添加了30K的自然語言反饋數(shù)據(jù),為Mistral-7B驗(yàn)證器帶來了數(shù)學(xué)能力的提升,在Best-of-256的實(shí)驗(yàn)設(shè)置下:

在ORM的設(shè)置下,MATH-Minos將Mistral-7B的準(zhǔn)確率在GSM8K數(shù)據(jù)集從86.2%提升到87.3%,在MATH數(shù)據(jù)集從35.9%提升到37.4%。

在PRM的設(shè)置下,MATH-Minos將Mistral-7B的準(zhǔn)確率在GSM8K數(shù)據(jù)集從87.1%提升到87.6%,在MATH數(shù)據(jù)集從36.7%提升到37.8%。

在與Self-Consistency結(jié)合的設(shè)置下,MATH-Minos將Mistral-7B的準(zhǔn)確率在GSM8K數(shù)據(jù)集從87.1%提升到88.2%,在MATH數(shù)據(jù)集從37.8%提升到38.6%。

在ORM和PRM任務(wù)設(shè)置中,Math-Minos均展現(xiàn)出了優(yōu)越的性能,特別是在ORM設(shè)置中,其改進(jìn)更為顯著。

圖片

另外,研究團(tuán)隊(duì)還對(duì)生成器在步驟級(jí)別產(chǎn)生的錯(cuò)誤進(jìn)行了深入分析,將其歸類為五種類型——無關(guān)錯(cuò)誤、累積錯(cuò)誤、計(jì)算錯(cuò)誤、邏輯錯(cuò)誤和其他錯(cuò)誤。

分析結(jié)果表明,在多步驟推理中,步驟錯(cuò)誤的可能原因有很多種,而且模型在這些錯(cuò)誤類型中都有可能出錯(cuò),這進(jìn)一步強(qiáng)調(diào)了引入自然語言反饋來指導(dǎo)模型學(xué)習(xí)的重要性。

實(shí)驗(yàn)發(fā)現(xiàn),在兩個(gè)數(shù)據(jù)集上,累積錯(cuò)誤(即一個(gè)步驟的錯(cuò)誤很可能直接導(dǎo)致所有后續(xù)步驟的錯(cuò)誤)在所有錯(cuò)誤類型中占到的比例最高。

不同數(shù)據(jù)集上的錯(cuò)誤分布也有不同的特點(diǎn),在相對(duì)簡單的GSM8K上,計(jì)算錯(cuò)誤更多;在更困難的MATH數(shù)據(jù)集上,邏輯錯(cuò)誤更多。

圖片

通過構(gòu)建元評(píng)估集,研究團(tuán)隊(duì)評(píng)估了驗(yàn)證器在沒有生成器影響下,準(zhǔn)確判斷最終答案的能力。

結(jié)果顯示,Math-Minos在訓(xùn)練過程中的元評(píng)估一致優(yōu)于傳統(tǒng)的ORM,并且展現(xiàn)出更快的收斂速度和更精準(zhǔn)的判斷能力。

圖片

同時(shí)實(shí)驗(yàn)結(jié)果也表明,Math-Minos具有很強(qiáng)的Scale Up的潛力。

圖片

總之,Math-Minos的開發(fā)不僅提升了數(shù)學(xué)驗(yàn)證器的性能,更為自然語言處理領(lǐng)域提供了一種新的訓(xùn)練范式。

研究團(tuán)隊(duì)希望這項(xiàng)工作能夠啟發(fā)未來研究,探索自然語言反饋與分類式驗(yàn)證器的潛在整合,推動(dòng)大型語言模型在復(fù)雜推理任務(wù)上的能力。

論文地址:https://arxiv.org/abs/2406.14024
GitHub:https://github.com/KbsdJames/MATH-Minos

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2012-02-13 10:12:57

Ubuntu發(fā)布

2009-01-11 09:48:07

微軟Windows 7版本

2023-08-24 14:27:00

AI模型

2012-01-03 23:52:49

拯救行動(dòng)III專用版操作系統(tǒng)Fedora16

2024-08-09 12:50:02

2024-04-30 14:11:00

訓(xùn)練模型

2009-10-20 16:32:17

2023-09-14 13:10:48

2023-04-07 14:01:18

ChatGPT人工智能

2024-01-15 06:30:00

模型AI

2024-07-08 08:38:00

模型推理

2024-12-26 16:44:27

2023-12-04 09:55:58

AI大模型

2023-08-03 19:11:45

2023-03-31 09:30:21

ChatGPT論文

2025-02-18 09:10:00

2024-02-06 10:55:47

2025-11-07 08:50:00

2023-04-11 13:40:22

阿里云大模型通義千問
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产一级片免费看| 色婷婷综合网站| 天堂中文字幕在线| 七七婷婷婷婷精品国产| 久久久999精品视频| 精品人妻在线视频| 蜜桃精品在线| 亚洲在线视频免费观看| 日韩精品一区二区三区四区五区| 国产片在线播放| 麻豆亚洲精品| 欧美巨乳在线观看| 99国产精品免费| 理论片一区二区在线| 欧美日韩五月天| 国产伦精品一区二区三区四区视频_| 国产精品二线| jlzzjlzz亚洲日本少妇| 国产精品一区二区三区毛片淫片| 日韩黄色一级大片| 雨宫琴音一区二区三区| 一区二区三区四区精品| 国产草草浮力影院| 日本免费一区二区视频| 欧美三级一区二区| 国产真实乱子伦| 国产嫩草在线视频| 国产精品传媒视频| 日韩精品在在线一区二区中文| 欧美 中文字幕| 国内精品久久久久影院一蜜桃| 国产99视频精品免视看7| 久久精品国产亚洲av高清色欲 | 亚洲色图 激情小说| 极品束缚调教一区二区网站| 日韩一区和二区| 日本高清久久久| 99久久综合国产精品二区| 天天色综合成人网| 日本男女交配视频| av网站网址在线观看| 国产精品久久久久久久久搜平片| 欧美大陆一区二区| 亚洲三区在线观看无套内射| 丰满放荡岳乱妇91ww| 亚洲综合日韩在线| 99热这里只有精品在线观看| 国内精品不卡在线| 91免费在线视频网站| 国产一区二区在线不卡| 久久成人免费日本黄色| 国产精品亚洲片夜色在线| 免费视频网站在线观看入口| 久久一综合视频| 国产成人鲁鲁免费视频a| 欧美一区二区三区网站| 久久婷婷激情| 国产精品九九九| 中文在线观看av| 久久精品国产精品亚洲红杏| 国产精品一区久久久| 91丨porny丨在线中文 | 精品免费视频123区| 成人精品在线播放| 99riav一区二区三区| 美女一区视频| 国产免费av高清在线| 国产精品久久一卡二卡| 99精品视频网站| 新版中文在线官网| 亚洲一区二区三区爽爽爽爽爽| 黄网站色视频免费观看| 成人性生交大片免费看在线播放| 午夜精品一区二区三区电影天堂 | 精品制服美女久久| 92国产精品视频| 亚洲精品久久久久久无码色欲四季| 高清国产一区二区| 欧美日韩在线观看一区| 午夜不卡视频| 亚洲成人免费在线| 国模杨依粉嫩蝴蝶150p| 欧美大片网站| 欧美精品一区在线观看| 无码人妻aⅴ一区二区三区| 精品精品久久| 欧美日韩成人精品| 狠狠人妻久久久久久| 美女视频黄 久久| 2022国产精品| 日韩大片b站免费观看直播| 中国av一区二区三区| 久久久久久久久影视| 欧美aaaaa性bbbbb小妇| 欧美精品免费视频| 97香蕉碰碰人妻国产欧美| 欧美亚洲在线日韩| 国内精品中文字幕| 在线播放亚洲精品| av中文字幕不卡| 亚洲欧洲精品一区| 亚洲啊v在线| 日韩一区二区三区视频| 最近中文字幕在线mv视频在线 | 毛片在线播放视频| 欧美a视频在线| 日韩毛片在线观看| 欧美日韩亚洲国产另类| 日韩**一区毛片| 国产精品国色综合久久| 日本综合在线| 一本色道久久综合亚洲91| 国产精品探花在线播放| 国产精品免费大片| 久久久久这里只有精品| 一本色道久久综合无码人妻| 久久亚洲综合色| 韩国无码av片在线观看网站| 日韩欧国产精品一区综合无码| 亚洲精品久久久久久久久| 中文字幕人妻一区二| 日本不卡一二三区黄网| 精品久久一区二区三区蜜桃| www红色一片_亚洲成a人片在线观看_| 色视频一区二区| 欧类av怡春院| 欧美三级午夜理伦三级中文幕| 国产精品日韩欧美| 你懂的在线看| 欧美日韩中文在线| 国产精品久久久久久亚洲色 | 激情亚洲另类图片区小说区| 欧美巨猛xxxx猛交黑人97人| 国产精品福利电影| 国产精品色在线观看| 麻豆av免费在线| 亚洲美女久久| 欧美性在线视频| 五月婷婷丁香六月| 精品国产乱码久久久久酒店| bl动漫在线观看| 中文日韩在线| 国产免费一区二区| ririsao久久精品一区| 日韩一级黄色片| www.av成人| 国产一区二区福利| 亚洲欧美日韩不卡| 久久视频免费| 久久国产精品亚洲| 午夜久久久久久久久久| 夜夜嗨av一区二区三区四季av| 中文字幕人妻无码系列第三区| 亚洲成人国产| 97国产超碰| 国产精品69xx| 日韩av在线免播放器| 日韩少妇高潮抽搐| 久久丝袜美腿综合| 天堂社区在线视频| 视频在线不卡免费观看| 国产日韩一区在线| 超鹏97在线| 日韩精品在线网站| 久久久精品视频免费| 99久久精品免费| 99999精品视频| 精品一区二区三区中文字幕老牛| 国产精品视频免费在线| 国产黄a三级三级三级av在线看| 欧美一区二区三区人| 精品一区在线视频| www国产成人| 中文字幕 日韩 欧美| 黄色亚洲精品| 欧美一区少妇| 成人日韩视频| 4k岛国日韩精品**专区| 国产51人人成人人人人爽色哟哟| 91.成人天堂一区| 日韩久久久久久久久| 国产欧美一区二区三区在线老狼| 午夜大片在线观看| 在线观看视频日韩| 偷拍视频一区二区| 超碰成人福利| 国产精品久久电影观看| 青春草视频在线观看| 日韩激情av在线免费观看| 夜夜躁很很躁日日躁麻豆| 一个色妞综合视频在线观看| 日本二区在线观看| 粉嫩aⅴ一区二区三区四区五区| 春日野结衣av| 婷婷伊人综合| 茄子视频成人在线观看| 日本少妇精品亚洲第一区| 日本精品在线视频| 色yeye免费人成网站在线观看| 亚洲一二在线观看| 亚洲AV无码精品自拍| 在线观看亚洲成人| 日本少妇吞精囗交| 亚洲婷婷在线视频| 国产一二三四五区| 国产成人日日夜夜| 亚洲欧美日本一区二区三区| 国产精品综合色区在线观看| 日本成人在线不卡| 久久中文字幕av一区二区不卡| 久久久久九九九| 成人性生交大片免费看中文视频| 国产女同一区二区| 超碰一区二区| 欧美国产中文字幕| 黄色网页在线播放| 伊人久久久久久久久久久| 天天插天天干天天操| 欧美一区二区三区视频| 亚洲一区 中文字幕| 一本色道久久加勒比精品| 国产福利久久久| 亚洲免费观看高清完整版在线观看 | youjizz.com亚洲| 成人激情诱惑| 秋霞在线观看一区二区三区| 精品深夜福利视频| 国产精品初高中精品久久| 国产精品一区二区美女视频免费看 | 亚洲久草在线| 国产精品亚洲第一区| 色天使综合视频| 浅井舞香一区二区| 亚洲欧洲自拍| 日韩女优在线播放| 午夜精品久久久久久久久久蜜桃| 国产91精品青草社区| av手机免费在线观看| 欧美激情欧美狂野欧美精品| 伊人手机在线| 久久久久久91| 国产精品—色呦呦| 韩国日本不卡在线| 欧美aaaxxxx做受视频| 欧美黄色免费网站| 午夜在线激情影院| 欧美华人在线视频| aa级大片免费在线观看| 91极品视频在线| 美女高潮在线观看| 国产成人福利网站| 国产精品久久亚洲不卡| 国产精品久久久久久久久粉嫩av| av有声小说一区二区三区| 国产精品va在线播放我和闺蜜| 国模冰冰炮一区二区| 国产97免费视| 精品国产美女a久久9999| 国产日韩综合一区二区性色av| 日韩一区中文| 91久色国产| 久久精品66| 欧美一级二级三级| 久久福利综合| 欧美做暖暖视频| 亚洲一卡久久| 污色网站在线观看| 国产成人免费在线视频| 日韩aaaaa| 亚洲国产激情av| 男女免费视频网站| 精品久久久久久久久久久久| 特级西西444www高清大视频| 7777精品伊人久久久大香线蕉完整版 | 99re视频精品| 亚洲色图欧美色| 亚洲男同性视频| 国产免费观看av| 欧美日韩精品一区二区三区 | 色综合一区二区日本韩国亚洲 | 亚洲免费伊人电影| 国产a∨精品一区二区三区仙踪林| 色综合av在线| 国产精品人人爽| 亚洲大胆人体视频| 国产综合色一区二区三区| 老妇女50岁三级| 一二三区精品福利视频| 成人午夜淫片100集| 欧美少妇性性性| 可以免费看毛片的网站| 国产一区二区三区视频| 亚洲奶水xxxx哺乳期| 国产98色在线| 视频二区欧美| 午夜精品视频在线观看一区二区| 欧美福利电影在线观看| 国产男女激情视频| 丁香婷婷深情五月亚洲| 国产jjizz一区二区三区视频| 亚洲精品ww久久久久久p站| www.久久久久久久| 精品少妇一区二区三区日产乱码| 久久久久久久影视| 久久男人资源视频| 国产高清亚洲| 日韩精品av一区二区三区| 亚洲性人人天天夜夜摸| gogogo高清免费观看在线视频| 99这里只有久久精品视频| 久久人妻无码aⅴ毛片a片app| 疯狂蹂躏欧美一区二区精品| 国产精品无码在线播放| 亚洲性视频网站| 国产激情在线播放| av成人观看| 国产精品7m凸凹视频分类| 久久久久国产精品熟女影院| 不卡的电视剧免费网站有什么| 开心激情五月网| 欧美亚洲图片小说| 久青草国产在线| 日本成人黄色片| 欧美黄色影院| 五十路熟女丰满大屁股| 福利一区福利二区| 国产精品老熟女一区二区| 欧美日韩www| av大全在线免费看| 国产精品高潮粉嫩av| 最新国产精品视频| 波多野结衣家庭教师在线| 成人在线视频一区二区| 欧美人妻精品一区二区免费看| 欧美一区二区三区在线视频| 91官网在线| 国产精品久久久久久久久久ktv | 国产精品乱看| 亚洲 欧美 日韩在线| 亚洲国产成人av| 日日夜夜精品免费| 午夜精品久久久99热福利| 97人人澡人人爽91综合色| 欧美中日韩在线| 波多野洁衣一区| 国产区在线观看视频| 亚洲精品美女在线| 在线观看爽视频| 青娱乐国产91| 麻豆精品久久精品色综合| 日韩福利小视频| 欧美videos大乳护士334| 91福利在线免费| 久久久一本精品99久久精品66| 国产一区二区精品| 在线不卡av电影| 欧美三级电影在线看| 麻豆免费在线观看| 成人免费看片网站| 一本久道久久综合狠狠爱| 亚洲色成人网站www永久四虎| 欧美性大战久久久| 黄视频在线观看网站| wwwxx欧美| 免播放器亚洲| 亚洲不卡的av| 日韩欧美一级精品久久| 国产美女精品写真福利视频| 欧美日韩国产高清视频| 麻豆91在线播放免费| 青青草成人免费| 亚洲精选在线观看| 久久福利在线| 国产曰肥老太婆无遮挡| 91麻豆swag| 国产乱码精品一区二三区蜜臂| 欧美黑人性生活视频| 国产在线日韩精品| 午夜不卡福利视频| 黑人狂躁日本妞一区二区三区| aaa在线免费观看| 99理论电影网| 日本不卡视频在线观看| 青娱乐国产在线视频| 日韩电影视频免费| 国产精品一区二区美女视频免费看| 欧美一级视频免费看| 国产精品美女久久久久aⅴ国产馆| 精品国产av 无码一区二区三区 | 伊人伊成久久人综合网站| 精品国产一区二| 欧美成人精品欧美一级乱| 亚洲女性喷水在线观看一区| 日韩精品视频无播放器在线看| 成人黄色在线免费| 午夜亚洲精品| 青青草免费av| 少妇av一区二区三区| 日韩丝袜视频| 国产精品熟女一区二区不卡|