精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈

發(fā)布于 2024-8-9 16:42
瀏覽
0收藏

將語言模型不斷地?cái)U(kuò)大規(guī)模是可以提高它們的能力。而日常運(yùn)用的時(shí)候,通常將推理限制在一次。要是對(duì)于同一個(gè)問題進(jìn)行多次反復(fù)的采樣生成,那么是否能夠覆蓋正確的答案?是否能夠被準(zhǔn)確的撈出?


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

最近一項(xiàng)研究進(jìn)行如下的探索。整個(gè)過程如上圖所示,它分為兩個(gè)步驟,準(zhǔn)備一個(gè)問題,然后遵循重復(fù)采樣程序,通過具有正溫度(代表著回答多樣性)的LLM中采樣來為給定問題生成很多的K個(gè)候選解決方案。第二個(gè)步驟使用特定領(lǐng)域的驗(yàn)證器從生成的樣本中選擇最終答案。

<簡(jiǎn)單總結(jié)一下:可以多次生成,但是成本要低且要包含正確答案。在解決了第一個(gè)問題之后,還要解決從K個(gè)答案,例如10000個(gè)中挑出那個(gè)正確的。>

1.覆蓋率能上去

覆蓋率的定義為被解決問題的比例,被解決的問題至少要在K個(gè)答案中被解開一次。這項(xiàng)研究對(duì)SWE-bench Lite這個(gè)基準(zhǔn)進(jìn)行重復(fù)采樣回答,使用DeepSeek-V2-Coder-Instruct來解決問題具有15.9%的正確率,若僅僅生成一次的回答(樣本)。若讓其生成250次的回答,則覆蓋率飆升至56%。這個(gè)成績(jī)也遠(yuǎn)遠(yuǎn)強(qiáng)于前沿模型的單次回答43%正確率。

細(xì)心的讀者會(huì)提出抗議,會(huì)不會(huì)比較費(fèi)錢。其實(shí)按照當(dāng)前的API定價(jià),即便用調(diào)用5次的DeepSeek模型,也比GPT-4o或Claude 3.5 Sonnet的單次回答性價(jià)比更高且能夠解決更多的問題。<下面就是價(jià)格的對(duì)比圖!>


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


研究中發(fā)現(xiàn),覆蓋率和樣本數(shù)量之間的關(guān)系通常是對(duì)數(shù)線性的,可以用指數(shù)冪律來建模,這表明存在推理時(shí)間縮放定律。

在解決 GSM8K和MATH的數(shù)學(xué)單詞問題時(shí),Llama-3模型在10000次的樣本中對(duì)于正確答案的覆蓋率增長(zhǎng)到95%以上。 從樣本集合中選擇正確解決方案的常用方法(例如多數(shù)投票或獎(jiǎng)勵(lì)模型)在超過數(shù)百個(gè)樣本時(shí)會(huì)趨于穩(wěn)定。


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


在五項(xiàng)任務(wù)中,值得注意的是,使用重復(fù)采樣,能夠?qū)WE-bench Lite上的解決率從15.9%提高到56%。

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

本次的研究將評(píng)估限制在MATH和CodeContests數(shù)據(jù)集上,以最大限度地降低推理成本,測(cè)試中幾乎每個(gè)模型的覆蓋率都有所增加,當(dāng)應(yīng)用重復(fù)采樣時(shí),較小的模型顯示出最明顯的覆蓋率增加。

在CodeContests上,Gemma-2B的覆蓋率增加了300多倍,從pass@1<1代表1次抽樣>的0.02%增加到pass@10k<10k代表10000次抽樣>的7.1%。使用Pythia-160M解決MATH問題時(shí),覆蓋率從pass@1 的0.27%增加到pass@10k的57%。

這種跨模型覆蓋率增加模式的例外是在 CodeContests 上評(píng)估的 Pythia 系列則為例外,所有Pythia模型在這個(gè)數(shù)據(jù)集上的覆蓋率都為零,即便10,000個(gè)樣本也是如此。推測(cè)可能是因?yàn)镻ythia接受的特定的編碼數(shù)據(jù)比 Llama和Gemma少。


三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


重復(fù)采樣可以放大較弱模型的功能,并超越來自較強(qiáng)模型的單個(gè)樣本。在這里還是需要證明這種放大比使用大規(guī)模的參數(shù)模型更具成本效益。上圖將之前抽樣次數(shù)的成本采用FLOP(視為成本指標(biāo))重新繪制了統(tǒng)計(jì)圖。

在MiniF2F、GSM8K和MATH的評(píng)估指標(biāo)上,當(dāng)FLOP預(yù)算固定時(shí),Llama-3-8B-Instruct總是比更大(且更昂貴)的70B模型獲得更高的覆蓋率。然而對(duì)于 CodeContests,70B模型幾乎總是更具成本效益!!

每次查詢折算的FLOP公式如下:

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)


LLM的Loss與其訓(xùn)練計(jì)算算力之間的關(guān)系已通過??縮放定律<鏈接溫習(xí)!>??講解得很是清晰。這些定律在經(jīng)驗(yàn)上已經(jīng)被驗(yàn)證,并激發(fā)了模型開發(fā)人員的信心,相信只要投資大量的算力則能夠得到很棒的模型。

受到訓(xùn)練縮放定律的啟發(fā),旨在更好地描述覆蓋率和樣本預(yù)算(即多次推理的計(jì)算量)之間的關(guān)系,這里觀測(cè)到兩個(gè)很有意思的想象:

  • 覆蓋率和樣本數(shù)量之間的關(guān)系通常可以用指數(shù)冪律建模。

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

  • 對(duì)于給定的任務(wù),來自同一家族的不同模型的覆蓋率曲線類似于具有相似斜率但不同水平偏移的 S 曲線

    三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

2.如何選擇對(duì)的

覆蓋率上去了,那么如何萬里挑一呢?研究發(fā)現(xiàn)在沒有自動(dòng)驗(yàn)證器的領(lǐng)域中,從許多代中識(shí)別出正確的樣本仍然是未來研究的重要方向。

既然已經(jīng)存在N個(gè)回答,如何挑選一個(gè)最為最后的答案,就像人生如何選擇一樣至關(guān)重要。第2階段關(guān)注的重點(diǎn)在于多次采樣中如何選擇出最佳答案,以便提高正確率。目前存在主流的三種方法:多數(shù)投票(Majority Voting),獎(jiǎng)勵(lì)模型選擇(Reward Model Selection),獎(jiǎng)勵(lì)模型多數(shù)投票(Reward Model Majority Voting)。

三個(gè)臭皮匠與一個(gè)諸葛亮:覆蓋率與正確率的博弈-AI.x社區(qū)

研究表明,隨著樣本數(shù)量的增加,前面三種組合式的選擇會(huì)隨著樣本數(shù)量的增加而增加,但在100個(gè)樣本左右達(dá)到飽和。而覆蓋率(圖4)會(huì)隨著樣本數(shù)量的增加而繼續(xù)增加,并超過95%。

<!!注意,覆蓋率意味著這么多的備選答案存在正確的,但是并不代表算法可以檢索出正確作為最后的答案!!>

在多數(shù)投票的情況下,這種成功率飽和很容易解釋。隨著樣本數(shù)量的增加,分配給每個(gè)答案的投票比例會(huì)穩(wěn)定下來,因此成功率也會(huì)穩(wěn)定下來。對(duì)于某些GSM8K和MATH問題,正確解決方案的采樣概率為1%或更低,因此它們只是少數(shù)樣本。隨著樣本數(shù)量的增加,更多問題會(huì)出現(xiàn)罕見的正確解決方案,從而增加覆蓋率,但不會(huì)提高多數(shù)投票的成功率。

為了充分利用重復(fù)采樣的優(yōu)勢(shì),識(shí)別出正確解答一定要能夠解決這些“大海撈針”的場(chǎng)景,識(shí)別出稀有的正確樣本。在數(shù)學(xué)應(yīng)用題中,現(xiàn)有工具無法自動(dòng)驗(yàn)證答案,研究者發(fā)現(xiàn)覆蓋率與確定最終答案的方法選擇存在很大差距。

<即便抽樣了N次,還是要選擇一個(gè)不是?!>。

當(dāng)使用Llama-3-8B-Instruct解決數(shù)學(xué)問題時(shí),覆蓋率從100個(gè)樣本的79.8%增加到10,000個(gè)樣本的95.3%。然而,多數(shù)投票和使用獎(jiǎng)勵(lì)模型來選擇最終解答的方法在樣本預(yù)算較低的情況下趨于飽和,在同一范圍內(nèi)僅從38.7%擴(kuò)展到39.8%。

<即便有了正確答案,還是選不中!?>。

這些結(jié)果表明構(gòu)建強(qiáng)大的驗(yàn)證器仍然是一個(gè)懸而未決的問題。

本文轉(zhuǎn)載自??魯班模錘??,作者: 龐德公 ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
欧美最新精品| 三级无遮挡在线观看| 91精品推荐| 亚洲成**性毛茸茸| 日本xxxxxxx免费视频| 高清毛片在线看| 国产精品乡下勾搭老头1| 国内精品小视频| 欧美日韩中文字幕视频| a看欧美黄色女同性恋| 色婷婷亚洲综合| 成人一区二区av| 日韩欧美亚洲系列| 国产精品99久久久久久久vr| 日本亚洲精品在线观看| 欧美极品aaaaabbbbb| 欧美精品一区二区三区中文字幕| 欧美一区二视频| 欧美国产日韩在线播放| 国产蜜臀av在线播放| 中文一区二区在线观看| 精品国产二区在线| 91麻豆一区二区| 午夜亚洲性色视频| 欧美黑人巨大xxx极品| 午夜成人亚洲理伦片在线观看| 国产成人精品福利| 欧美一级爆毛片| 国产又猛又黄的视频| 182在线视频观看| 亚洲人被黑人高潮完整版| 久久视频在线观看中文字幕| 亚洲精品无码专区| 久色婷婷小香蕉久久| 国产成人免费91av在线| av大片在线免费观看| 国色天香一区二区| 九九九久久久久久| 欧美特黄一级片| 大胆日韩av| 国产一区二区三区高清在线观看| 熟妇高潮精品一区二区三区| 99久热这里只有精品视频免费观看| 精品视频123区在线观看| 成人黄色片视频| 小早川怜子影音先锋在线观看| 亚洲一区二区三区爽爽爽爽爽| 懂色av一区二区三区四区五区| 8888四色奇米在线观看| 国产日韩欧美一区二区三区乱码| 欧美亚洲另类在线一区二区三区 | 久久精品99久久久| 国产精品久久久久高潮| 成人免费一级片| 免费看黄色91| 国产日韩精品在线观看| 一级片aaaa| 国内精品写真在线观看| 91色中文字幕| 亚洲精品久久久久久无码色欲四季| 国产精品99久久久久久似苏梦涵| 高清不卡一区二区三区| 免费观看黄色一级视频| 99久久国产综合精品女不卡| 精品福利影视| 国产三区四区在线观看| 国产精品人成在线观看免费| 尤物国产精品| 青草视频在线免费直播| 亚洲va欧美va人人爽| 91成人在线观看喷潮教学| 日本蜜桃在线观看视频| 色婷婷综合在线| 黄色在线视频网| 精品国产麻豆| 亚洲国产成人精品一区二区| 国产精品九九九九九| av影片在线一区| xvideos亚洲| 中文在线观看免费网站| 久久99伊人| 成人xxxxx| 亚洲精品成av人片天堂无码| www一区二区| 亚洲永久一区二区三区在线| 在线观看电影av| 欧美日韩亚洲高清| 亚洲天堂国产视频| 久久a爱视频| 中文字幕日韩欧美精品在线观看| 18岁成人毛片| 久久精品欧洲| 亚洲在线视频福利| 蝌蚪视频在线播放| 亚洲视频在线一区观看| 乱妇乱女熟妇熟女网站| 国产成人精品一区二区三区视频| 91精品国产91久久久久久一区二区| 国产原创剧情av| 青青草成人影院| 久久久999成人| 久久久久久久久黄色| 国产一区二区三区久久悠悠色av| 欧美凹凸一区二区三区视频 | 97精品国产97久久久久久| 日本视频在线观看免费| 国产精品一卡二| 日韩一区二区电影在线观看| 丰满大乳少妇在线观看网站| 欧美性xxxxxx少妇| 国产草草浮力影院| 亚洲成人免费| 国产精品一区av| 日本午夜在线| 亚洲成人av电影在线| 永久免费的av网站| 久久av综合| 久久久久久久久爱| 国产精品无码AV| 国产日韩欧美高清| 成人免费在线小视频| 亚洲精品一区二区三区中文字幕| 日韩中文字幕精品视频| 国产又大又黄又粗| 9久草视频在线视频精品| 红桃一区二区三区| 国产精品va视频| 色哟哟亚洲精品一区二区| 欧美黄色一级大片| 99re视频精品| 777777av| 小说区图片区色综合区| 韩国精品久久久999| 不卡的日韩av| 一区二区三区日韩| 黄色a级三级三级三级| 99精品在线观看| 国产精品揄拍一区二区| 国产在线你懂得| 欧洲中文字幕精品| 51妺嘿嘿午夜福利| 日韩精品乱码av一区二区| 欧美亚洲免费在线| 高清成人在线| 国产亚洲aⅴaaaaaa毛片| 天天操夜夜操视频| 久久久影院官网| 免费黄色福利视频| 国产精品一区二区av交换| 国产精品va在线播放| 国产精品视频一区二区久久| 色婷婷综合久久久中文字幕| 丁香激情五月少妇| 久久精品国产99国产| 精品一区二区成人免费视频| 91丨精品丨国产| 美女福利视频一区| 亚洲奶汁xxxx哺乳期| 亚洲一区二区三区四区不卡| 国产ts在线观看| 在线日韩av| 久久国产精品 国产精品| 欧美aa视频| 伊人伊成久久人综合网小说| 最近中文字幕在线免费观看| 国产精品福利影院| 韩国三级在线播放| 亚洲毛片一区| 秋霞久久久久久一区二区| 91天天综合| 欧美尺度大的性做爰视频| 亚洲av无码国产精品永久一区| 亚洲午夜久久久久久久久电影网| 亚洲激情 欧美| 日韩黄色小视频| 老司机午夜免费福利视频| 精品人人人人| 国产精品久久久久久超碰| 国产精品实拍| 精品无人区太爽高潮在线播放 | 日本午夜精品视频在线观看| 亚洲美女网站18| 日韩精品中文字幕一区二区| 91av中文字幕| www亚洲人| 精品久久一二三区| 国产性生活视频| 亚洲精品国产精华液| 日韩精品卡通动漫网站| 久久精品国产999大香线蕉| 国产乱子伦精品无码专区| 久操成人av| 成人黄动漫网站免费| 午夜无码国产理论在线| 欧美丰满少妇xxxx| porn亚洲| 亚洲精品videossex少妇| 亚洲无码精品国产| 亚洲成人av电影| 国产天堂av在线| 久久久久国产精品厨房| 无码人妻少妇色欲av一区二区| 亚洲影院在线| 超碰超碰超碰超碰超碰| 精品免费在线| 国外成人免费视频| 国产精品一级在线观看| 国产99在线|中文| 色呦呦呦在线观看| 日韩视频―中文字幕| 欧美成人片在线| 精品国产91九色蝌蚪| 91精品国产综合久| 在线视频中文字幕一区二区| 久久香蕉精品视频| 亚洲日本青草视频在线怡红院| 天天躁日日躁aaaa视频| av电影天堂一区二区在线| 精产国品一二三区| 六月丁香综合在线视频| 日本精品一区二区三区四区| 国产精品黄色| 福利在线小视频| 欧美激情777| 午夜精品一区二区三区在线观看| 色先锋久久影院av| 国产一区二区自拍| 成人动态视频| 成人情视频高清免费观看电影| 久久婷婷五月综合色丁香| 日韩女优人人人人射在线视频| av电影院在线看| 欧美日韩爱爱视频| 国产区在线看| 久久av在线看| 巨大荫蒂视频欧美大片| 日韩中文av在线| 欧美a在线看| 久久夜色精品亚洲噜噜国产mv | 欧美激情精品久久久久| 超碰在线免费播放| 久久伊人色综合| 黄色免费在线观看网站| 久久天堂av综合合色| 精品美女在线观看视频在线观看 | 二区三区四区视频| 亚洲私人黄色宅男| 538任你躁在线精品视频网站| 中文字幕在线观看一区二区| 四虎地址8848| 亚洲视频 欧洲视频| 国产大片免费看| 亚洲一区视频在线观看视频| 久热精品在线观看| 午夜成人免费视频| 五月天婷婷导航| 欧洲亚洲国产日韩| 国产又黄又大又粗的视频| 51精品国自产在线| 亚洲伦理在线观看| 亚洲国内精品在线| 国产在线一二三| 波霸ol色综合久久| 欧美另类tv| 5566日本婷婷色中文字幕97| 成人在线视频播放| 成人写真福利网| 红杏视频成人| 日本精品一区二区三区视频| 欧美成人自拍| 成人免费网站入口| 美日韩精品视频| 手机版av在线| www.欧美亚洲| 影音先锋男人看片资源| 一区二区三区久久久| 国产高清中文字幕| 9191精品国产综合久久久久久| 亚洲精品97久久中文字幕无码| 精品视频在线观看日韩| 色多多视频在线观看| 欧美激情视频一区二区三区不卡| 自拍偷拍欧美视频| 成人日韩在线电影| 日韩欧美影院| 吴梦梦av在线| 男女精品视频| 日本黄色三级网站| 久久久亚洲午夜电影| 中文字幕av免费在线观看| 欧美性极品xxxx做受| 国产又粗又大又爽| 日韩黄色在线免费观看| 老司机在线永久免费观看| 久久久久久中文| 日本一区二区三区中文字幕| 国产精品一区二区三区免费 | 日韩中文字幕第一页| 大菠萝精品导航| 91精品久久久久久久久| 日韩母乳在线| 久久久99精品视频| 青草av.久久免费一区| 视频免费在线观看| 亚洲日本丝袜连裤袜办公室| 欧美一区二区三区久久久| 精品国产乱码久久久久久影片| 免费**毛片在线| 国产成人在线播放| 国产女人18毛片水真多18精品| 亚洲精品中字| 日日骚欧美日韩| 黄色录像a级片| 亚洲中国最大av网站| 91 中文字幕| 伊人久久久久久久久久久| 欧亚在线中文字幕免费| 7777精品伊久久久大香线蕉语言 | 亚洲国产视频二区| 亚洲最大色综合成人av| 美女尤物久久精品| 中文人妻一区二区三区| 亚洲一区自拍偷拍| 99国产精品一区二区三区| 中文综合在线观看| 亚洲精品一级二级| 欧美重口乱码一区二区| 国产一区导航| 欧美一级片黄色| 亚洲一区二三区| 超碰在线人人干| 欧美老少配视频| 99久久99九九99九九九| 中国人体摄影一区二区三区| 青青草97国产精品免费观看| 日本一级免费视频| 色综合久久88色综合天天6| 午夜在线视频免费| 3344国产精品免费看| 欧美18免费视频| 人妻有码中文字幕| 久久亚洲一级片| 91porny九色| 国产亚洲一级高清| 亚洲综合av一区二区三区| 日本视频一区二区不卡| 日韩电影在线免费看| 高清国产在线观看| 精品视频123区在线观看| 欧美性天天影视| 91影院在线免费观看视频| 中文字幕一区二区三区欧美日韩 | 久久久精品在线视频| 久久精品综合网| 中文字幕一区二区人妻| 日韩中文字幕在线视频播放| 亚洲午夜国产成人| 黄色片免费在线观看视频| 成人精品视频一区二区三区尤物| 日韩精品久久久久久久酒店| 日韩国产在线播放| a成人v在线| 久久久久亚洲av无码专区喷水| 国产精品系列在线播放| 日韩免费观看一区二区| 亚洲免费中文字幕| 久久人体av| 日韩精品久久一区二区| 99久久精品免费看国产免费软件| 日本免费在线观看视频| 中文字幕在线观看亚洲| 日韩视频一区二区三区四区| www.av中文字幕| 欧美国产日韩在线观看| 国产伦精品一区二区三区视频黑人| a在线免费观看| 国产一区二区高清视频| 日本不卡一区二区| 午夜少妇久久久久久久久| 日韩av一区在线观看| 成人免费一区| 国产成a人亚洲精v品在线观看| 久久久影视传媒| 国产婷婷一区二区三区久久| 91高清视频免费观看| 手机在线电影一区| 亚洲成年人在线观看| 91豆麻精品91久久久久久| 制服丝袜在线播放| 免费av一区二区三区| 国产综合色视频| 免费看日批视频| 欧美精品在线免费| 精品72久久久久中文字幕| 先锋资源在线视频| 欧美中文字幕亚洲一区二区va在线 | 丰满亚洲少妇av| 亚洲午夜无码久久久久| 国内精品久久久久久久久| 久久视频在线|