精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

單靠推理Scaling Law無法成就o1!無限推理token,GPT-4o依然完敗

人工智能
o1的秘訣,和全新的「推理Scaling Law」關(guān)系有多大?Epoch AI最近的對(duì)比實(shí)驗(yàn)表明,算法創(chuàng)新才是關(guān)鍵。

CoT鑄就了o1推理王者。

它開創(chuàng)了一種推理scaling新范式——隨著算力增加、更長響應(yīng)時(shí)間,o1性能也隨之增長。

圖片

這一點(diǎn),為AI scaling開辟了新的可能性。

既然如此,若是將o1這一訓(xùn)練過程直接應(yīng)用到所有LLM中,豈不皆是「推理王者」。

然而,研究機(jī)構(gòu)Epoch AI發(fā)現(xiàn),結(jié)果并不是這樣的。


單純的擴(kuò)展推理計(jì)算,根本不能彌合o1-preview和GPT-4o之間的差距。


圖片

他們稱,「雖然o1使用了逐步推理方法訓(xùn)練,但其性能改進(jìn),可能還存在其他的因素」。

o1的秘訣是什么?

上周,在o1-preview和o1-mini發(fā)布之后,Epoch AI研究人員開啟了GPT-4o和o1-preview對(duì)比實(shí)驗(yàn)。

他們選擇了一個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試GPQA進(jìn)行評(píng)估,其中包含STEM領(lǐng)域研究生級(jí)別的多項(xiàng)選擇題,而且考慮到模型的隨機(jī)性進(jìn)行了多次運(yùn)行。

結(jié)果發(fā)現(xiàn)o1-preview的性能遠(yuǎn)遠(yuǎn)好于GPT-4o,比Claude 3.5 Sonnet、Llama3.1 405B也拉開了相當(dāng)大的差距。

圖片

這個(gè)結(jié)果也和OpenAI自己放出的測(cè)試結(jié)果相吻合,尤其是在AIME和Codeforces這類難度更高的基準(zhǔn)上,o1-preview相比GPT-4o的提升更加明顯。

圖片

圖片

然而,考慮到o1模型相比GPT-4o使用了更多的推理時(shí)計(jì)算,而且每個(gè)問題生成的token也更多,這種比較顯得不太公平。

圖片

因此,研究人員使用了兩種方法嘗試增加GPT-4o的輸出token,類似于讓GPT-4o模仿o1的思考過程。

- 多數(shù)投票(majority voting):選擇k個(gè)推理軌跡中最常見的答案

- 修正(revision):給模型n次反思和改進(jìn)答案的機(jī)會(huì)

值得注意的是,這些都是相對(duì)簡(jiǎn)單的方法。其實(shí)存在更復(fù)雜、有效的方法來利用推理時(shí)間計(jì)算,比如讓過程獎(jiǎng)勵(lì)模型作為驗(yàn)證器參與搜索。

o1模型很可能使用了更復(fù)雜的方法,但Epoch研究人員只是想建立一個(gè)比較基線,因此選擇了較為基礎(chǔ)的方法。

結(jié)果顯示,雖然這兩種方法都生成了更多的token,并提高了GPT-4o的準(zhǔn)確性,但依舊無法匹敵o1-preview的性能。

GPT-4o變體的準(zhǔn)確率仍然顯著低于o1-preview,差距始終大于10個(gè)百分點(diǎn)。

圖片

與o1-preview相比,輸出token數(shù)量對(duì)GPT-4o在GPQA上性能的影響

即使考慮到o1-preview每個(gè)輸出token的成本更高,這種性能差距仍然存在。

Epoch AI團(tuán)隊(duì)的推算結(jié)果表明,即使在GPT-4o上花費(fèi)1000美元用于輸出token,準(zhǔn)確率仍將比o1-preview低10多個(gè)百分點(diǎn)。

圖片

對(duì)GPT-4o mini進(jìn)行相同操作后也能得到類似的結(jié)果,但在進(jìn)行模型修正后,結(jié)果存在一些差異。

隨著修正次數(shù)的增加,模型準(zhǔn)確性不會(huì)持續(xù)提升,反而會(huì)在到達(dá)一定閾值后開始下降。這可能是由于GPT-4o mini在長上下文推理方面的局限。

圖片

從以上結(jié)果可以看出,僅僅擴(kuò)大推理處理能力并不足以解釋o1的卓越性能。

研究作者認(rèn)為,先進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù)和改進(jìn)的搜索方法可能發(fā)揮了關(guān)鍵作用,凸顯了在Scaling Law之外,算法創(chuàng)新對(duì)AI發(fā)展的重要性。

但是,我們也并不能確定算法改進(jìn)是o1-preview優(yōu)于GPT-4o的唯一因素,更高質(zhì)量的訓(xùn)練數(shù)據(jù)也可能導(dǎo)致性能差異。

推理很強(qiáng)的o1,差在規(guī)劃能力

雖然GPQA或AIME這類問題相當(dāng)困難,但一般只會(huì)考察模型的在STEM領(lǐng)域的知識(shí)儲(chǔ)備和推理能力。那么強(qiáng)如o1,它的規(guī)劃能力如何?

2022年,亞利桑那州大學(xué)的學(xué)者們?cè)?jīng)提出過一個(gè)用于評(píng)測(cè)LLM規(guī)劃能力的基準(zhǔn)套件PlanBench,包括了來自Blocksworld領(lǐng)域的600個(gè)任務(wù),要求將一定數(shù)量的積木按照指定順序堆疊起來。

在MMLU、GSM8K等傳統(tǒng)基準(zhǔn)相繼飽和時(shí),兩年前提出的PlanBench依舊沒有飽和,可見當(dāng)今的LLM在規(guī)劃能力方面依舊有很大的提升空間。

圖片

o1之前的模型中,PlanBench準(zhǔn)確率很少超過50%

最近,提出PlanBench團(tuán)隊(duì)又測(cè)試了一下最新的o1-preview模型,發(fā)現(xiàn)雖然o1的結(jié)果已經(jīng)表現(xiàn)出了實(shí)質(zhì)性改進(jìn),但仍然存在很大的局限性,不能完全解決規(guī)劃任務(wù)。

圖片

論文地址:https://arxiv.org/abs/2409.13373

在Blocksworld任務(wù)上,o1實(shí)現(xiàn)了97.8%的準(zhǔn)確率,遠(yuǎn)遠(yuǎn)優(yōu)于LLaMA 3.1 405B之前達(dá)到的最好成績(jī)62.6%。

在更具挑戰(zhàn)性的任務(wù)版本Mystery Blocksworld上,之前的LLM幾乎完全失敗,而o1達(dá)到了52.8%的準(zhǔn)確率。

此外,為了排除o1的性能提升源于訓(xùn)練數(shù)據(jù)中包含基準(zhǔn)測(cè)試,研究人員還創(chuàng)建了Mystery Blocksworld的隨機(jī)變體進(jìn)行測(cè)試(表2中的Randomized Mystery Blocksworld)。

o1在隨機(jī)變體測(cè)試集上的成績(jī)從52.8%下降至37.3%,但依舊超過得分接近于0的之前其他模型。

圖片

雖然o1和o1-mini都取得了不錯(cuò)的成績(jī),但性能并不穩(wěn)健。隨著任務(wù)逐漸復(fù)雜、計(jì)劃步驟增加,性能會(huì)出現(xiàn)直線下降。

圖片

在這組含有110個(gè)實(shí)例的較大Blocksworld數(shù)據(jù)集上,每個(gè)問題都需要20~40個(gè)步驟的最佳計(jì)劃,而o1的準(zhǔn)確率從之前報(bào)告的97.8%直接下降至23.6%,而且這些準(zhǔn)確率大部分都來自步驟少于28的問題。

圖片

相比準(zhǔn)確性更高、成本更低的傳統(tǒng)方法,如經(jīng)典規(guī)劃器Fast Downward或LLM-Modulo系統(tǒng),o1這樣的大型推理模型(LRM)非常缺乏正確性保證,而且使得可解釋性幾乎不可能,因此很難在實(shí)際應(yīng)用中部署。

o1雖強(qiáng),但絕不是萬能的。OpenAI想要真正實(shí)現(xiàn)AGI,還需要走很長一段路。

參考資料:

https://the-decoder.com/openais-o1-probably-does-more-than-just-elaborate-step-by-step-prompting/

https://x.com/EpochAIResearch/status/1838720157545648315

https://the-decoder.com/researchers-put-openais-o1-through-its-paces-exposing-both-breakthroughs-and-limitations/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-08-15 15:45:00

AI訓(xùn)練

2024-11-25 15:50:00

模型訓(xùn)練

2024-09-24 11:01:03

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2024-11-07 15:40:00

2025-01-21 10:10:56

2024-11-22 14:10:00

AI智能體

2024-12-26 07:10:00

2024-10-17 14:05:34

2025-01-15 10:28:21

2025-06-06 14:17:11

模型訓(xùn)練AI

2024-09-14 14:00:00

AI模型

2024-06-05 08:29:35

2024-10-17 13:30:00

2024-11-25 08:30:00

2025-04-11 09:10:00

模型開源AI

2025-11-04 08:42:27

2025-01-02 13:00:00

2025-03-12 10:38:05

2024-05-21 12:23:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

韩国av一区二区三区四区| 西瓜成人精品人成网站| 亚洲精品一卡二卡| 国产精品麻豆免费版| 成年人午夜视频| 国产精品美女久久久久久不卡| 欧美亚洲国产怡红院影院| 天堂v在线视频| 狠狠躁夜夜躁av无码中文幕| 美女诱惑黄网站一区| 日韩一区视频在线| 香港三日本8a三级少妇三级99| 日本免费久久| 亚洲精品成人精品456| 欧美精品一区在线发布| 国产精品无码一区二区桃花视频| 亚洲国产黄色| 日韩一区二区三区在线播放| 精品夜夜澡人妻无码av| 成人乱码手机视频| 欧美午夜www高清视频| 中文字幕剧情在线观看一区| 天天操天天干天天插| 看电视剧不卡顿的网站| 97成人精品区在线播放| 污污的视频在线免费观看| 丝袜美腿综合| 精品国产91九色蝌蚪| 无码人妻精品一区二区三区66| 青草av在线| 国产精品美女久久久久久久| 精品免费视频123区| 国产三级漂亮女教师| 可以免费看不卡的av网站| 久久免费视频在线| 在线看的片片片免费| 精品国产视频| 亚洲精品视频网上网址在线观看 | 亚洲久久久久久久| aaa国产精品视频| 欧美一区二区三区视频在线观看| 91av俱乐部| 亚洲欧美se| 午夜私人影院久久久久| 日本福利视频在线观看| 精品视频在线一区二区| 国产精品第四页| 日日骚一区二区网站| 天天av综合网| 97aⅴ精品视频一二三区| 国产91一区二区三区| 精品乱子伦一区二区| 国产一区二区免费视频| 国产热re99久久6国产精品| 黄色片视频免费| 亚洲综合欧美| 欧美中文字幕第一页| 国产成人在线免费观看视频| 一道本一区二区| 97视频在线观看亚洲| 久久久久久久久久影院| 在线日韩欧美| 97成人在线视频| 国产小视频在线免费观看| 国产欧美日韩一级| 欧美亚洲视频一区二区| 色一情一乱一伦| 肉肉av福利一精品导航| 国产精品精品视频| 亚洲综合免费视频| 国产乱码精品一区二区三| 亚洲一区二区三区在线视频| www.黄色av| 成人美女在线观看| 久久99精品久久久久久青青日本| 青春有你2免费观看完整版在线播放高清| 99久久99久久精品国产片果冻| 久久久99爱| 国内精品一区视频| 中文字幕一区二区三区四区不卡| 男人的天堂成人| 久草在线新免费首页资源站| 精品国产精品三级精品av网址| 黄色片久久久久| 成人影院在线免费观看| 日韩一区二区三| 亚洲久久久久久| av亚洲免费| 久热精品视频在线观看一区| 国产精品30p| 免费在线成人| 成人午夜小视频| 日韩中文字幕影院| 国产欧美精品一区二区色综合 | 欧美熟妇精品一区二区蜜桃视频| 要久久爱电视剧全集完整观看| 在线播放日韩欧美| 欧美成人三级在线观看| 久久不射2019中文字幕| 91麻豆桃色免费看| 日韩二区三区| 亚洲欧洲韩国日本视频| 国产免费黄色小视频| 福利一区和二区| 亚洲成人精品久久久| 国产亚洲精品熟女国产成人| 国一区二区在线观看| 国产精品wwww| 黄色av网站免费在线观看| 国产欧美一区二区三区在线老狼| 日韩成人手机在线| 久久精品97| 日韩精品福利在线| 欧美激情图片小说| 日本成人在线不卡视频| 国产精品免费看一区二区三区| 草碰在线视频| 精品动漫一区二区三区| 亚洲视频在线不卡| 精品视频免费| 69久久夜色精品国产69乱青草| 国产精品久久久久久久免费 | 欧美揉bbbbb揉bbbbb| 亚洲美女高潮久久久| 成人精品亚洲| 欧美在线视频一区二区| 亚洲精品一区二区三区不卡| 国产网站一区二区三区| 国产69精品久久久久久久| 国产成年精品| 中文字幕少妇一区二区三区| 一本一道无码中文字幕精品热| 国产精品一级黄| 一区二区精品视频| 日韩网站中文字幕| 国产视频综合在线| 亚洲一区欧美在线| 国产白丝网站精品污在线入口| 正在播放精油久久| 97精品国产99久久久久久免费| 亚洲精品一区二区在线| 91香蕉在线视频| 成人精品鲁一区一区二区| 91麻豆天美传媒在线| 久久人体av| 中文字幕精品www乱入免费视频| 亚洲永久精品在线观看| 91年精品国产| avav在线看| 亚洲综合福利| 国产成人久久久| 黄色免费在线播放| 日本韩国欧美国产| 国产一级久久久久毛片精品| 久久不射网站| 视频一区二区三区免费观看| 日韩漫画puputoon| 中文字幕在线看视频国产欧美在线看完整 | 欧美日产国产成人免费图片| 国产毛片在线视频| 亚洲免费观看高清完整版在线观看| 亚洲欧美日韩三级| 91精品综合| 99精品国产一区二区| 在线观看电影av| 亚洲精品在线三区| 日韩伦人妻无码| 2020国产精品| 天天爱天天操天天干| 欧美电影免费| 亚洲精品免费在线视频| 丰乳肥臀在线| 亚洲女人天堂成人av在线| 日本免费精品视频| 国产精品国产三级国产普通话99| 免费成年人高清视频| 一区二区在线| 国产在线精品一区二区三区》| 精精国产xxxx视频在线野外| 国产亚洲欧美一区| 国产露脸国语对白在线| 一区二区成人在线| 少妇按摩一区二区三区| 日本在线不卡视频| 永久免费看av| 日韩成人午夜| 国产精品一区二区女厕厕| 超碰在线最新| 国产偷亚洲偷欧美偷精品| 影音先锋国产资源| 亚洲一级二级三级| 免费在线观看a视频| 国产酒店精品激情| 99爱视频在线| 天天综合亚洲| 久久久久九九九| 日本黄色成人| 午夜精品一区二区三区av| 在线免费看黄| 亚洲精品在线免费播放| 中文字幕 日韩有码| 亚洲自拍偷拍图区| 99久久99久久精品免费看小说.| 国产乱子伦一区二区三区国色天香 | 成人在线观看一区二区| 日韩一区欧美二区| 免费高清一区二区三区| 精品黄色一级片| 国产精品久久久久久久久久久久午夜片 | 亚洲激情播播| 97超碰人人看人人| 美女网站视频一区| 欧美亚洲成人免费| 伊人电影在线观看| 伊人久久综合97精品| 天天干,天天操,天天射| 91精品国产91热久久久做人人| 探花视频在线观看| 亚洲成人动漫精品| 高h视频免费观看| 国产精品视频在线看| 色天使在线视频| 国产精品18久久久久久久久 | 欧美三级 欧美一级| 国产亚洲1区2区3区| 亚洲天堂2024| 国产成人综合在线播放| 香蕉视频禁止18| 久久久久久亚洲精品杨幂换脸| 可以看毛片的网址| 综合久久99| 中国 免费 av| 日韩综合精品| 无码免费一区二区三区免费播放| 青青草久久爱| 国产在线资源一区| 丁香五月缴情综合网| 91久久偷偷做嫩草影院| 欧美jizz18| 国产精品网站入口| 国产精品字幕| 国产精品高潮呻吟久久av野狼| 国内精彩免费自拍视频在线观看网址| 欧美激情免费观看| 日本在线视频网址| 欧美极品在线播放| 天天干在线视频论坛| 九九热视频这里只有精品| 国产一区久久精品| 操日韩av在线电影| av在线导航| 精品综合久久久久久97| 性xxxfreexxxx性欧美| 美女撒尿一区二区三区| 91网在线看| 欧美人与性动交| 超碰97国产精品人人cao| 久久久久久久久久久网站| 国产白丝在线观看| 97av在线影院| 在线观看精品| 国产精品久久久久久av下载红粉| 精品欧美日韩精品| 成人久久18免费网站图片| 91成人精品观看| 99中文字幕| 国偷自产av一区二区三区| 国产主播一区二区三区四区| 日韩欧美在线精品| 日韩精品另类天天更新| 色综合天天爱| 亚洲小视频在线播放| 亚洲婷婷免费| 国产精品动漫网站| 精品一区二区国语对白| 国偷自产av一区二区三区麻豆| 成人av电影在线播放| 蜜桃精品一区二区| 国产精品久久久久久久久搜平片| 老女人性淫交视频| 欧美日韩国产精品一区二区三区四区| 国产微拍精品一区| 欧美日韩日日摸| 亚洲国产999| 亚洲欧洲xxxx| 中文字幕免费高清电视剧网站在线观看 | 999在线观看免费大全电视剧| 老牛影视av一区二区在线观看| 日本成人黄色免费看| 99国产精品一区二区| 日韩极品视频在线观看| 亚洲欧美日韩国产一区二区| 一路向西2在线观看| 成人综合在线视频| 欧美丰满老妇熟乱xxxxyyy| 亚洲三级理论片| 国产无人区码熟妇毛片多| 精品视频一区 二区 三区| 韩国中文字幕hd久久精品| 国产一区二区美女视频| 天天色天天射天天综合网| 国产精品久久久久久久久男 | 欧美午夜欧美| 欧美精品二区| 中文字幕国产免费| 99久久精品免费| 97在线观看视频免费| 欧美日韩国产精品一区二区不卡中文| 国产精品女同一区二区| 亚洲精品中文字| 日本h片在线| 国产欧美最新羞羞视频在线观看| 先锋影音国产精品| 国产1区2区3区中文字幕| 蜜臀av在线播放一区二区三区 | 中文文字幕一区二区三三| 欧美大片国产精品| www.在线播放| 日本午夜人人精品| 国产三级精品三级在线观看国产| 中文字幕成人一区| 青青草国产成人av片免费| 国产福利在线观看视频| 亚洲一区二区三区在线| 国产又大又长又粗| 在线日韩欧美视频| 三级成人黄色影院| 欧美精品人人做人人爱视频| 亚洲视频一区| 中文字幕乱码在线人视频| 国产精品理论片| 中文字幕+乱码+中文字幕明步| 亚洲精品网站在线播放gif| 国产亚av手机在线观看| 亚洲一区精品电影| 亚洲mv大片欧洲mv大片| 潘金莲激情呻吟欲求不满视频| 日本一区二区三区四区在线视频| 免费观看成人毛片| 日韩精品在线免费观看视频| а√天堂8资源在线| 国产精品区二区三区日本| 欧美成人综合| 国产sm在线观看| 亚洲综合丝袜美腿| 亚洲国产精品欧美久久 | 日韩在线一卡二卡| 欧美日韩不卡视频| 日本福利专区在线观看| 国产精品中文字幕在线| 日韩精品免费| 九九热精品国产| 中文字幕在线不卡| 国产视频在线观看视频| 欧美精品一区三区| 91精品导航| 波多野结衣之无限发射| 91碰在线视频| 精品乱码一区内射人妻无码| 中文字幕日韩欧美在线| 国产精品色婷婷在线观看| 大片在线观看网站免费收看| 国产成人精品亚洲日本在线桃色| 欧美另类视频在线观看| 欧美精品一区二区三区在线播放 | 亚洲一区二区av在线| 手机在线观看毛片| 国产91色在线播放| 日本道不卡免费一区| 九九热视频免费| 亚洲成人精品影院| 看电影就来5566av视频在线播放| 国产精品日韩久久久久| 91精品国产成人观看| 日韩黄色一区二区| 一本久久综合亚洲鲁鲁五月天 | av中文字幕播放| 久久久久久com| 国产一区99| 午夜大片在线观看| 无码av中文一区二区三区桃花岛| 噜噜噜噜噜在线视频| 国产自产女人91一区在线观看| 欧美福利影院| 手机av免费看| 在线播放91灌醉迷j高跟美女 | 一区二区国产盗摄色噜噜| 天堂v视频永久在线播放| 国产精品亚洲视频在线观看 | 日本三级免费观看| 中文字幕一区二区三区蜜月| 日韩一区二区三区不卡| 国产精品久久久久久久美男| 自拍日韩欧美| 91l九色lporny| 日韩精品中文字幕在线一区| 日韩成人av电影| 日韩欧美视频免费在线观看| 久久九九国产精品| 精品免费久久久|