精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

懸賞800萬的超難測試集,被GPT-4o實現新SOTA,準確率已達50%

人工智能
在已公布的60萬美元中,有50萬美元(約360萬人民幣)的大獎,獲獎隊伍不超過五個,獎給最先在ARC-AGI上達到85%準確率的團隊。

GTP-4o挑戰懸賞八百萬的超難數據集,實現SOTA!

數據集當中包含了各種類型的圖形推理題目,被挑戰發起者預言“大模型很難完成”。

圖片圖片

結果短短一周之內,這一挑戰就被一位博主Ryan Greenblatt完成了一半,準確率達50%;而此前的SOTA僅為34%。

針對自己的成果,Ryan發了一個表情包表示:

只要有更多的樣本,大模型的能力就能獲得提升。

圖片圖片

成果發布后,Ryan所在機構CEO Bucket Shlegeris稱贊他是世界級的語言模型推理專家,用了很多精致技巧讓模型的表現提高到了這樣的程度。

圖片圖片

要知道,挑戰的發起方此前開出了最高50萬美元(約360萬人民幣)、總計110萬美元(約798萬人民幣)的巨額賞金。

但有人預計,有60%的概率在未來一年內就會有人獲得獎項,甚至現有的模型加上一些提示技巧就能實現。

圖片圖片

這也與Ryan的想法不謀而合,不過Ryan估計的概率更高些,是70%。

圖片圖片

然而按照規則,想得獎的話,方法必須是開源的,而Ryan用的是GPT,所以可能與獎金無緣了。

不過,Ryan用到的的方法,還是值得我們了解一下的。

讓GPT編寫海量程序

Ryan挑戰的測試集名為ARC-AGI,題目帶有色塊的網格陣列,大模型需要觀察每道題目中3個輸入/輸出示例,然后根據規律填充新的空白網格。

圖片圖片

當然,實際測試中的問題,會比上面的例子復雜得多。

圖片圖片

首先,Ryan根據網格大小是否發生變化,把測試集中的問題細分成了兩類。

圖片圖片

對于每個問題,Ryan都會把網格以圖像和ASCII字符兩種方式輸入給GPT-4o。

其中,ASCII字符包括以下內容:

  • 每個位置的顏色和坐標
  • 每種顏色出現的所有位置坐標,并按連通分量分組
  • 將連通分量(形狀)按其左上角位置歸一化到原點后的表示
  • 輸入輸出網格之間不同顏色的變化及其位置

對于后面需要修正的程序,還會把實際輸出與期望輸出的的差異(ASCII字符形式)一并輸入給模型。

根據前面不同的分類,Ryan會用不同的少樣本提示詞指示GPT-4o,提示詞中包含這三項指令:

  • 分步推理和解釋每個例子中的轉換規則
  • 思考如何將推理得到的規則實現為代碼
  • 實際編寫對應的Python代碼

對每個問題,Ryan會從GPT-4o的回答中采樣約5000個完成結果,對程序進行篩選與修正。

采樣得到的完成結果首先會被轉化為Python程序并在測試用例上運行,然后選出在所有例子上都正確的程序。

接著,在剩余的程序中,Ryan設計了一個漢明距離度量方式,并據此從中選出最有希望的12個。

對這12個程序,Ryan會讓GPT-4o嘗試修正其中的錯誤 ,首先用少樣本提示詞要求模型獲取實際輸出與期望輸出差異,然后對每個待修正的程序再采樣約3000個完成結果。

最后,Ryan會選擇經過篩選和修正后能正確解決所有例子的3個程序,如果符合要求的程序少于3個,則會使用一些啟發式規則選出剩余的程序。

實際操作中,Ryan使用了多個不同的少樣本提示詞分別進行了上述過程,獲得了多組候選程序,并在所有組的正確程序中進行多數投票,選出出現頻率最高的3個作為最終結果。

此外,Ryan還使用了一些額外的策略,比如在訓練集和測試集的不相交子集上進行迭代優化,通過局部搜索等方法尋找更好的提示詞等

同時,他還引入了一些額外的規則,比如拒絕輸出與輸入完全相同的解,從而更好地篩選出有用的程序。

最終,Ryan的方法在ARC-AGI公開測試集上達到了50%的準確率,成為了新的SOTA,此前的SOTA為34%,而在訓練集(難度低于測試集)的一個子集上,該方法達到了72%的準確率。

不過Ryan同時指出,GPT-4o的視覺能力依然有待提高,同時還存在編程、長上下文和指令遵循能力不足,以及緩存空間不夠等問題,如果這些問題能夠被解決,將顯著提高Ryan所用方法的效果。

那么,ARC Prize究竟是一項怎樣的挑戰?

85%準確率可瓜分360萬獎金

這項ARC Prize,由零代碼SaaS平臺Zapier聯創Mike Knoop和谷歌資深工程師Fran?ois Chollet發起并出資。

項目顧問則包括GitHub前CEO Nat Friedman、前Y-Combinator合伙人Daniel Gross,以及瑞士企業家Pascal Kaufmann。

官方指出,現有的大多數AI基準測試都在衡量模型的“技能”,但“技能”并不等于“智力”,并表示“智力”指的是有效獲取新技能的能力。他們認為,“智力”型的任務對人類很簡單,但對于AI來說很難實現。

為此,活動方選擇了一套測試數據集,也就是Ryan挑戰的ARC-AGI,旨在評判大模型的“智力”,或者說“AGI能力”,并激發人們對于新算法和架構的探索,而不是單純增加數據規模。

該數據集出現的時間是在2019年,去年有300個團隊進行了嘗試,今年的挑戰則于6月11日開啟。

按照規則,參賽者需要在這個數據集上取得更高的準確率,同時提交者必須將自己編寫的代碼完全開源,使用的第三方工具也至少要有允許共享的開源許可。

圖片圖片

在Ryan之前,已經提交的方案中最高的準確率為34%,而官方設置的“成功”標準,也是他們預估的人類水平,為85%。

圖片圖片

大賽一共設置了110萬美元的獎金,目前已公布標準的獎項共計60萬美元,還有50萬美元的評獎方式等待官宣。

在已公布的60萬美元中,有50萬美元(約360萬人民幣)的大獎,獲獎隊伍不超過五個,獎給最先在ARC-AGI上達到85%準確率的團隊。

還有高分獎五名,將獲得5000-25000美元不等的獎勵,共計5萬美元。

此外還有一項論文獎,會頒發給能夠幫助人們了解如何在ARC-AGI上實現更好表現的團隊,冠亞軍獎分別獲得45000和5000美元。

圖片圖片

參考鏈接:
[1]https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt[2]https://arcprize.org/[3]https://x.com/liron/status/1800643034263990432

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-06-20 10:43:15

2025-05-26 08:33:00

2024-08-02 13:14:51

2025-05-06 15:32:23

模型AI測試

2025-04-15 08:01:12

2025-11-14 13:40:55

GPT-4oAI模型

2025-07-25 09:31:34

2024-05-20 08:20:00

OpenAI模型

2024-06-12 11:50:23

2025-03-31 08:44:00

GPT-4o模型技術

2024-06-05 08:29:35

2024-06-27 12:45:30

2024-12-06 14:19:50

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-05-21 12:23:17

2024-10-17 13:30:00

2023-11-20 21:56:04

AI推理

2025-04-08 02:26:00

2024-05-14 11:29:15

點贊
收藏

51CTO技術棧公眾號

最新免费av网址| 欧美一区二区.| 一级网站在线观看| 国产人成网在线播放va免费| 激情六月婷婷久久| 欧美成人黑人xx视频免费观看| 人人爽人人爽av| 成人免费高清观看| 国产精品18久久久久久久久| 韩国19禁主播vip福利视频| 污污内射在线观看一区二区少妇| 国产高清不卡| 色a资源在线| 欧美午夜电影在线观看| 亚洲电影中文字幕| 欧美 国产 日本| 日本在线观看| av一二三不卡影片| 国产精品精品视频| 免看一级a毛片一片成人不卡| 日韩黄色网络| 欧美一区二区三区视频免费| 2018国产在线| 天堂中文8资源在线8| 福利一区福利二区| 国产精品99导航| 国产一级黄色av| 最新国产一区| 精品国产一区二区三区av性色| 六月激情综合网| av黄在线观看| 国产性天天综合网| 国产免费一区二区三区| 亚洲乱码国产乱码精品| 韩国自拍一区| 日韩中文字在线| 最新中文字幕视频| 国产成人在线中文字幕| 7777精品伊人久久久大香线蕉完整版| 大胆欧美熟妇xx| 香蕉视频在线免费看| 99精品视频一区二区三区| 91亚洲精品久久久| 日韩欧美国产另类| 日韩午夜免费| 欧美成人亚洲成人日韩成人| 亚洲精品色午夜无码专区日韩| 日韩中文字幕一区二区高清99| 在线看日韩精品电影| 男人日女人视频网站| 国产在线1区| 欧美国产成人精品| 欧美国产1区2区| av资源站久久亚洲| 亚洲天堂视频在线| 一二三区精品| 午夜精品蜜臀一区二区三区免费 | 国产直播在线| 中文幕一区二区三区久久蜜桃| 国产一区二区视频在线免费观看| 国产一区二区自拍视频| 日韩av一区二区在线影视| 欧美性做爰毛片| 日本亚洲色大成网站www久久| 一级欧洲+日本+国产| 日韩在线免费高清视频| 色偷偷男人天堂| 欧美午夜精品一区二区三区电影| 亚洲丝袜av一区| 好吊视频在线观看| 视频精品在线观看| 日韩激情片免费| www.日本高清| 丝袜av一区| 精品视频一区在线视频| 精品人妻一区二区免费| 综合伊人久久| 精品国产免费久久| 黑人玩弄人妻一区二区三区| 999在线精品| 欧美哺乳videos| 精品人妻在线视频| 天堂99x99es久久精品免费| 亚洲国产精品久久久久秋霞蜜臀| 国产精品一区二区人妻喷水| 精品福利网址导航| 日韩成人中文字幕| 人妻少妇无码精品视频区| 国产精品日韩精品中文字幕| 中文字幕亚洲欧美| 精品国模在线视频| 看全色黄大色黄女片18| 红杏视频成人| 亚洲欧洲日产国码av系列天堂| 自拍偷拍亚洲天堂| 欧美肉体xxxx裸体137大胆| 色综久久综合桃花网| 一级在线观看视频| 欧美黄色免费| 欧美最顶级的aⅴ艳星| 波多野结衣小视频| 国产精品综合在线视频| 国产自产精品| 大片免费播放在线视频| 亚洲欧美偷拍卡通变态| 自拍偷拍视频在线| av女在线播放| 欧美在线不卡视频| 亚洲丝袜在线观看| 国产三级短视频| 成人18夜夜网深夜福利网| 亚洲成人教育av| mm131丰满少妇人体欣赏图| 99re久久最新地址获取| 久久99精品国产99久久6尤物| 国产一区二区三区影院| 蜜桃久久久久久| 国产乱码精品一区二区三区不卡| 欧美日本网站| 国产精品看片你懂得| av在线播放天堂| 久久天天久久| 日韩精品中文字幕在线观看| 成人在线观看高清| 亚洲专区免费| 91成人免费观看| 韩国福利在线| 午夜影视日本亚洲欧洲精品| 超碰影院在线观看| 99精品中文字幕在线不卡| 亚洲男人的天堂在线| 国产av无码专区亚洲av毛网站| 久久精品导航| 国产一区二区中文字幕免费看| 免费网站成人| 日韩欧美在线字幕| 在线精品视频播放| 亚洲精彩视频| 国产色综合天天综合网 | 欧美aaaaaa午夜精品| 91一区二区三区| 日本最新在线视频| 色8久久人人97超碰香蕉987| xxxxwww一片| 亚洲高清影视| 91精品国产综合久久久久久蜜臀| 久久手机免费观看| 精品久久香蕉国产线看观看亚洲 | 久久久水蜜桃av免费网站| 91精品国产综合久久久久久丝袜| 肉丝一区二区| 午夜久久久久久久久| 曰本三级日本三级日本三级| 欧美天天综合| 国产精品美女久久| 久香视频在线观看| 亚洲自拍偷拍网站| 久久久国产精品久久久| 最新欧美人z0oozo0| 国产一区红桃视频| av电影在线观看| 欧美性受xxxx黑人xyx| 一区二区黄色片| 丝袜a∨在线一区二区三区不卡| 久久精品国产精品青草色艺| 女囚岛在线观看| 精品国产乱码久久| 国产精品第108页| 成人午夜av影视| 久草视频国产在线| 美日韩黄色大片| 97久久超碰福利国产精品…| 色一情一乱一区二区三区| 亚洲国产成人tv| 大尺度做爰床戏呻吟舒畅| 国产亚洲网站| 欧洲精品亚洲精品| 久久av影院| 国产精品午夜一区二区三区| 97精品一区二区三区| 天堂中文网在线| 一本一道综合狠狠老| 亚洲欧美va天堂人熟伦| 狠狠色综合色综合网络| 久久久国内精品| 天天久久夜夜| 国产精品色视频| 超碰免费在线播放| 亚洲成人教育av| 强乱中文字幕av一区乱码| 福利一区福利二区| 日韩av资源在线| 日韩视频在线观看| 97在线电影| 在线中文字幕播放| 亚洲偷熟乱区亚洲香蕉av| 在线观看亚洲一区二区| 亚洲男人的天堂一区二区| 99riav国产精品视频| 久久最新视频| 欧美 日韩 国产 在线观看| 国产成人在线中文字幕| 国产高清在线不卡| av在线app| 国产婷婷成人久久av免费高清| 在线免费一区二区| 亚洲永久免费av| 国产激情在线免费观看| 精品亚洲欧美一区| 欧美狂野激情性xxxx在线观| 婷婷亚洲精品| 亚洲iv一区二区三区| 少妇淫片在线影院| 久久久国产在线视频| 国产小视频免费观看| 欧美亚洲综合网| 日本少妇在线观看| 中文字幕人成不卡一区| 亚洲av无码一区二区三区观看| 日产欧产美韩系列久久99| 精品人妻人人做人人爽| 欧美日韩xxxx| 精品久久蜜桃| av男人一区| 91久久国产精品91久久性色| 国产精品久久乐| 日本精品一区二区三区在线| 波多野结衣乳巨码无在线观看| 久久久国产91| 密臀av一区二区三区| 精品久久ai电影| 97视频资源在线观看| 99精品女人在线观看免费视频| 国产精品久久久久久久久久| 日本不卡1234视频| 午夜精品一区二区三区在线视频 | 久久不见久久见中文字幕免费| 亚洲一区二区三区xxx视频| 草莓视频成人appios| 国产91在线播放精品91| 在线看片福利| 国产91精品青草社区| 青青草原av在线| 欧美肥臀大乳一区二区免费视频| 国产素人视频在线观看| 日韩一区二区三区在线播放| 97超碰人人在线| 中文字幕精品久久| √天堂资源地址在线官网| 在线播放日韩av| 91最新在线| 久久精品99国产精品酒店日本| 欧美成人hd| 两个人的视频www国产精品| 黄色小网站在线观看| 草民午夜欧美限制a级福利片| 成人欧美在线| 色综合色综合久久综合频道88| 欧美亚洲天堂| 18一19gay欧美视频网站| 亚洲天堂电影| 国产成人久久久| 成人h在线观看| 91免费电影网站| 51社区在线成人免费视频| 国产一区喷水| 国产一区二区三区电影在线观看| 日韩精品在在线一区二区中文| 日韩精品免费一区二区在线观看| 正在播放一区二区三区| 亚洲欧美偷拍自拍| 青青青青在线视频| 久久欧美肥婆一二区| 天天色天天综合网| 成熟亚洲日本毛茸茸凸凹| aaaa黄色片| 国产精品免费网站在线观看| www深夜成人a√在线| 亚洲成人综合视频| 成人黄色免费网| 欧美大片一区二区三区| 可以免费看污视频的网站在线| 最近日韩中文字幕中文| 国产aⅴ精品一区二区三区黄| 国产日韩欧美中文在线| 国产欧美日韩在线播放| 国产精品亚洲人成在99www| 亚洲一区二区三区加勒比| 综合久久十次| 日韩毛片在线免费看| 国产一区二区三区美女| 99久久人妻无码中文字幕系列| 亚洲国产精品ⅴa在线观看| 极品盗摄国产盗摄合集| 欧美日韩在线免费观看| 亚洲系列在线观看| 亚洲电影av在线| 在线日本视频| 性欧美暴力猛交69hd| 欧美韩国日本| 久久国产一区二区| 羞羞色午夜精品一区二区三区| 老太脱裤让老头玩ⅹxxxx| 男女男精品网站| 中文字幕第3页| 最好看的中文字幕久久| 国产www在线| 日韩精品一区国产麻豆| 超碰免费97在线观看| 久久久久久久91| 麻豆mv在线观看| 亚洲自拍偷拍福利| 日韩免费看片| 波多野结衣家庭教师视频| 国产成人99久久亚洲综合精品| 国产精品免费无码| 亚洲va欧美va人人爽| 国产女人高潮时对白| 在线中文字幕日韩| 不卡av播放| 国产在线欧美日韩| 国产精品激情电影| www.日本久久| 国产精品全国免费观看高清| 国产精品视频一区在线观看| 精品捆绑美女sm三区| 日本在线视频观看| 国产国语videosex另类| 神马日本精品| 九一国产精品视频| 福利91精品一区二区三区| 精品人妻伦九区久久aaa片| 在线一区二区三区| 欧美色综合一区二区三区| 国模视频一区二区三区| 99国产精品久久一区二区三区| 好吊色视频988gao在线观看| 精品一区二区三区免费视频| 极品久久久久久久| 欧美性受极品xxxx喷水| 福利在线午夜| 国产精品美女主播| 日韩欧美字幕| 亚洲精品永久视频| 18成人在线视频| 国产精品伦一区二区三区| 日韩中文字幕在线看| 日批免费在线观看| 91丨porny丨国产入口| 国产三级国产精品国产国在线观看| 在线观看日韩电影| 国产在线播放av| 国产精品久久999| 青青草综合网| 国产成人在线综合| 亚洲视频在线一区| 国产高清不卡视频| 欧美激情精品久久久久久| 一区中文字幕电影| 国产69精品久久久久久久| 91影院在线免费观看| 不卡av电影在线| 最新的欧美黄色| 成人免费观看49www在线观看| 日韩欧美一级在线| av在线这里只有精品| 亚洲男人的天堂在线视频| 亚洲男人天堂2023| 91成人在线| 日韩精品手机在线观看| 岛国一区二区三区| 国产精品久久久久久久久久精爆| 一区二区三区国产在线观看| 亚洲在线资源| 免费观看国产精品视频| 久久日韩粉嫩一区二区三区| 久久精品99北条麻妃| 日韩日本欧美亚洲| 136国产福利精品导航网址应用| 国产精品裸体瑜伽视频| 日本一区二区三区四区在线视频| 91久久精品国产91性色69 | 91社区视频在线观看| 欧美一三区三区四区免费在线看| 青春草在线免费视频| 欧美精品123| 久久99精品久久久| 成人精品免费在线观看| 综合网日日天干夜夜久久| 亚洲五码在线| 午夜激情福利在线| 洋洋成人永久网站入口| 久青草国产在线| 超碰国产精品久久国产精品99| 久久久久久久欧美精品| 欧美黄色免费在线观看| 亚洲欧美一区二区三区久久| 国产精品一区二区精品| av网站在线观看不卡| 亚洲三级在线免费观看|