精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

o3挑戰ARC-AGI,遇見大網格就懵圈?英國工程師:ARC-AGI不適合大模型

人工智能
來自英國的ML工程師Mikel Bober-Irizar(不妨叫他米哥),對ARC題目進行了細致觀察。結果米哥發現,題目中的網格規模越大,大模型的表現也就越差。而且不僅是o3,o1和o1 mini,還有隔壁的Claude,都出現了這樣的現象。

o3在超難推理任務ARC-AGI上的成績,屬實給人類帶來了不少震撼。

但有人專門研究了它不會做的題之后,有了更有趣的發現——

o3之所以不會做這些題,原因可能不是因為太難,而是題目的規模太大了。

圖片

來自英國的ML工程師Mikel Bober-Irizar(不妨叫他米哥),對ARC題目進行了細致觀察。

結果米哥發現,題目中的網格規模越大,大模型的表現也就越差。

而且不僅是o3,o1和o1 mini,還有隔壁的Claude,都出現了這樣的現象。

圖片

米哥的這項研究,引起了人們對大模型工作機制的許多討論。

世界首位全職提示詞工程師Riley Goodside看到后,也認為這是一項很好的研究。

圖片

大模型被困在了網格規模上

還是先簡單回顧一下ARC挑戰,題目帶有色塊的網格陣列(以文本形式表述,用數字代表顏色),大模型需要觀察每道題目中3個輸入-輸出示例,然后根據規律填充新的空白網格。

圖片

米哥發現,在ARC挑戰中,規模越大,也就是網格的數量越多,大模型的表現也就越差。

o3也逃不過這樣的魔咒,但相比于其他模型,o3表現的明顯下降出現得更晚,大約在網格數量達到1024個之后(請記住這個位置,后面還會講到)。

圖片

為了進一步驗證這個發現,米哥還用o1-mini進行了實際測試。

下圖當中,左右兩欄的題目乍一看上去好像沒什么區別,但在右邊,米哥對網格進行了細粒度的切割,原來的一個格子被切成了4(2×2)個。

結果原來能做對的題,切成小塊之后,o1-mini還真就不靈了。

圖片

進一步地,米哥還對ARC數據集中的規模分布進行了統計,結果剛好是規模在1024個像素的題目數量最多。

還記得前面o3成績下降趨勢突然變大的位置吧,剛好就是在1024附近。

圖片

米哥認為,這就是o3在ARC挑戰上取得優異成績的重要因素,而其他模型成績不佳,是因為對應的小規模試題占比較少。

所以在米哥看來,ARC挑戰并不能完全反映大模型真實的推理能力——有不少模型都被低估,o3則是被高估了。

ARC挑戰不適合大模型?

那么,為什么題目中網格數量一多,大模型的表現就不好了呢?

先來看米哥的分析。

米哥引用了紐約大學的一項研究結果(arXiv:2409.01374),這項研究發現人類在挑戰這樣的問題時并不會出現這種現象。

如果在人類和模型之間做個比較,那么在規模較小時o3的表現可以說完勝人類,但規模較大時優勝方就變成了人類。

這說明,大模型在解決此類問題時,思考方式和人類依然存在差別。

圖片

當然,大模型在挑戰ARC時看到的不是圖像,而是用數字代表的矩陣,這是顯而易見的,但差別還不止于此。

人類在面對ARC問題時,即使是用這種數字矩陣來表示,也能夠看出視覺信息,理解其中的位置關系。

圖片

在空間中,ARC是一個二維問題,需要跨行和列進行推理,但大模型在處理token時是以一維格式進行的。

這意味著,大模型進行跨列推理時,需要組合較長的上下文信息。

而隨著網格變得更大,模型需要對更長的上下文進行推理,并且必須對相距較遠的數字進行組合和推理。

米哥之前曾經和劍橋大學高級研究員Soumya Banerjee此前進行的一項研究(arXiv:2402.03507)表明,通過對矩陣進行90度旋轉,讓模型分別基于行和列進行推理,比直接做題成績提高了一倍。

圖片

所以米哥認為,是觀察問題的維度影響了大模型的成績,ARC這種任務并不適合大模型。

他還表示在NeurIPS上聽到了一個很好的類比——

將二維的ARC任務交給大模型,就像期望人類在四維空間中進行推理。

同時網友們還指出,雖然本質上涉及了維度差異,但視覺依然是一個重要因素。

想象一下,如果人沒有視覺能力,單純依靠聽或其他方式獲得關于其中網格的信息,也很難直接構建出二維的矩陣。

圖片

不過說到這,即便模型擁有“視覺”能力,也是將視覺信息轉換為Token,和人類的視覺也未必相同。

圖片

網友認為,真正的視覺需要能夠處理并行輸入的信息,而不是逐個Token的串行輸入,二進制IO數據流或許是一種解決方案。

圖片

One More Thing

根據ARC挑戰官方的說法,ARC-AGI的下一代ARC-AGI-2即將推出。

早期測試表明,其將對o3構成重大挑戰——

即使在高計算量模式下,o3的得分也可能會降低到30%以下(而聰明人仍然能夠得分超過95%)。

責任編輯:姜華 來源: 量子位
相關推薦

2025-04-23 11:19:31

2024-06-20 10:43:15

2025-03-17 08:45:00

智能模型AI

2025-05-14 10:09:12

2018-05-13 15:32:45

IT行業運維Linux

2023-09-04 07:16:39

原子化CSS語義化CSS

2015-03-12 13:39:48

Hadoop場景大數據

2013-08-16 10:00:45

VMwareOpenStack

2021-01-31 18:52:36

Rust開發Web API

2025-05-13 02:00:22

2024-12-23 07:40:00

AI模型數學

2025-01-16 14:35:34

2024-12-23 09:45:00

數據模型訓練

2024-04-01 14:04:19

AGI蘋果百度

2018-07-29 07:58:34

物聯網IOT物聯網產品

2009-01-15 18:30:11

服務器虛擬化VMware

2019-09-15 17:43:14

JSON HTTP物聯網技術

2010-07-20 09:56:53

VDI部署

2022-07-12 14:04:19

Kafka

2025-04-17 14:09:52

OpenAI模型編程
點贊
收藏

51CTO技術棧公眾號

av磁力番号网| 欧美成人午夜激情在线| 日本毛片在线免费观看| 国产中文在线视频| 久久成人免费电影| 不用播放器成人网| 插吧插吧综合网| 国产激情久久| 亚洲成人黄色影院| 亚洲v欧美v另类v综合v日韩v| 国产精品久久久久久久一区二区 | 制服丨自拍丨欧美丨动漫丨| 国产一区2区在线观看| 欧美日韩国产一区在线| 黄色免费高清视频| 欧美美乳在线| 成人爽a毛片一区二区免费| 538国产精品一区二区在线| 波兰性xxxxx极品hd| 欧美男男freegayvideosroom| 欧美精品三级日韩久久| 成人免费性视频| 欧美午夜电影一区二区三区| 久久综合九色综合欧美就去吻| 成人美女av在线直播| 国产在线综合网| 99精品视频在线观看播放| 国产视频一区在线| 韩国一区二区三区四区| 欧美午夜三级| 在线观看日产精品| aa在线观看视频| 欧美aaaaaaa| 成人免费在线视频| 亚洲v国产v| 国产永久免费高清在线观看 | 国内高清免费在线视频| 中文字幕日本不卡| 色涩成人影视在线播放| 四虎精品成人影院观看地址| 国产成人在线电影| 91最新在线免费观看| 中文字幕一级片| 三级精品在线观看| 欧洲日韩成人av| 日韩精品一区二区三区国语自制| 欧美 日韩 国产一区二区在线视频 | av女优在线| 国产婷婷色一区二区三区在线| 精品国产二区在线| 神马一区二区三区| 成人av在线资源网站| 国产精品9999久久久久仙踪林 | 国产另类xxxxhd高清| 色婷婷综合久久久| 日本新janpanese乱熟| 免费观看欧美大片| 在线亚洲欧美专区二区| 青青青在线播放| 希岛爱理一区二区三区av高清| 色婷婷狠狠综合| 北条麻妃视频在线| 成人精品动漫| 4438成人网| 国模大尺度视频| 大型av综合网站| 亚洲国产日韩一区| 亚洲自拍偷拍一区二区| sdde在线播放一区二区| 中文字幕成人在线| 免费看特级毛片| 欧美区一区二| 91国产视频在线播放| 伊人中文字幕在线观看 | 国产精品99久久久久久白浆小说| 免费看日韩毛片| 蜜桃av一区| 国产欧美精品xxxx另类| 国产麻豆91视频| 成人不卡免费av| 欧美日韩在线高清| 日本福利在线| 亚洲成人免费电影| 丁香婷婷激情网| 中文字幕综合| 精品国产一区久久| 天天躁夜夜躁狠狠是什么心态| 日韩精品一区二区久久| 欧洲精品在线观看| 激情久久久久久久久久久久久久久久| 亚洲精品动漫| 成人av在线播放| 欧美日韩国产综合新一区| 日韩中文字幕在线免费| 毛片无码国产| 欧美一区二区三区播放老司机| 在线观看日本www| 亚洲国产视频二区| 亚洲精品网址在线观看| frxxee中国xxx麻豆hd| 欧美色图首页| 国产精品成久久久久三级| a级片免费观看| 91女人视频在线观看| 久久av秘一区二区三区| 黄色视屏在线免费观看| 欧美人狂配大交3d怪物一区| 国产视频久久久久久| 日韩1区2区| 91国产视频在线播放| 国产欧美日韩综合精品一区二区三区| eeuss影院一区二区三区| 一区二区三区视频| 小视频免费在线观看| 91精品国产欧美一区二区| 香蕉视频黄色在线观看| 亚洲精品一区二区妖精| 欧美在线观看网址综合| 99免费在线视频| 国产亚洲成av人在线观看导航| a级网站在线观看| 欧美与亚洲与日本直播| 亚洲大胆人体在线| 午夜剧场免费在线观看| 天堂久久久久va久久久久| 粉嫩精品一区二区三区在线观看| 欧美黑人激情| 欧亚一区二区三区| 精品少妇一区二区三区免费观| 亚洲性图久久| 亚洲精品日韩激情在线电影| 在线免费黄色| 91高清在线观看| 69久久夜色精品国产69乱青草| 日本爱爱小视频| 狂野欧美一区| 欧美激情导航| 色戒汤唯在线观看| 亚洲国产欧美一区二区三区同亚洲| 色欲人妻综合网| 久久99热99| 手机成人在线| 456亚洲精品成人影院| 亚洲黄色www| 免费一级特黄特色大片| 国产成人综合视频| 欧洲精品视频在线| 免费欧美网站| 欧美乱大交xxxxx| 国产欧美一级片| 亚洲精品自拍动漫在线| 深夜做爰性大片蜜桃| 正在播放日韩欧美一页| 亚洲xxxx做受欧美| 丝袜在线视频| 精品国产91乱码一区二区三区 | 国产精品一区二区三区av麻| 欧美中文字幕第一页| 欧洲亚洲在线| 色哟哟亚洲精品| 国产在线综合视频| 麻豆精品新av中文字幕| 国产精品99久久久久久大便| 精品入口麻豆88视频| 欧美精品在线视频观看| 亚洲男人第一天堂| 精品动漫一区二区三区| 国产色视频一区二区三区qq号| 久久福利影视| 一本色道久久99精品综合| 国产高清视频一区二区| 久久久久久九九九| 天天摸天天碰天天爽天天弄| 色琪琪一区二区三区亚洲区| 大胸美女被爆操| 国产精品99久久久久久宅男| 97在线国产视频| 国产精品自拍区| 成人a在线观看| av人人综合网| 亚洲午夜未删减在线观看| 一级黄色大片免费| 亚洲一区二区免费视频| b站大片免费直播| 国产一区啦啦啦在线观看| 日本阿v视频在线观看| 精品中文字幕一区二区三区av| 国产欧美日韩免费看aⅴ视频| 亚洲91av| 亚洲网址你懂得| 国产欧美第一页| 色综合久久天天| 国产老头老太做爰视频| 95精品视频在线| 国产精品自拍视频在线| 亚洲国产1区| 亚洲成色www久久网站| 成人av影音| 国产精品免费一区豆花| av3级在线| 日韩中文第一页| 日韩私人影院| 日韩免费福利电影在线观看| 波多野结衣视频网址| 亚洲综合清纯丝袜自拍| 久久久视频6r| www.亚洲色图.com| 五月天婷婷影视| 首页国产欧美久久| 亚洲熟妇无码一区二区三区| 日韩在线二区| 欧美下载看逼逼| 亚洲va欧美va人人爽成人影院| 国产精品6699| 9999热视频在线观看| 麻豆乱码国产一区二区三区| 黄色av免费在线观看| 亚洲高清免费观看高清完整版| 国产又黄又猛又爽| 欧美亚洲尤物久久| 免费在线不卡视频| 一区二区三区免费看视频| 国产123在线| 26uuu精品一区二区三区四区在线| 欧美熟妇精品一区二区| 精品午夜一区二区三区在线观看 | 激情五月婷婷小说| 国产精品成人免费在线| 男人的天堂官网 | 欧美13一14另类| ccyy激情综合| 91久久久国产精品| 日韩欧美激情| 国产免费一区二区三区在线观看 | 91久久综合亚洲鲁鲁五月天| 欧美精品资源| 国产精品av网站| 欧美日韩美女| 日本亚洲精品在线观看| 国产不卡网站| 日韩av电影免费观看高清| 成人短视频app| 欧洲亚洲在线视频| 日韩在线影院| 国产精品福利网站| 日本肉肉一区| 成人性生交大片免费看视频直播| 小说区图片区亚洲| 成人夜晚看av| 久久久91麻豆精品国产一区| 亚洲自拍av在线| 亚洲乱码一区| 国产乱子伦精品| 香蕉久久夜色精品国产更新时间| 免费中文日韩| 成人高清电影网站| 在线看无码的免费网站| 亚洲一区 二区 三区| 亚洲色婷婷久久精品av蜜桃| 狠久久av成人天堂| 青青草视频在线免费播放 | 亚洲高清一区二区三区| 五月天婷婷丁香| 欧美性猛交xxxx乱大交蜜桃 | 日韩综合小视频| 国产精品区在线| 国产精品99久久久| 久久精品女同亚洲女同13| 久久先锋影音av鲁色资源网| 九九九视频在线观看| 亚洲另类在线视频| 国产情侣在线视频| 日韩欧美极品在线观看| 中文字幕乱码人妻无码久久 | 日本xxxx免费| 91一区二区三区在线观看| 国产jk精品白丝av在线观看| 国产精品国产三级国产a| 麻豆changesxxx国产| 高跟丝袜欧美一区| 亚洲熟妇无码久久精品| 欧美sm极限捆绑bd| 国产在线视频网| 久久精品视频在线| 国产传媒在线观看| 国产精品视频区1| www.亚洲一二| 日韩中文字幕一区二区| 欧美特黄一区| av五月天在线| 国产91精品一区二区麻豆网站| 白丝女仆被免费网站| 亚洲欧美日韩国产一区二区三区| 日韩欧美国产亚洲| 欧美日韩一卡二卡三卡| 色欲av伊人久久大香线蕉影院| 国产一区二区三区精品久久久| 成年人黄视频在线观看| 热久久免费视频精品| 精品久久国产一区| 日韩欧美激情一区二区| 在线成人av| 在线观看日本www| 久久精品视频免费| 久久久精品一区二区涩爱| 日本二三区不卡| 国模无码一区二区三区| 丝袜美腿亚洲一区二区| 2022成人影院| 国产成人精品自拍| 亚洲a一区二区三区| 久草在在线视频| 不卡的av中国片| 少妇影院在线观看| 欧美视频一区二区三区四区| 亚洲 另类 春色 国产| 九九精品在线播放| 久久电影天堂| 日韩中文字幕一区二区| 国产精品丝袜xxxxxxx| 熟女人妻一区二区三区免费看| 国产精品久久久久久亚洲毛片 | 欧美一区二区三区免费视频| 国产精品一二三区视频| 91超碰caoporn97人人| 在线视频亚洲欧美中文| 日本丰满少妇黄大片在线观看| 日韩av在线播放中文字幕| 日本黄色网址大全| 精品久久久久久久久久ntr影视| 精品人妻aV中文字幕乱码色欲 | 美女的奶胸大爽爽大片| 欧美日韩黄色影视| av在线首页| 国产精品劲爆视频| 欧洲激情综合| 国产裸体免费无遮挡| 久久亚洲影视婷婷| 日本视频在线观看免费| 日韩精品在线免费观看| 日韩av影片| 蜜桃av噜噜一区二区三区| 国产精品久久久久9999高清| 视频免费在线观看| 天天综合天天综合色| 日本高清视频免费观看| 国内精品小视频在线观看| 好吊妞视频这里有精品| 国产69精品久久久久999小说| 成人激情免费网站| 国产微拍精品一区| 亚洲欧美在线播放| 欧美18—19sex性hd| 色视频一区二区三区| 久久99热狠狠色一区二区| 久久久精品少妇| 日韩一级完整毛片| 国产在线xxx| 久久av免费一区| 亚洲免费影院| av男人的天堂av| 欧美丰满高潮xxxx喷水动漫| 久草资源在线| 国产精品区二区三区日本| 99热这里只有精品8| 波多野结衣一本| 欧美日韩1区2区| 亚洲丝袜一区| 精品久久sese| 免费的成人av| 久久精品视频免费在线观看| 亚洲国产欧美在线成人app| 国产精品字幕| 久久久久久久久久伊人| www.欧美日韩国产在线| 中文字幕在线天堂| 久久久国产精彩视频美女艺术照福利| 136导航精品福利| 国内外成人激情视频| 国产精品乱人伦| 好吊色一区二区三区| 日本高清不卡的在线| 99精品一区| 国产艳俗歌舞表演hd| 欧美日精品一区视频| xxx在线免费观看| 亚洲欧美精品| 不卡视频在线看| 亚洲特级黄色片| 91po在线观看91精品国产性色| 青青草97国产精品麻豆| 怡红院一区二区| 精品视频在线免费看| 9999热视频在线观看| 亚洲AV无码成人精品一区| 91原创在线视频| 精品美女www爽爽爽视频| 欧美在线一级视频| 牛牛国产精品| 久久午夜福利电影|