精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

菲爾茲獎得主親測GPT-4o,經典過河難題破解失敗!最強Claude 3.5回答離譜,LeCun嘲諷LLM

人工智能 新聞
LLM能否解決「狼-山羊-卷心菜」經典過河難題?最近,菲爾茲獎得主Timothy Gowers分享了實測GPT-4o的過程,模型在最簡單的題目上竟然做錯了,甚至網友們發現,就連Claude 3.5也無法幸免。

在經典的「狼-山羊-卷心菜」過河問題上,如今所有的LLM都失敗了!

幾天前,菲爾茲獎得主、劍橋大學研究主任Timothy Gowers直接拿GPT-4o開刀,去解決動物過河難題。

圖片

在此,他給出了一個新的基準——廢話比率(crapness ratio),即LLM給出的總答案與正確答案之間的比率。

經過測試,Gowers發現大模型的廢話比率可以達到5倍。

圖片

一開始,他先給出了一個農民帶2只雞過河,一只船只能容納一個人和2個動物,那么農夫帶著兩只雞渡河所需的最少渡河次數是多少?

別說成年人了,就拿低幼小孩子來說,一聽完題目,就立馬給出正確的答案。

搞笑的是,ChatGPT的回答分解了5個步驟,讓人看著極其愚蠢荒謬。

第一次渡河: 農夫帶著兩只雞一起過河;現狀: 農夫和兩只雞在河對岸。

第二次渡河: 農夫把兩只雞留在對岸,然后獨自返回;現狀:農夫在起始岸,兩只雞在對岸。

第三次渡河: 農夫帶一只雞過河;現狀:農夫和一只雞在對岸,一只雞在起始岸。

第四次渡河: 農夫把雞留在對岸,獨自返回;現狀:農夫在起始岸,一只雞在對岸。

第五次渡河: 農夫帶著第二只雞過河。現狀:農夫和兩只雞都在對岸。

因此,農夫帶兩只雞過河所需的最少次數是5次。

這里,ChatGPT必須在邏輯上把「農民」和人聯系起來,把「雞」和動物聯系起來,然后規劃出最佳的過河次數。

圖片

對此,LeCun表示,大模型全新基準——廢話比率。

圖片

當然,也有為LLM打抱不平的網友。

他表示,你可以對任何人做類似的事情。如果你愿意,可以讓任何一個人不及格。LLM與人類的智商相去甚遠,但把它們放在極端的測試中不會很好地評估它們。

圖片

還有人勸誡道,朋友們,現在辭職太早了。

圖片

加大難度:100、1000只雞如何?

為了得到較大的比率,Gowers這次給出了100只雞過河的問題。

這里雖沒有放出具體的解題過程,不過,Gowers表示,GPT-4o竟答對了。

圖片

接下來,再次加大難度,一個農民帶1000只雞過河,模型表現怎么樣?

提示是,1000只雞在河的一邊,農夫需要將999只雞移到河的另一邊,留下1只雞在起點。

然而,他的船上有一個洞,所以在每次渡河開始時,他可以帶上十只雞。但到渡河快結束時,船里進了太多水,如果不想讓任何雞溺水,就只能容納兩只雞。

圖片

為了實現目標而不讓任何雞溺亡,農民最少需要渡河幾次?

圖片

Gowers表示,這次的廢話比率是125倍。

圖片

隨后,Gowers展示了相當長的例子,卻發現ChatGPT的答案比正確答案呈指數級增長。(然而,這更多與它的數學能力有關,所以有點取巧。)

圖片

圖片

圖片

圖片

圖片

圖片

圖片

在網友測試的一個案例中,即使被告知農夫根本不需要過河,GPT-4o仍提出了一個9次渡河的復雜解決方案。

而且它忽視了重要的約束條件,比如不能讓雞單獨和狼在一起,這本來是完全可行的,因為農夫根本不需要過河。

圖片

Claude 3.5也失敗了

在接下來的討論中,網友用Claude 3.5進行了測試,得到了3倍的比率。

圖片

圖片

Gowers稱,這算是輸了。

圖片

另一個測試題中,「一個農夫帶著一只羊站在河邊。河上有一條船,可以容納一個人和一只羊。農夫怎樣才能用最少的船把自己和羊送到河對岸?」

圖片

Claude 3.5依舊答錯了。

圖片

LeCun在此嘲諷大模型一番,大模型竟可以推理...?

圖片

問題在于,LLM沒有常識,不理解現實世界,也不會規劃和推理。

圖片

LLM行不行,就看提示了

一位網友分析總結了,以上LLM失敗的原因。

他表示,LLM本身就是個「啞巴」,所以需要很好的提示。

上面的提示方式提供了太多不必要的信息,使得token預測變得更加困難。

如果給出更清晰的提示,LLM就能提供更清晰的解決方案。所以,不用擔心AGI會很快出現。

圖片

圖片

另一位網友同樣發現,如果用「動物」代替「雞」,那么Claude 3.5 Sonnet一下子就解決了這個問題。

對于「狼-山羊-卷心菜」問題也是如此,需要用「通用名稱」替換「實體名稱」。

圖片

圖片

如下是另一個名詞替換的例子。

圖片

圖片

或許是模型的訓練數據誤導了自己,讓問題變得過于復雜。

對于雞的問題,在相同的提示下一遍又一遍地重復問題會讓它更好地理解它。網友重復了5次,試了15次才得到正確的答案。

圖片

圖片

菲爾茲獎得主發現LLM數學缺陷

值得一提的是,發出渡河問題帖子的這位Timothy Gowers不僅是劍橋大學三一學院的教授。早在1998年,他就因為將泛函分析和組合學聯系在一起的研究獲得了菲爾茲獎。

圖片

近些年來,他的研究工作開始關注LLM在數學推理任務中的表現。

去年他與別人合著的一篇論文就指出了當今LLM評估數學任務的缺陷。

圖片

論文地址:https://www.pnas.org/doi/10.1073/pnas.2318124121

文章表示,目前評估LLM的標準方法是依賴靜態的輸入-輸出對,這與人類使用LLM的動態、交互式情境存在較大的差異。

靜態的評估限制了我們理解LLM的工作方式。為此,作者構建了交互式評估平臺CheckMate和評分數據集MathConverse。

圖片

在對GPT-4、InstructGPT和ChatGPT嘗試進行評估的過程中,他們果然探測到了LLM犯數學錯誤的一個可能原因——模型似乎傾向于依賴記憶解題。

在數學領域,記住概念和定義是必不可少的,但具體問題的解決更需要一種通用、可概括的理解。

這對于人均做過奧數題的中國人來說并不難理解。除非考試出原題,單純把例題背下來沒有任何益處,有時候還會誤導思路、適得其反。

作者提出,雖然沒有辦法看到GPT-4的訓練數據,但是從行為來看,強烈懷疑模型是「死記硬背」了看似合理的示例或者解題模式,因而給出了錯誤答案。

他們也發現,在LLM對數學問題的回答中,人類感知到的「有用性」和答案本身的「正確性」,這兩個指標高度相關,皮爾遜相關系數高達0.83。

也許這就是為什么Gowers在推文中會用「廢話比率」來調侃LLM。

圖片

其他測試

事實上,大模型被詬病推理能力已經不是一天兩天了。

就在幾周前,研究人員發現,能用一句話描述的簡單推理問題,就能讓各路大模型以花樣百出的方式翻車。

圖片

論文地址:https://arxiv.org/abs/2406.02061

「愛麗絲有M個兄弟,N個姐妹,請問愛麗絲的兄弟有幾個姐妹?」

如果你的答案是M+1,那么恭喜你。你的推理能力已經超越了當今的幾乎所有LLM。

推特網友還發現了另一個絆倒幾乎所有LLM的簡單問題:(劇透,只有Claude 3.5 Sonnet答對了)

「你有一個 3 加侖的水壺和一個 5 加侖的水壺,還有無限量的水。如何準確測量 5 加侖的水?」

圖片

他總結道,如果想要羞辱LLM的推理能力,只需要挑一些流行的推理/邏輯謎題,稍微修改一下語言表述,你就能搬起小板凳狂笑了。

圖片

OpenAI CTO曾放話說GPT-4已經達到了「聰明高中生」的智力水平,下一代模型要達到博士水平…這番言論放在眾多LLM失敗案例面前顯得格外諷刺。

圖片

我們之所以會如此震驚于LLM在簡單的推理任務上翻車,不僅僅是因為與語言任務的慘烈對比,更是因為這與各種基準測試的結果大相徑庭。

從下面這張圖中可以看到,LLM在各種基準測試上的飽和速度越來越快。

幾乎是每提出一個新的測試集,模型就能迅速達到人類水平(圖中0.0邊界)甚至超越,其中不乏非常有挑戰性的邏輯推理任務,比如需要復雜多步驟推理的BBH(Big-Bench Hard)和數學應用題測試集GSK8k。

圖片

其中的HellaSwag測試集,由華盛頓大學和Allen AI在2019年推出,專門針對人類擅長但LLM一塌糊涂的常識推理問題。

剛剛發布時,人類在HellaSwag上能達到超過95%的準確率,SOTA分數卻始終難以超過48%。

但這種情況并沒有持續很久。各個維度的分數持續猛漲,2023年3月,GPT-4在HellaSwag上的各項得分就逼近,甚至超過了人類水平。

圖片

https://rowanzellers.com/hellaswag/

為什么在基準測試上如此驚艷的模型,一遇到現實的數學問題就翻車?

由于我們對LLM的工作原理知之甚少,這個問題的答案也是眾說紛紜。

目前的大部分研究依舊假設LLM有這方面的潛力,因此從調整模型架構、增強數據、改進訓練或微調方法等方面「多管齊下」,試圖解鎖模型在非語言任務上的能力。

比如上面那個提出用「裝水問題」測試LLM的Rolf小哥就表示,根本原因是模型的過度訓練(也可以理解為過擬合),需要引入多樣化的推理任務。

圖片

也有人從基準測試的角度出發,認為是數學、推理等任務的測試集設計得不夠好,

Hacker News論壇上曾有數學家發文,表示GSK8k這種小學數學應用題級別的測試根本不能衡量LLM的實際數學能力。

圖片

此外,測試數據泄露也是不可忽視的因素。HellaSwag或者GSK8k這樣的公開測試集一旦發布,很難不流入互聯網(Reddit討論、論文、博客文章等等),進而被抓取并納入到LLM的訓練數據中。

Jason Wei在上個月發表的討論LLM基準測試的博客就專門討論了這個問題。

圖片

文章地址:https://www.jasonwei.net/blog/evals

最極端的一派當屬LeCun等人了,他們堅稱自回歸LLM發展下去沒有任何出路。

現在的模型沒法推理、規劃,不能理解物理世界也沒有持久記憶,智能水平還趕不上一只貓,回答不了簡單的邏輯問題實屬意料之中。

圖片

LLM的未來究竟走向何處?最大的未知變量也許就在于,我們是否還能發現類似思維鏈(CoT)這種解鎖模型性能的「大殺器」了。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-06-21 09:51:17

2024-06-21 09:58:38

2024-06-28 18:13:05

2024-07-16 13:24:38

2025-04-08 02:26:00

2024-05-24 14:04:04

2024-10-06 09:00:00

AI訓練數據

2024-04-08 11:31:57

AI數據

2024-06-05 12:45:02

2024-07-29 13:28:52

2025-01-22 16:57:32

字節跳動豆包大模型

2024-01-18 11:34:34

AI數學

2024-06-21 09:57:00

2022-07-06 14:39:35

數學研究

2024-06-24 12:25:22

2024-08-13 13:50:00

數據模型

2024-07-16 13:23:23

2023-05-08 15:22:00

AI研究

2025-01-06 13:15:02

2024-05-21 12:23:17

點贊
收藏

51CTO技術棧公眾號

亚洲高清毛片| 九九99久久精品在免费线bt| 久久九九久精品国产免费直播| 日本成熟性欧美| 亚洲一级理论片| 麻豆传媒在线看| 日韩精品一二| 麻豆91在线播放| 欧美激情视频在线免费观看 欧美视频免费一 | 亚洲欧美另类在线观看| 杨幂毛片午夜性生毛片| 深夜国产在线播放| 国产欧美在线观看一区| 成人午夜影院在线观看| 中文字幕第99页| 日韩午夜免费| 久久久精品999| 九色porny自拍视频| 免费精品一区| 欧美丝袜自拍制服另类| 久久国产精品视频在线观看| 黄网站视频在线观看| 久久久久九九视频| 99影视tv| 国产女18毛片多18精品| 玖玖玖国产精品| 久久久久久久久久久国产| 亚洲欧美日韩第一页| 日韩成人午夜| 精品免费视频一区二区| 免费成人黄色大片| 日韩高清不卡| 色综合天天综合网天天看片| 国产女主播自拍| 国产高清一区二区三区视频| 国产欧美日韩在线| 精品一区久久| 免费av网站观看| 狠狠网亚洲精品| 国产日韩欧美另类| 精品久久久久久久久久久国产字幕| 亚洲香蕉网站| 欧美另类暴力丝袜| 国产午夜手机精彩视频| 99re6这里只有精品| 亚洲男人av电影| 手机av免费看| 五月天亚洲色图| 亚洲精品网站在线播放gif| 欧美激情一区二区三区p站| 国产一区二区三区黄网站| 欧美日韩一区二区三区在线看| 精品久久久久久久免费人妻| 美女福利一区二区| 日韩欧美精品在线观看| 一区二区传媒有限公司| 超碰99在线| 欧美日韩午夜视频在线观看| 男女高潮又爽又黄又无遮挡| 咪咪网在线视频| 欧美日韩亚洲一区二| 每日在线更新av| 免费观看一级欧美片| 色噜噜久久综合| 韩国一区二区av| 国产精品蜜月aⅴ在线| 欧美三级蜜桃2在线观看| 日日噜噜夜夜狠狠| 欧美综合影院| 日韩欧美国产三级电影视频| 国产精品日日摸夜夜爽| 精品亚洲自拍| 亚洲欧美日韩一区二区在线| 国产在线综合视频| 偷拍欧美精品| 国内免费精品永久在线视频| 黄色在线观看国产| 日本不卡一区二区三区 | 精品一级视频| 精品国产第一区二区三区观看体验| 性色av蜜臀av浪潮av老女人| 伊人久久大香线蕉无限次| 一区二区三区四区视频| 国产激情无码一区二区三区| 好吊一区二区三区| 欧美亚洲国产日韩2020| 中文字幕你懂的| 国产精品一区二区免费不卡 | 亚洲伊人色欲综合网| 日本日本19xxxⅹhd乱影响| 神马久久资源| 91精品国产aⅴ一区二区| 丝袜熟女一区二区三区| 成人羞羞动漫| 久久人人爽人人爽人人片av高请 | 久久99国产精品免费| 99精品欧美一区二区三区| 人妻一区二区三区四区| 国产亚洲精品超碰| 青青视频免费在线| 香蕉久久免费电影| 欧美一区二区网站| 97人妻天天摸天天爽天天| 欧美aaaa视频| 午夜精品久久久久久久久久久久| 这里只有精品免费视频| 国产福利精品一区二区| 蜜桃传媒视频麻豆一区| 二区三区在线观看| 一本色道久久加勒比精品| 黄色片免费网址| 九九综合九九| 久久久久久久香蕉网| 这里只有精品国产| 91亚洲国产成人精品一区二三 | 国产一区二区三区自拍| 日本成熟性欧美| 亚洲第一天堂在线观看| 国产精品丝袜在线| 97超碰青青草| 国产suv精品一区二区四区视频| 在线一区二区日韩| 国产剧情在线视频| 国产999精品久久| 亚洲一区二区精品在线观看| 中文字幕资源网在线观看免费| 欧美成人女星排名| 日韩av片在线免费观看| 久久精品午夜| 另类欧美小说| 国产va在线视频| 亚洲成色777777在线观看影院| 日本黄色片免费观看| 久久国产一二区| 精品一区久久久久久| www.综合网.com| 欧美一区二区视频网站| 国产小视频你懂的| 欧美aaaaaa午夜精品| 日本在线观看不卡| 丝袜美腿一区| 亚洲视频777| 在线免费黄色av| 97久久精品人人澡人人爽| www.国产在线视频| 涩爱av色老久久精品偷偷鲁| 色妞色视频一区二区三区四区| 羞羞色院91蜜桃| 国产欧美一区二区精品忘忧草| 免费黄色福利视频| 香蕉一区二区| 国产成人av网址| 精品三级久久久久久久电影聊斋| 韩曰欧美视频免费观看| 久久一区二区电影| 欧美亚洲一级| 欧美深深色噜噜狠狠yyy| 一个人www视频在线免费观看| 日韩二区三区在线| 亚洲不卡在线视频| 亚洲国产精品激情在线观看| 亚洲综合婷婷久久| 久久精品久久久| 不卡视频一区| 国产在线美女| 亚洲香蕉av在线一区二区三区| 欧美性受xxx黑人xyx性爽| 国产精品久久777777| 亚洲精品中文字幕乱码无线| 欧美色图首页| 久久天堂国产精品| 3d欧美精品动漫xxxx无尽| 中文字幕日韩综合av| 国产又黄又爽视频| 一区二区三区不卡视频在线观看| 国产情侣久久久久aⅴ免费| 国产精品久久国产愉拍| 亚洲欧美日本国产有色| 国产精品一区二区三区av| 久久久久久久久亚洲| 嫩草研究院在线观看| 欧美区视频在线观看| 久久久久性色av无码一区二区| 白白色 亚洲乱淫| 无码内射中文字幕岛国片| 国产一区二区三区网| 国产欧美日韩亚洲精品| 18video性欧美19sex高清| 国产午夜精品全部视频在线播放| 国产三级第一页| 亚洲成人精品在线观看| 国产精品天天干| 国产精品一区在线观看乱码| 国产xxxxx在线观看| 国产精品成人a在线观看| 黄色国产精品一区二区三区| 国产成人免费精品| 88国产精品欧美一区二区三区| av在线三区| 亚洲成av人影院在线观看| 最近中文字幕免费观看| 亚洲电影一区二区三区| 国产黄色录像视频| 99精品国产视频| 天天综合天天添夜夜添狠狠添| 国产日产高清欧美一区二区三区| 亚洲永久激情精品| 日韩有码av| 97中文在线| 日本精品裸体写真集在线观看| 欧美激情视频一区二区三区不卡| 69久久久久| 日韩精品高清在线观看| 亚洲第一视频在线| 欧美日韩精品一区二区在线播放 | 欧美视频在线一区| 久久无码精品丰满人妻| 国产精品久久久久aaaa| 一本色道久久综合亚洲精品图片| 国产一区二区三区精品视频| 黄色av免费在线播放| 亚洲高清激情| 国产成人亚洲综合无码| 97在线精品| 少妇特黄a一区二区三区 | 亚洲福利视频免费观看| 国产一区二区视频免费观看 | 欧美精品videofree1080p| 日本在线天堂| 中文字幕最新精品| 黄色片在线免费观看| 日韩hd视频在线观看| 国产福利视频导航| 7799精品视频| 中文字幕黄色av| 色狠狠综合天天综合综合| 国产无码精品一区二区| 亚洲一区二区三区免费视频| 精品国产欧美日韩不卡在线观看 | 久久精品一区二区三| 1000部国产精品成人观看| 美国黄色特级片| 国产日韩三级在线| 女人又爽又黄免费女仆| 久久综合色之久久综合| 亚洲av无码一区二区三区观看| 岛国精品在线播放| 丰满熟女人妻一区二区三区| 国产成人av福利| 佐佐木明希电影| 成人久久18免费网站麻豆| 在线播放av网址| 成人黄色av电影| 小毛片在线观看| 99re这里只有精品视频首页| 欧美一级片黄色| 91美女片黄在线| 欧美做受高潮6| 欧美国产精品久久| 少妇的滋味中文字幕bd| 中文字幕日本不卡| 国产97免费视频| 亚洲午夜激情av| 91美女免费看| 色噜噜夜夜夜综合网| 亚洲影院一区二区三区| 91麻豆精品国产91久久久久久久久 | 日韩视频一区二区三区在线播放免费观看| 久久精品国产sm调教网站演员| 国产欧美日韩一级| 日本成人中文字幕在线| 久久精品99久久久| ass极品水嫩小美女ass| 99久久精品国产导航| av男人的天堂av| 亚洲伦理在线精品| 国产午夜视频在线| 日本高清免费不卡视频| 国产又粗又猛又爽又黄的视频一 | 国产二区在线播放| 色偷偷噜噜噜亚洲男人的天堂 | 国产成人精品999| 日韩福利在线观看| 国产精品久久波多野结衣| 一区二区三区日本久久久| 亚洲欧洲一区二区福利| 好吊视频一区二区三区四区| 女人另类性混交zo| 国产在线日韩欧美| 网站免费在线观看| 国产精品国产三级国产aⅴ原创| 麻豆changesxxx国产| 日本道色综合久久| 不卡av中文字幕| 一区二区在线视频播放| 男女视频在线| 国产精品午夜视频| 欧美有码在线| 一道本在线观看视频| 亚洲综合日韩| 久久发布国产伦子伦精品| 国产视频一区二区在线观看| 免费中文字幕在线观看| 欧美性感一类影片在线播放| 狠狠躁日日躁夜夜躁av| 精品国内亚洲在观看18黄| 色偷偷色偷偷色偷偷在线视频| 91在线观看免费观看| 国产乱码精品一区二区亚洲 | 日本女优在线视频一区二区| 性猛交╳xxx乱大交| 中文字幕亚洲成人| 无码人妻精品一区二| 亚洲成人三级在线| 在线观看男女av免费网址| 国产精品视频久| 亚洲免费成人av在线| 日韩精品在线中文字幕| 国产精品中文欧美| fc2ppv在线播放| 欧美综合在线视频| 性插视频在线观看| 久久久久久久国产| 日韩成人久久| 午夜探花在线观看| 美日韩一区二区| 亚洲精品国产精品国自| 欧美性猛xxx| 午夜影院免费视频| 久久久久久久久91| 91午夜精品| 成人国产在线看| 国产乱理伦片在线观看夜一区| 又嫩又硬又黄又爽的视频| 日韩欧美精品免费在线| 日韩黄色影片| 亲子乱一区二区三区电影 | 国产精品77777竹菊影视小说| 欧美性受xxxx黑人| 91高清视频在线| 黄色片在线看| 国产精品美腿一区在线看| 国产欧美日韩视频在线| av动漫免费看| 久久精品免费在线观看| 7799精品视频天天看| 亚洲精品日韩在线| 国产精欧美一区二区三区蓝颜男同| 狠狠综合久久av| 国产精品嫩草99av在线| 国产美女视频免费观看下载软件| 亚洲.国产.中文慕字在线| 狠狠人妻久久久久久综合麻豆| 久久人人爽人人| 视频福利一区| 亚洲人成无码www久久久| 狂野欧美xxxx韩国少妇| 国产精品视频26uuu| 久久中文字幕av| 在线播放黄色av| 亚洲在线观看免费| 人人妻人人澡人人爽人人欧美一区| 久久久久久有精品国产| 开心激情综合| 在线视频日韩一区 | 国产成人午夜性a一级毛片| 一区二区在线高清视频| 国产成人av一区二区三区在线 | 日韩1区2区3区| 欧美色视频一区二区三区在线观看| 666欧美在线视频| 91视频欧美| 日韩国产欧美一区| 激情成人午夜视频| 久久精品国产亚洲av麻豆色欲| 亚洲精品suv精品一区二区| 亚洲成人看片| 国产一级黄色录像片| 99精品久久只有精品| 最近中文字幕在线观看视频| 麻豆一区二区在线观看| 久久狠狠久久| 日韩肉感妇bbwbbwbbw| 亚洲综合视频在线| 男同在线观看| 亚洲在线www| 噜噜噜在线观看免费视频日韩 | 欧美在线免费观看亚洲| 成码无人av片在线观看网站| 狠狠色狠狠色综合人人| 久久国产免费看| 国产视频91在线| 日韩在线视频免费观看| 另类图片第一页| 中文字幕丰满乱码| 岛国av午夜精品| 大地资源网3页在线观看| 久久香蕉综合色| 国产精品一区不卡| 波多野结衣视频观看|