精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉發:新Benchmark

人工智能 新聞
針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。

一項新的“大模型Benchmark”在推特上爆火,LeCun也點贊轉發了!

而且無論是GPT-4還是Claude 3,面對它都如同被奪了魂,無法給出正確答案。

圖片

難倒一眾大模型的,是邏輯學當中經典的“動物過河”問題,有網友發現,大模型對此類問題表現得很不擅長。

甚至有人觀察到,幾個不同的模型都給出了一致的(錯誤)答案,讓人懷疑他們是不是用了相同的訓練數據。

圖片

針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。

圖片

“模見模愁”的動物過河

首先來看一下什么是“動物過河”問題,這是邏輯學當中的一道經典題目。

問題的原型是這樣的:

農夫需要把狼、羊和白菜都帶過河,但每次只能帶一樣物品,而且狼和羊不能單獨相處,羊和白菜也不能單獨相處,問農夫該如何過河。

圖片

在這個問題當中,農夫需要七次(往返視為兩次)過河——先把羊運過去,然后空船返回,再把狼運過河,帶回羊,然后運送白菜,再空船返回,最后運送羊。

而劣效比率的定義,就是模型給出的運送次數與實際最少所需次數的比值。

當然在測試中,網友使用的問題經過了改編,結果發現,當題目變成一共有兩只雞,一次可以運兩只的時候,GPT-4依然在一本正經地胡亂分析,最后信誓旦旦地回答是五次。

所以在這種情境下,“劣效比率”就是5。

圖片

Claude這邊的情況要更離譜一些,明明只有一只羊要送,它卻硬生生說要運三次。

圖片

還有網友發現了華點,把題面改成從東岸運到東岸,也就是根本不需要運送,模型不以為然,依舊我行我素地籌劃著運送方案。

圖片

這下只要模型沒識破陷阱,隨便說一個數“劣效比率”都會直接變成無窮大。

哪怕問得更直白一些,直接說不需要過河,模型依然會直接開算。

圖片

所以,這個“劣效比率”更多像是一種玩笑,不太能比較出各模型的能力,或者說離譜程度。

有網友分析,這種現象可能并不意味著大模型推理能力的缺乏,實際上它揭示了訓練數據對大模型輸出的影響。

圖片

但另一方面,無論問題是否出自推理本身,至少說明了當前的大模型還不是優質的推理工具。

圖片

那么,這究竟是個別現象,還是模型的通病?我們選擇了更多的模型進行了測試。

12款模型全軍覆沒

針對這個“Benchmark”,也如法炮制,測了測國產大模型的表現,參賽的選手有文心一言、通義千問等12款大模型。

測試的過程和網友展示的方法相似,Prompt中只描述問題,不添加額外的提示詞。

對每個大模型,我們都準備了下面這三道題目:

首先進行一下說明:

1、農夫不被計入運送物品的數量限制
2、題目中“獨處”的標準是,只要有人或其他物品在場,就不屬于獨處
3、往返過程視為兩次過河

以上幾點在Prompt中均有指出。

問題一(正常提問):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?
(答案:五次,只要第一次運到對岸的兩個物品可以獨處即可。)

問題二(一步到位):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶五件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

問題三(陷阱問題):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

結果可以說是全軍覆沒,首先用一張表格來整體看下各大模型的表現。

圖片

第一個問題,各有各的錯法,相同的錯誤類型,這里每種只列舉一個例子。

比如文心一言,前面說得沒什么問題,但最后把狐貍帶回原來的岸邊后忘了再帶過去,最終沒有完成任務:

圖片

還有訊飛星火這種運著運著,某樣東西自動就跑到了對岸的情況:

圖片

以上的兩種錯誤比較典型,當然,還有最有意思的錯誤來自躍問——

因為狼和羊不能“獨處”,所以它們需要在一起。

圖片

這波屬實是把人給整不會了,不過整場測試中,除了這個把“獨處”理解錯的情況之外,倒是都沒有出現讓不能獨處的動物單獨在一起的現象。

當然也有表現好一些的,比如騰訊元寶的方案已經接近可行,只是最后兩步純屬多余,而且實際上此時已經無物可運。

圖片

表現最好的是通義千問,給出的方案雖然麻煩,但是找不出什么錯誤。

值得注意的是,很多模型給出的方案都會把羊運送過去,然后運一只雞再把羊運回來,不知道為什么不直接運雞。

圖片

另外值得一提的是,我們在Prompt中雖未提及,但基本上接受測試的模型都不約而同地運用到了思維鏈方式,一方面說明了模型確實會使用推理技巧,但另一方面也說明思維鏈的作用是有限的。

而至于后面兩個問題,錯法就比較統一了——根本沒關注到數量限制的變化,更沒看到“不需要”里的“不”,和前面GPT的錯法也是如出一轍。

圖片

也就是說,通過這些測試,我們確實無法得知模型有沒有相應的推理能力,因為模型根本就沒仔細讀題。

或許這也是在第一題中,多數模型,哪怕給出了可行的方案,仍然一次只運送一件物品而不是兩件的原因。

所以,前面網友針對訓練數據和輸出關系的分析,可能不無道理。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-03-27 13:32:00

AI數據

2024-03-28 14:26:51

人工智能

2024-12-25 20:01:13

2024-05-08 07:28:06

LLMLinguaLLM大型語言模型

2024-04-01 12:41:55

2023-06-01 12:46:46

GPT-4數學OpenAI

2023-12-11 19:08:59

AI模型

2024-03-08 12:53:42

AI數據

2023-07-12 16:10:48

人工智能

2023-02-06 14:37:44

LeCun模型

2024-05-20 08:20:00

OpenAI模型

2024-03-05 09:16:32

AI模型GPT-4

2023-03-24 16:02:59

GPT-4測評

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-07-05 09:57:11

2024-03-05 13:59:51

模型數據

2023-11-15 09:23:00

模型AI

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2024-04-23 07:00:00

點贊
收藏

51CTO技術棧公眾號

日韩成人毛片视频| 在线免费视频a| 天天干天天舔天天射| 欧美一级一区| 色一区av在线| 中文字幕天堂av| 少妇一区视频| 一区二区三区在线视频免费观看| 久久99国产精品99久久| 在线视频1卡二卡三卡| 欧美日韩p片| 亚洲视频一区二区| avtt中文字幕| 日韩在线免费| 亚洲成人免费影院| 亚洲va韩国va欧美va精四季| 亚洲免费国产视频| 美女视频黄频大全不卡视频在线播放| 九色精品美女在线| 久久亚洲无码视频| 成人搞黄视频| 欧美日韩激情一区二区三区| 老太脱裤让老头玩ⅹxxxx| 伊人免费在线| 久久久久久免费毛片精品| 99久久99| 国产又黄又爽视频| 久久精品欧洲| 97超碰色婷婷| 久久精品www人人爽人人| 欧美一级本道电影免费专区| 亚洲精品国产精品国自产观看浪潮| 天天看片天天操| 小h片在线观看| 亚洲一区二区三区在线看| 亚洲欧洲日本国产| 每日更新av在线播放| 国产91色综合久久免费分享| 91亚洲国产成人久久精品网站| 超碰在线观看91| 国产精品一二| 97精品视频在线观看| 欧美成人免费观看视频| 四虎8848精品成人免费网站| 国产一区二区精品丝袜| 大又大又粗又硬又爽少妇毛片| 国产精品15p| 精品日韩在线一区| 中文字幕99页| 中文一区二区三区四区| 欧美videos中文字幕| 中文字幕av一区二区三区人妻少妇 | 亚洲人成自拍网站| 西西大胆午夜视频| 欧美成人午夜77777| 亚洲国产99精品国自产| 亚洲视频天天射| 国产乱人伦精品一区| 日韩欧美在线综合网| 特黄特黄一级片| www.久久久久爱免| 91.麻豆视频| 国产又粗又长又爽又黄的视频| 99精品视频在线免费播放| 欧美电影在线免费观看| 男生和女生一起差差差视频| 免费看日产一区二区三区| 日韩一卡二卡三卡四卡| 中文字幕18页| 欧洲亚洲成人| 国产一区二区三区在线视频 | 国产精品久久久久久av福利软件| 东京热一区二区三区四区| 日韩电影在线免费观看| 国产精品日韩欧美大师| 国产伦精品一区二区三区视频痴汉 | 动漫美女被爆操久久久| 五月天丁香视频| 久久久99精品免费观看不卡| 亚洲精品免费在线看| 在线免费av导航| 亚洲动漫第一页| 日韩av资源在线| 另类一区二区三区| 欧美不卡一二三| 国产制服丝袜在线| 俺要去色综合狠狠| 欧美另类xxx| 国产精品视频免费播放| 免费在线观看一区二区三区| 51国偷自产一区二区三区的来源| 手机看片福利在线| 国产精品私人自拍| 91亚洲精品国产| 深夜成人影院| 日韩欧美亚洲一区二区| 亚欧洲乱码视频| 中文av一区| 欧洲亚洲免费在线| 99久久久无码国产精品免费| 91美女福利视频| 成人免费看片视频在线观看| 日韩欧美精品一区二区三区| 色婷婷狠狠综合| 亚洲色图欧美自拍| 国产精品自拍区| 九九热这里只有精品免费看| 精品久久久久久久久久久久久久久久久久| 国模一区二区三区白浆 | 久久理论电影| 97精品视频在线播放| 97人妻一区二区精品免费视频 | 欧美一级一区二区| 国产伦理片在线观看| 欧美91大片| 国产精品免费久久久| 欧美 日韩 国产 成人 在线| 国产精品理论在线观看| 国产在线观看福利| 97一区二区国产好的精华液| www.久久久久久.com| 国产一区二区99| 成人一区二区三区| 自拍偷拍99| 成人看片网站| 国产丝袜一区二区三区免费视频| 青青草原在线免费观看视频| 麻豆一区二区99久久久久| 美乳视频一区二区| 538视频在线| 日韩免费福利电影在线观看| 亚洲色图100p| 日本成人中文字幕在线视频| 欧美成人综合一区| 黄色激情在线播放| 亚洲精品国精品久久99热一| 国产亚洲精品码| 国产成人免费视频一区| 日韩中文字幕亚洲精品欧美| 四虎地址8848精品| 中文精品99久久国产香蕉| 精品免费囯产一区二区三区| 91亚洲男人天堂| 欧美一级在线看| 欧美绝顶高潮抽搐喷水合集| 国内精品视频在线| 日韩一级中文字幕| 亚洲成人你懂的| 亚洲av无码一区二区三区网址 | 日韩美女精品在线| 99日在线视频| 91精品国产91久久久久久密臀 | 69av成年福利视频| 天天干天天干天天干| 婷婷国产v国产偷v亚洲高清| 亚洲国产欧美视频| 久久99伊人| 色噜噜狠狠一区二区三区| free欧美| 少妇激情综合网| 91亚洲国产成人精品一区| 中文字幕一区二区三区乱码在线| 国产精品美女午夜av| 免费在线超碰| 欧美午夜电影网| 日本 欧美 国产| 国产经典欧美精品| 男女私大尺度视频| 青青草原在线亚洲| 日韩女在线观看| 色综合久久影院| 欧美一区二区美女| 日产精品久久久久| 久久久久久久一区| 国产精品区在线| 欧美日韩a区| 欧美日韩高清在线一区| 日韩毛片免费看| 欧美日本在线视频中文字字幕| 天天操天天干天天插| 欧美在线免费视屏| 中文字幕av播放| 91一区二区在线| 九九九九九伊人| 在线视频精品| 一区二区三区国产福利| 亚洲性视频在线| 人人做人人澡人人爽欧美| 午夜视频在线观看网站| 亚洲成人亚洲激情| 美女黄页在线观看| 夜夜嗨av一区二区三区| av黄色在线免费观看| 国产另类ts人妖一区二区| 国产 福利 在线| 在线中文字幕第一区| 欧美一级片免费观看| 国产美女亚洲精品7777| 日本精品久久久| 性欧美1819sex性高清大胸| 精品视频久久久| av免费在线不卡| 色婷婷精品大视频在线蜜桃视频| 国产女人被狂躁到高潮小说| 国产校园另类小说区| 好吊操视频这里只有精品| 麻豆精品久久精品色综合| 久久国产精品网| 亚洲成av人片乱码色午夜| 久久久久资源| 91成人噜噜噜在线播放| 国产精品免费在线免费| 久久青草伊人| 欧美黑人狂野猛交老妇| 日本精品在线| 亚洲欧美综合v| 天天av天天翘| 精品日韩一区二区三区免费视频| 91亚洲视频在线观看| 日韩欧美aaa| 国产一级一级片| 亚洲欧美激情小说另类| 性高潮久久久久久久 | 日韩人妻一区二区三区| 成人黄色在线看| 91人妻一区二区三区| 老司机一区二区| 好男人www社区| 香蕉亚洲视频| 精品久久一二三| 黄色亚洲免费| www.激情网| 中文无码久久精品| 中文字幕中文字幕一区三区| 欧美中文字幕一区二区| 日韩精品第一页| 国内精品视频在线观看| 欧美亚洲高清一区| 官网99热精品| 不卡的国产精品| 91精品国产自产在线| 影音成人av| 国产精品高潮呻吟久久av野狼| 最新欧美色图| 欧洲精品在线视频| 3d性欧美动漫精品xxxx软件| 欧美诱惑福利视频| 成人爱爱网址| 国产成人精品日本亚洲专区61| 亚洲女同av| 国产精品扒开腿做爽爽爽视频| 欧美人体一区二区三区| 国产精品激情av在线播放| 成人免费网站www网站高清| 国产精品美乳一区二区免费| 国产精品蜜月aⅴ在线| 91久久精品美女高潮| 国产精品亚洲四区在线观看| 91视频网页| 超碰成人免费| 美女被啪啪一区二区| 国产麻豆精品久久| 天堂√在线观看一区二区| 色综合狠狠操| 300部国产真实乱| 亚洲巨乳在线| 午夜免费精品视频| 久久国产人妖系列| 又黄又色的网站| 91在线你懂得| 日本高清黄色片| 亚洲免费毛片网站| 日韩aaaaaa| 在线精品视频小说1| 国产一区二区在线视频观看| 日韩免费电影一区| 男女网站在线观看| 色多多国产成人永久免费网站| av网站网址在线观看| 久久久久久国产三级电影| 电影一区二区三| 91精品免费视频| 久久久亚洲欧洲日产| 日韩成人在线资源| 欧美高清不卡| 国产精品无码专区av在线播放| 久热成人在线视频| 超碰caoprom| 国产精品丝袜一区| 91香蕉在线视频| 欧美人xxxx| 香蕉久久一区二区三区| 久久精品国产免费观看| 深夜在线视频| 91欧美激情另类亚洲| 五月国产精品| 日韩不卡一二区| 久久久久在线| 色哟哟视频在线| 国产精品二区一区二区aⅴ污介绍| 久久久综合久久久| 欧美午夜一区二区| 天天操天天干天天操| 久久这里只有精品99| 卡通欧美亚洲| 国产精品av一区| 欧美超碰在线| 国产视频一区二区视频| 成人毛片老司机大片| 亚洲av无一区二区三区| 欧美色xxxx| 免费观看黄一级视频| 色伦专区97中文字幕| 在线免费av资源| www 成人av com| 久久日文中文字幕乱码| 欧美黑人又粗又大又爽免费| av电影天堂一区二区在线观看| 亚洲色图综合区| 欧美在线影院一区二区| 全部免费毛片在线播放网站| 国内精品久久久久久影视8| 久久久久久亚洲精品美女| 性欧美大战久久久久久久免费观看 | 中文字幕久热精品在线视频| 密臀av在线播放| 国产精品乱码视频| 91成人影院| 8x8x成人免费视频| 国产精品午夜免费| 亚洲第一网站在线观看| 日韩精品一区二区三区第95| 超黄网站在线观看| http;//www.99re视频| 欧美一区二区三区另类| www.久久com| 亚洲欧美激情小说另类| 99产精品成人啪免费网站| 色妞欧美日韩在线| 国产精品蜜月aⅴ在线| 亚洲欧洲精品一区二区| 日本va欧美va瓶| 在线观看免费小视频| 在线看国产一区二区| 尤物在线视频| 国产日韩在线一区| 我不卡伦不卡影院| 天堂网成人在线| 樱花影视一区二区| 亚洲av无码一区二区乱子伦| 欧美精品久久久久久久免费观看 | 在线观看v片| 欧美日韩高清在线一区| 日本大胆欧美人术艺术动态| 久久精品色妇熟妇丰满人妻| 欧美日本一道本在线视频| 午夜免费播放观看在线视频| 成人性生交大片免费看视频直播| 99精品在线| gogo亚洲国模私拍人体| 亚洲综合免费观看高清完整版在线 | 色婷婷综合成人| 在线高清欧美| 激情五月六月婷婷| 99久久精品国产网站| 伦av综合一区| 色av吧综合网| av成人综合| 日韩亚洲在线视频| 亚洲欧洲无码一区二区三区| www.国产.com| 国产91精品黑色丝袜高跟鞋| 精品国产美女| 人妻激情偷乱视频一区二区三区| 亚洲丶国产丶欧美一区二区三区| 日韩av高清在线| 国产欧美日韩精品丝袜高跟鞋| 91国语精品自产拍| 日本一卡二卡在线| 欧美性大战久久久| 天堂va在线| 欧美大陆一区二区| 韩国女主播成人在线| 亚州国产精品视频| 在线激情影院一区| 亚洲午夜精品| 天堂av在线网站| 亚洲午夜精品久久久久久久久| 女人偷人在线视频| 91色中文字幕| 免费看的黄色欧美网站| 国精品无码一区二区三区| 日韩av在线看| 日本成人一区二区| 免费无码毛片一区二三区| 中文字幕乱码日本亚洲一区二区| 亚洲AV无码精品国产| 国产精品久久久久久久久借妻| 欧美日韩精品| 欧美88888|