精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

兩句話,讓LLM邏輯推理瞬間崩潰!最新「愛麗絲夢游仙境」曝出GPT、Claude等重大缺陷

人工智能 新聞
在基準測試上頻頻屠榜的大模型們,竟然被一道簡單的邏輯推理題打得全軍覆沒?最近,研究機構LAION的幾位作者共同發表了一篇文章,以「愛麗絲夢游仙境」為啟發涉及了一系列簡單的推理問題,揭示了LLM基準測試的盲區。

一道簡單的邏輯問題,竟讓幾乎所有的LLM全軍覆沒?

對于人類來說,這個名為「愛麗絲夢游仙境」(AIW)的測試并不算很難——

「愛麗絲有N個兄弟,她還有M個姐妹。愛麗絲的兄弟有多少個姐妹?」

只需稍加思考,答案顯而易見:M+1。(愛麗絲擁有的姐妹數量,再加上愛麗絲自己)

圖片

但是,當研究人員讓GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答時,得到的結果卻非常離譜。只有OpenAI最新的GPT-4o勉強及格。

而且問題不僅僅是基本的不準確性:當要求展示其工作過程時,AI會詳細說明一些荒謬且錯誤的「思考」過程,這些過程毫無意義——更奇怪的是,當被告知其工作不準確時,模型反復變得憤怒并堅持其錯誤答案。

圖片

正如這支來自知名開源AI研究機構LAION的團隊所揭示的——即使是當今最先進的模型,也幾乎不具有小學生的推理能力。

圖片

論文地址:https://arxiv.org/abs/2406.02061

開源地址:https://github.com/LAION-AI/AIW

對此,LeCun也在第一時間轉評道:「再次強調,推理能力和常識不應與存儲和大致檢索大量事實的能力混為一談。」

圖片

與之類似,ICLR 2024的一篇論文也發現,LLM在學習完「A是B」這個知識點之后,無法泛化到「B是A」,這種推理能力的缺陷被他們稱為「逆轉詛咒」。

圖片

實驗

用簡單問題「打破」模型

參考了之前識別LLM能力缺陷的研究,團隊尋找問題的標準,是希望測試LLM在在常識性任務中進行基本推理的能力。

于是有一個現成的題目方向非常合適——為7-10歲低年級學生設計的奧數題目。當然,不是海淀版本的,是大多數小學生都能看懂并做出來的。

這些題目不需要復雜的知識,但解決起來也需要應用各種形式的邏輯思維和基本推理。

圖片

來源:網絡資料

在本次研究中,團隊借鑒「愛麗絲夢游仙境」的童話故事,將提出的測試集簡稱為AIW:「愛麗絲有N個兄弟,她還有M個姐妹。愛麗絲的兄弟有多少個姐妹?」

下面,我們來簡單分析一下:題目首先涉及一個虛構的女性人物「愛麗絲」,并通過「她」這個代詞暗示;其次提供了關于她兄弟和姐妹數量的明確陳述;最后提出了一個明確的問題,即計算愛麗絲的兄弟有多少個姐妹。

顯然,這對大多數成年人來說并沒有挑戰性;甚至對于一定年齡以上的兒童來說,通過常識推理也不難解決。

研究人員最初也認為,這對LLM不會構成什么挑戰。

然而,大多數的SOTA模型竟然回答得非常費勁。而且,更改句子表述方式或者N、M具體數值時,回答正確率會產生大幅變化。

圖片

對此團隊認為,模型似乎是在「蒙」答案,幾乎不考慮邏輯,只是對問題中提到的數字加減乘除后給出結果,因此有些N和M值的對應答案比較容易蒙對。

這就讓團隊來了興趣。他們為AIW問題設計出了4個版本,讓LLM不容易蒙對答案。比如N=4,M=2時,你很難通過操作這兩個數字得到正確結果3。

在這4個AIW問題的變體上進行實驗,研究人員得出了關于LLM基本推理能力的核心結論。

LLM崩潰

實驗結果出乎很多人的意料——大多數的先進LLM無法對AIW問題推理出正確答案,即使嘗試各種提示方法也沒嫩個改變模型崩潰的結果。

可以看到,大多數模型的正確響應率都不超過0.2,只有4個模型超過了0.3,包括GPT-4o和Claude 3 Opus,以及唯一的開源模型Llama2-70B Chat。其中GPT-4o的均值達到了0.6附近。

圖片

大多數情況下,模型的正確答案是來源于完整無誤的推理。Mistral和CodeLlama等模型雖然表現不佳,得分在0.1以下,但仍能看到正確的推理過程。

然而,也有一些模型的推理過程完全錯誤,但最終「負負得正」,奇跡般地得出了正確答案。這種情況經常出現在正確率小于0.3的模型中。

團隊還對AIW不同變體上的準確率進行了橫向比較,結果很多模型的表現都出現了大幅波動。

比如本來能擠進前四的GPT-4-0613,換了個問題,準確率就快降到0了。GPT-4o、GPT-4 Turbo、Claude 3 Opus和Llama2-70B等高分模型也都出現較大的波動。

團隊設計了restricted模式的提示,強迫模型輸出簡短答案,測試它們在有限計算能力情況下的相應質量。有趣的是,相比標準模式的提示,模型的正確率竟然有升有降。

圖片

圖片

這些先進LLM在AIW上的慘烈表現和MMLU、ARC-c等基準測試的高分形成了鮮明的對比。因此,團隊決定讓AIW的暴風雨更猛烈一點,把兩者的可視化結果放在一起看個清楚。

圖片

圖3中可以看到,大多數模型聚集在縱軸附近,只有Llama2-70B、GPT-4、GPT-4o和Claude 3幾個模型較為接近校準線,這表明MMLU分數與AIW之間的顯著不匹配。

再來看測試LLM數學能力的MATH、GSM8k等基準,趨勢也是類似的。

但值得注意的是,在和MATH的對比中,Llama2-7B和Llama2-70B兩個模型在AIW的得分反而高于MATH。這兩個模型在AIW與各個基準測試的校準中都有較好的表現。

圖片

圖片

而在Hallaswag和ARC-c中,這種能力和得分的不匹配,則更加明顯。

圖片

圖片

值得注意的是,「小」模型(SLM)在這一系列測試中的表現可以說是「比差更差」。

比如下面這個Llama2-7B的例子——除了給出的是錯誤答案之外,甚至還生成了一個毫無關系的測試問題,并且開始不斷重復相同的輸出。

圖片

如測試結果所示,雖然有些SLM在基準測試中的得分相當高,甚至能和大模型媲美,但在AIW上卻嚴重崩潰,完全無法接近GPT-4或Claude Opus的表現。

圖片

雖然AIW已經打趴了很多模型,但GPT-4o和Claude 3 Opus依舊有不錯的表現。不服輸的研究人員們可能想再試探一下最后的邊界,于是升級了推理問題,設計出AIW+。

AIW+使用與AIW相同的邏輯,但在描述親緣關系和家庭結構時增加了額外信息,比如引入了外甥、侄女這樣的表親。

圖片

在AIW+問題上,研究人員對模型回答進行了手動評估,結果發現LLM有了進一步、更強烈的性能崩潰。

即使是AIW上性能達到0.649的GPT-4o,面對AIW+也只得到了0.015的準確率,簡直是被按在地上摩擦。

圖片

迷之自信

在目睹了LLM推理能力的潰敗后,研究人員們非常好奇這些模型到底錯在哪里。

在Thinking類型的prompt中,包含重新檢查答案的要求,結果發現這些LLM都有「蜜汁自信」,對自己給出的解決方案非常有信心。

甚至在給出錯誤推理和錯誤答案時,模型還會稱它們提供的解決方案質量很高。

圖片

比如在AIW上得分從沒超過0.1的Command R+模型,會說「這個結論是直接且清晰的」。Claude 3 Opus也在錯誤答案中使用了諸如「邏輯成立」「推理中沒有錯誤」「解決方案是正確的」之類的表達。

難道是Thinking類prompt的表述不夠明顯?研究人員又設計了Scientist類型的prompt,要求模型深思熟慮,給出準確的答案;以及Confidence型prompt,要求模型反省一下自己的自信,給出答案的置信度。

圖片

這些提示工程方面的努力似乎依舊是徒勞。

對于Scientsit類型,Llama 2-70B居然會說「結論乍看之下可能不合常理,但實際上是正確的」,說服用戶支持它給出的錯誤答案。

Command R+在回應Confidence類型提示時,會在錯誤答案中聲明「解決方案清晰且毫無歧義」「推理完全基于提供的信息,不需要進一步的解釋或推測」。

圖片

仔細看更多的示例就能發現,LLM不僅是單純的嘴硬,在找理由方面還能「各顯神通」,為錯誤答案編造出各種有說服力的解釋。

比如下面這個OLMo模型,可以給出一堆毫無意義的計算或類似邏輯的陳述。

圖片

或者像這個CodeLlama模型一樣,干脆拒絕回答,再扯出一些毫無意義的話題對你進行「道德綁架」。

「Alice的兄弟有幾個姐妹」這種問題,它拒絕回答的理由是「作為一個負責任的AI模型,我不可以歧視唐氏綜合癥患者」。

圖片

Command R+找到的道德高地更加「時髦」,它表示自己需要考慮非二元性別的情況。

圖片

除了修改prompt,研究人員還采取了一系列常用的LLM調優技巧,希望引導模型提高正確率,包括用定制prompt啟用多輪自我驗證、將自然語言形式的AIW問題重新表述為SQL語句或參數化版本、上下文學習等等,然而收效甚微。

上述實驗中,團隊采用了各個模型家族內的微調應用版本,那么聲稱能力更強大的基座模型會不會表現更好呢?

并沒有。結果反而是基礎模型的崩潰更加嚴重。

圖片

討論

團隊表示,為了在改善當前LLM令人糟心的推理能力,必須要借助廣大開源社區的力量。

整個模型創建流程,包括數據集的組成和數據集本身、訓練的源代碼、訓練后的模型、標準化的基準測試程序,都必須完全開放且可重復。

僅開放權重的模型,是無法了解訓練過程中可能出錯的地方的。例如,數據集組成或訓練程序本身。

僅通過API訪問的封閉模型,甚至無法進行適當的評估。因為第三方看不到模型的設置,如系統提示和其他推理超參數。

因此,團隊認為,要在未來模型中實現適當的推理能力,必須開源模型的完整訓練流程——尤其是經常被忽視的數據集組成。

對于基準測試,團隊也呼吁AI社區能共同努力進行更新。

比如這次研究中提出的AIW問題集:既簡單(用于探測特定類型的推理缺陷),也可定制(提供足夠的組合多樣性來防止數據污染)。

團隊認為,強大且可信的基準測試應遵循Karl Popper的可證偽性原則——不試圖突出模型的能力,而是盡一切努力打破模型的功能并突出其缺陷,從而展示模型改進的可能途徑。

但問題在于,前者在如今這種商業環境中,誘惑力實在是太大了。

作者介紹

論文的四位作者來自不同的學術機構,但都是德國非營利AI研究機構LAION的成員。

圖片

共同一作Marianna Nezhurina,是JSC/圖賓根大學的博士生,LAION的核心研究員。她對多模態數據集和學習有濃厚興趣。

圖片

另一位共同一作Jenia Jitsev,是德國Juelich超算中心的實驗室負責人,也同時是LAION和Ontocord.AI的聯合創始人,他研究的長期目標是從多模式數據流中實現模型可自我調節且節能的持續學習。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-02-26 13:48:00

模型數據

2023-06-12 13:35:11

2018-07-01 15:37:41

中年危機跳樓

2025-03-03 09:40:00

2022-12-15 21:59:56

AIVR場景

2009-08-05 08:51:28

Windows 7 R系統漏洞

2024-06-11 00:04:00

GPT-4PNASLLM

2023-10-22 14:21:21

模型LLM數據

2024-01-18 13:39:00

AI訓練

2025-05-08 09:10:30

2014-04-28 11:07:10

2024-12-17 14:29:57

2015-09-21 09:52:57

邏輯推理

2025-05-27 01:27:00

LLM大模型數學推理

2013-11-04 11:37:29

2009-08-06 08:36:58

Windows 7內存泄露系統崩潰

2025-02-14 11:18:57

2022-09-16 07:23:24

人工智能自然語言系統

2023-11-03 13:07:00

AI模型

2010-03-02 09:48:40

點贊
收藏

51CTO技術棧公眾號

久久久久99精品成人片| 国产精选久久久久久| 日本少妇xxxx软件| 国内精彩免费自拍视频在线观看网址| 91色porny在线视频| 日本伊人精品一区二区三区介绍| 九一在线免费观看| 日韩精品成人在线观看| 精品日本美女福利在线观看| 色999日韩自偷自拍美女| 国产欧美一区二区三区视频在线观看 | 亚洲欧美色一区| 国产伦精品一区二区三区高清版 | 新91视频在线观看| 97久久中文字幕| 精品久久久久久久久久| 亚洲人成网站在线观看播放| 亚洲精品字幕在线观看| 老司机免费视频久久| 久久深夜福利免费观看| 国产女人18毛片水真多18| jizz亚洲女人高潮大叫| 亚洲在线免费播放| 亚洲日本欧美在线| 天堂а√在线8种子蜜桃视频| 麻豆91精品视频| 午夜精品久久17c| 四季av中文字幕| 国产日韩三级| 91精品中文字幕一区二区三区| 人人妻人人添人人爽欧美一区| 色欧美激情视频在线| 99视频热这里只有精品免费| 91精品久久久久久久久久 | 在线免费看黄| 91美女精品福利| 91精品黄色| 最近中文字幕av| 在线亚洲成人| 欧美精品电影在线| 精品国产精品国产精品| 欧洲杯半决赛直播| 日韩av在线一区| 黄页网站在线看| 国产精品久久久久久av公交车| 欧美性猛交xxxx免费看| 青草青青在线视频| 日本动漫同人动漫在线观看| 国产女人18水真多18精品一级做| 国产一区在线观| 国产情侣在线播放| 色999久久久精品人人澡69| 亚洲午夜在线观看视频在线| 秋霞在线一区二区| 69久久久久| 久久精品男人天堂av| 欧美日韩精品久久久免费观看| 黄片毛片在线看| 国产宾馆实践打屁股91| 亚洲精品免费网站| 国产欧美久久久| 国模无码大尺度一区二区三区| 国产精品一区二区三区久久久| 国产黄网在线观看| 日韩制服丝袜av| 国产98色在线| 天天爱天天做天天爽| 久久看片网站| 国产精品av免费在线观看| 亚洲av中文无码乱人伦在线视色| 免费视频一区二区三区在线观看| 久久久久久亚洲精品| 中文在线观看免费网站| 今天的高清视频免费播放成人| 久久久久国产精品www| 久久久久久免费观看| 亚洲一级黄色| 7777精品视频| 日韩三级一区二区| 日本午夜一区二区| 国产精品日韩欧美大师| 国产精品欧美综合亚洲| 国产精品88888| 精品国产一区二区三| 激情视频在线观看免费| 中文字幕 久热精品 视频在线| 一区二区三区精品国产| 中文字幕在线观看播放| 午夜精品一区二区三区免费视频| 99福利在线观看| 亚洲电影有码| 欧美一区二区三区啪啪| 亚洲麻豆一区二区三区| 欧美禁忌电影| 久久91精品国产91久久跳| av资源吧首页| 日韩成人午夜电影| 97人人模人人爽人人少妇| 天天干,夜夜操| 亚洲国产岛国毛片在线| 大陆极品少妇内射aaaaaa| 丁香花在线电影| 色94色欧美sute亚洲线路一久| 日本一二区免费| 精品久久对白| 色偷偷综合社区| 国产在线欧美在线| 免费观看在线综合色| 国产欧美欧洲| 久久电影视频| 一区二区视频在线| 亚洲成人av免费看| gogo人体一区| x99av成人免费| 亚洲第一在线播放| 国产一级精品在线| 日本一区二区久久精品| 久久免费电影| 欧美日韩精品二区第二页| 成年人小视频在线观看| 日韩精品免费一区二区在线观看| 欧美精品久久一区二区| 91欧美日韩麻豆精品| 91在线小视频| 欧美极品少妇无套实战| 国产成人精品一区二区三区在线 | 日韩永久免费视频| 国产精品久久久久久亚洲毛片| 国产精品999视频| 国产一区二区三区黄网站| 亚洲视频一区二区| 九九热国产视频| 国产精品一二三四| 色综合电影网| 欧美国产大片| 亚洲精品美女久久久| 青青草原在线免费观看| 九一久久久久久| 午夜欧美一区二区三区免费观看| 国产在线美女| 亚洲经典中文字幕| 欧美黄片一区二区三区| 韩国av一区二区三区四区 | 91精品国产麻豆国产在线观看| 国产精品96久久久久久又黄又硬 | 成人小视频在线观看| 免费成人深夜夜行网站视频| 国产精品亚洲d| 亚洲一区www| 四虎成人在线观看| 91免费在线视频观看| 日韩在线综合网| 国内视频在线精品| 欧美激情性做爰免费视频| 国产女人18毛片水真多| 亚洲婷婷国产精品电影人久久| 美女网站色免费| 日韩a一区二区| 国产精品视频久| 东热在线免费视频| 欧美日韩成人一区| 极品色av影院| 国产剧情一区在线| xxxxxx在线观看| 日韩中文字幕一区二区高清99| 欧美xxxx做受欧美.88| www.久久综合| 污片在线观看一区二区| 免费看黄色aaaaaa 片| 国产色综合网| 日本一区二区精品| 色8久久久久| 色综合久久久888| 日本人妻熟妇久久久久久| 精品久久久久久国产91| 中文字幕网站在线观看| 毛片av一区二区| dy888午夜| 成人h动漫精品一区二区器材| 久久久最新网址| 青青草观看免费视频在线| 日本高清免费不卡视频| 麻豆视频免费在线播放| 国产曰批免费观看久久久| 国产一区二区三区播放| 欧美在线导航| 国产欧美日韩精品在线观看 | 欧洲福利电影| 亚洲a中文字幕| 中文字幕在线免费观看视频| 日韩在线视频国产| 色综合免费视频| 欧美日韩国产高清一区二区 | 亚洲性感美女99在线| 欧洲精品一区色| 欧美黄色一级| 国产成人精品免费视频| 影院在线观看全集免费观看| 精品在线观看国产| 国产丰满美女做爰| 一本大道久久a久久精二百| 国产福利视频网站| 91色九色蝌蚪| 日本少妇一级片| 日本午夜精品视频在线观看| 日韩一区二区高清视频| 欧美日韩国产在线观看网站 | 加勒比久久综合| 不卡日韩av| 欧美天堂一区二区| 欧美影院在线播放| 亚洲丝袜一区| 一区二区三区视频免费| 亚洲精品一区二区三区区别| 色婷婷综合在线| 朝桐光av在线| 国产欧美综合在线| 人妻互换一二三区激情视频| 久久精品一区| www.日本在线播放| 91麻豆精品国产91久久久平台| 国产精品国产精品国产专区不卡| 欧美人动性xxxxz0oz| 北条麻妃一区二区三区中文字幕 | 91香蕉一区二区三区在线观看| 99精品偷自拍| 天堂av2020| 性欧美videos另类喷潮| 欧美国产视频一区| 日本道不卡免费一区| 精品久久久久久一区| 欧美亚洲黄色| 国产欧美日韩中文| xxx欧美xxx| 欧美极品xxxx| 国产激情在线视频| 三级精品视频久久久久| 欧美日韩在线中文字幕| 精品国产第一区二区三区观看体验| 欧美成人一区二区视频| 午夜av区久久| 国产一区二区视频在线观看免费| 国产欧美日韩精品在线| 欧美 日本 国产| 成人av在线一区二区三区| 国偷自产av一区二区三区麻豆| 久久av资源网| 日本久久精品一区二区| 国产色综合网| 国产精品又粗又长| 亚洲午夜黄色| 成人一区二区av| 五月天综合网站| 亚洲精品第一区二区三区| 伊人久久大香线蕉| 国内不卡一区二区三区| 97久久超碰| 动漫精品视频| 亚洲国产欧美在线观看| 亚洲影院色无极综合| 91丨精品丨国产| 欧美在线视频一区二区| 色在线中文字幕| 欧美一级视频一区二区| av在线最新| 97视频免费观看| 老牛影视精品| 久久久久久久久电影| 精品极品在线| 欧美一区视频在线| 电影网一区二区| 国产精品尤物福利片在线观看| 日韩三区在线| 国产精品久久久久久亚洲调教| 开心久久婷婷综合中文字幕| 国产精品中文字幕在线| 亚洲精品aaa| 国产九色91| 婷婷综合成人| 色播亚洲婷婷| 精品免费一区二区| 久久精品在线免费视频| 亚洲手机视频| 成人av一级片| 极品少妇xxxx偷拍精品少妇| 国内自拍第二页| 成人综合婷婷国产精品久久免费| 亚洲一级中文字幕| 欧美极品aⅴ影院| 你懂得在线观看| 天天综合天天做天天综合| 无码人妻精品一区二区三区9厂 | 国产欧美日韩另类一区| 国产在线观看免费视频软件| 亚洲宅男天堂在线观看无病毒| 无码人妻av一区二区三区波多野 | 欧美国产中文字幕| 2021天堂中文幕一二区在线观| 欧洲一区二区视频| 日韩毛片一区| 91麻豆蜜桃| 外国成人在线视频| 精品无码久久久久久久动漫| 色综合咪咪久久网| 国产视频在线观看网站| 久久精品麻豆| 特黄特黄一级片| 久久一日本道色综合| 一区二区三区四区五区| 婷婷夜色潮精品综合在线| 亚洲最大成人av| 亚洲娇小xxxx欧美娇小| 欧美激情二区| 国产精品成久久久久三级 | 国产主播一区二区三区四区| 久久看人人摘| 亚洲熟妇无码一区二区三区| 麻豆国产欧美一区二区三区| 精品人妻一区二区三区视频| 最好看的中文字幕久久| 国产精品久久久久久99| 日韩欧美国产一区在线观看| 成年人在线看| 久久久综合av| 成人爽a毛片免费啪啪红桃视频| 水蜜桃一区二区三区| 在线成人h网| 精品国产一二区| 国产精品亲子乱子伦xxxx裸| 亚洲欧美在线视频免费| 精品久久久久久久久久久久包黑料 | 国产精品12| 日韩高清欧美| 冲田杏梨av在线| 91视频观看视频| 豆国产97在线 | 亚洲| 精品国产一区二区三区四区四| 在线视频1区2区| 日产精品久久久一区二区福利| 日韩mv欧美mv国产网站| 国产亚洲精品久久久久久久| 老司机一区二区| 女同久久另类69精品国产| 在线视频你懂得一区二区三区| 日韩中文字幕免费观看| 久久久久久12| 一区二区亚洲视频| 精品91一区二区三区| 韩国成人在线视频| 91动漫免费网站| 91国偷自产一区二区使用方法| 美女欧美视频在线观看免费| 8x拔播拔播x8国产精品| 国产在线一区不卡| 好吊色视频988gao在线观看| 久久99九九99精品| 情侣偷拍对白清晰饥渴难耐| 欧美日韩三级视频| 在线观看麻豆| 92看片淫黄大片欧美看国产片| 日本一区二区在线看| 成人精品小视频| 国产精品欧美综合在线| 中文字幕资源网| 日韩在线欧美在线| 人人九九精品视频| 9色视频在线观看| 久久99蜜桃精品| 国产在线一区视频| 亚洲精品在线电影| 三上悠亚亚洲一区| 色综合视频二区偷拍在线| 日本欧美一区二区三区乱码| 亚洲 欧美 国产 另类| 欧美剧情电影在线观看完整版免费励志电影 | 男女羞羞在线观看| 精品伦精品一区二区三区视频| 久久黄色影院| 亚洲第一综合网| 欧美老人xxxx18| 成人在线高清免费| 久久99精品国产99久久| 亚洲欧美日韩在线观看a三区 | 最新精品国偷自产在线| 蜜臀久久99精品久久久酒店新书| 久久久www免费人成精品| 国产又粗又猛又爽| 久久久久国色av免费观看性色| 欧美三级自拍| 亚洲一级片网站| 亚洲综合一区二区| 国产片在线观看| 91成人伦理在线电影| 亚洲另类黄色| 国产成人在线网址| 日韩欧美黄色影院| 芒果视频成人app| 一二三在线视频| 91香蕉视频污| a天堂在线观看视频|