精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LeCun又雙叒唱衰自回歸LLM:GPT-4的推理能力非常有限,有兩篇論文為證

人工智能 新聞
論文作者表示,他們同樣認為 LLM 是了不起的「創意生成器」(無論是語言形式還是代碼形式),只是它們無法保證自己的規劃 / 推理能力。

「任何認為自動回歸式 LLM 已經接近人類水平的 AI,或者僅僅需要擴大規模就能達到人類水平的人,都必須讀一讀這個。AR-LLM 的推理和規劃能力非常有限,要解決這個問題,并不是把它們變大、用更多數據進行訓練就能解決的。」

圖片

一直以來,圖靈獎得主 Yann LeCun 就是 LLM 的「質疑者」,而自回歸模型是 GPT 系列 LLM 模型所依賴的學習范式。他不止一次公開表達過對自回歸和 LLM 的批評,并產出了不少金句,比如:

「從現在起 5 年內,沒有哪個頭腦正常的人會使用自回歸模型。」

「自回歸生成模型弱爆了!(Auto-Regressive Generative Models suck!)」

「LLM 對世界的理解非常膚淺。」

讓 LeCun 近日再次發出疾呼的,是兩篇新發布的論文:

「LLM 真的能像文獻中所說的那樣自我批判(并迭代改進)其解決方案嗎?我們小組的兩篇新論文在推理 (https://arxiv.org/abs/2310.12397) 和規劃 (https://arxiv.org/abs/2310.08118) 任務中對這些說法進行了調查(并提出了質疑)。」

看起來,這兩篇關于調查 GPT-4 的驗證和自我批判能力的論文的主題引起了很多人的共鳴。

論文作者表示,他們同樣認為 LLM 是了不起的「創意生成器」(無論是語言形式還是代碼形式),只是它們無法保證自己的規劃 / 推理能力。因此,它們最好在 LLM-Modulo 環境中使用(環路中要么有一個可靠的推理者,要么有一個人類專家)。自我批判需要驗證,而驗證是推理的一種形式(因此對所有關于 LLM 自我批判能力的說法都感到驚訝)。

同時,質疑的聲音也是存在的:「卷積網絡的推理能力更加有限,但這并沒有阻止 AlphaZero 的工作出現。這都是關于推理過程和建立的 (RL) 反饋循環。我認為模型能力可以進行極其深入的推理(例如研究級數學)。」

圖片

對此,LeCun 的想法是:「AlphaZero「確實」執行規劃。這是通過蒙特卡洛樹搜索完成的,使用卷積網絡提出好的動作,并使用另一個卷積網絡來評估位置。探索這棵樹所花費的時間可能是無限的,這就是推理和規劃。」

在未來的一段時間內,自回歸 LLM 是否具備推理和規劃能力的話題或許都不會有定論。

接下來,我們可以先看看這兩篇新論文講了什么。

論文 1:GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems

第一篇論文引發了研究者對最先進的 LLM 具有自我批判能力的質疑,包括 GPT-4 在內。

圖片

論文地址:https://arxiv.org/pdf/2310.12397.pdf

接下來我們看看論文簡介。

人們對大型語言模型(LLM)的推理能力一直存在相當大的分歧,最初,研究者樂觀的認為 LLM 的推理能力隨著模型規模的擴大會自動出現,然而,隨著更多失敗案例的出現,人們的期望不再那么強烈。之后,研究者普遍認為 LLM 具有自我批判( self-critique )的能力,并以迭代的方式改進 LLM 的解決方案,這一觀點被廣泛傳播。

然而事實真的是這樣嗎?

來自亞利桑那州立大學的研究者在新的研究中檢驗了 LLM 的推理能力。具體而言,他們重點研究了迭代提示(iterative prompting)在圖著色問題(是最著名的 NP - 完全問題之一)中的有效性。

該研究表明(i)LLM 不擅長解決圖著色實例(ii)LLM 不擅長驗證解決方案,因此在迭代模式下無效。從而,本文的結果引發了人們對最先進的 LLM 自我批判能力的質疑。

論文給出了一些實驗結果,例如,在直接模式下,LLM 在解決圖著色實例方面非常糟糕,此外,研究還發現 LLM 并不擅長驗證解決方案。然而更糟糕的是,系統無法識別正確的顏色,最終得到錯誤的顏色。

如下圖是對圖著色問題的評估,在該設置下,GPT-4 可以以獨立和自我批判的模式猜測顏色。在自我批判回路之外還有一個外部聲音驗證器。

圖片

結果表明 GPT4 在猜測顏色方面的準確率低于 20%,更令人驚訝的是,自我批判模式(下圖第二欄)的準確率最低。本文還研究了相關問題:如果外部聲音驗證器對 GPT-4 猜測的顏色提供可證明正確的批判,GPT-4 是否會改進其解決方案。在這種情況下,反向提示確實可以提高性能。

即使 GPT-4 偶然猜出了一個有效的顏色,它的自我批判可能會讓它產生幻覺,認為不存在違規行為。

最后,作者給出總結,對于圖著色問題:

  • 自我批判實際上會損害 LLM 的性能,因為 GPT-4 在驗證方面很糟糕;
  • 來自外部驗證器的反饋確實能提高 LLM 的性能。

論文 2:Can Large Language Models Really Improve by Self-critiquing Their Own Plans?

在論文《Can Large Language Models Really Improve by Self-critiquing Their Own Plans?》中,研究團隊探究了 LLM 在規劃(planning)的情境下自我驗證 / 批判的能力。

這篇論文對 LLM 批判自身輸出結果的能力進行了系統研究,特別是在經典規劃問題的背景下。雖然最近的研究對 LLM 的自我批判潛力持樂觀態度,尤其是在迭代環境中,但這項研究卻提出了不同的觀點。

論文地址:https://arxiv.org/abs/2310.08118

令人意外的是,研究結果表明,自我批判會降低規劃生成的性能,特別是與具有外部驗證器和 LLM 驗證器的系統相比。LLM 會產生大量錯誤信息,從而損害系統的可靠性。

研究者在經典 AI 規劃域 Blocksworld 上進行的實證評估突出表明,在規劃問題中,LLM 的自我批判功能并不有效。驗證器可能會產生大量錯誤,這對整個系統的可靠性不利,尤其是在規劃的正確性至關重要的領域。

有趣的是,反饋的性質(二進制或詳細反饋)對規劃生成性能沒有明顯影響,這表明核心問題在于 LLM 的二進制驗證能力,而不是反饋的粒度。

如下圖所示,該研究的評估架構包括 2 個 LLM—— 生成器 LLM + 驗證器 LLM。對于給定的實例,生成器 LLM 負責生成候選規劃,而驗證器 LLM 決定其正確性。如果發現規劃不正確,驗證器會提供反饋,給出其錯誤的原因。然后,該反饋被傳輸到生成器 LLM 中,并 prompt 生成器 LLM 生成新的候選規劃。該研究所有實驗均采用 GPT-4 作為默認 LLM。

該研究在 Blocksworld 上對幾種規劃生成方法進行了實驗和比較。具體來說,該研究生成了 100 個隨機實例,用于對各種方法進行評估。為了對最終 LLM 規劃的正確性進行真實評估,該研究采用了外部驗證器 VAL。

如表 1 所示,LLM+LLM backprompt 方法在準確性方面略優于非 backprompt 方法。

在 100 個實例中,驗證器準確識別了 61 個(61%)。

圖片

下表顯示了 LLM 在接受不同級別反饋(包括沒有反饋)時的表現。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-06 08:00:00

AILLM

2023-03-27 17:45:16

研究AI

2023-11-26 17:14:05

2023-11-03 13:07:00

AI模型

2023-06-19 08:19:50

2017-03-13 16:58:05

戴爾

2024-08-08 13:04:28

2023-10-10 13:51:46

GPT-4GitHubAI

2023-05-15 15:38:59

AI模型

2024-03-05 11:18:14

模型訓練

2025-04-16 09:35:03

2024-04-30 12:35:10

AI模型

2024-02-27 09:43:48

視頻模型

2019-06-06 15:44:21

人工智能寒冬AI

2023-05-17 18:38:58

宕機認證令牌

2021-11-26 09:55:09

微軟漏洞補丁

2023-07-25 09:23:23

Llama 2GPT-4

2023-03-13 00:17:15

GPT-4模型API

2024-01-22 08:50:00

AI訓練

2023-03-23 21:57:06

OpenAIChatGPTAI
點贊
收藏

51CTO技術棧公眾號

亚洲av熟女国产一区二区性色| 热re99久久精品国产99热 | 久久99精品久久久久婷婷| 北条麻妃99精品青青久久| 少妇熟女视频一区二区三区| 菠萝菠萝蜜在线视频免费观看| 老牛国产精品一区的观看方式| 亚洲跨种族黑人xxx| 久久国产精品国产精品| 97人人爽人人澡人人精品| 中文字幕精品一区二区三区精品| 国产精品电影在线观看| 国产1区2区在线观看| 97成人在线| 欧美日韩国产片| 国产又大又长又粗又黄| 青青青草原在线| 人人狠狠综合久久亚洲| 久久久久久久久电影| 天天爽天天爽天天爽| 日韩极品少妇| 欧美va亚洲va在线观看蝴蝶网| 久无码久无码av无码| 天天干,夜夜操| 激情av综合网| 国产成+人+综合+亚洲欧美丁香花| 国产精品免费无码| 久久夜色电影| 欧美大片一区二区| 欧美啪啪免费视频| 18网站在线观看| 中文字幕一区二区三| 99视频日韩| 999精品国产| 精品一区二区三区av| 国产成人精品优优av| 免费黄色激情视频| 成人3d精品动漫精品一二三| 日韩av在线直播| 99免费观看视频| 久久久久九九精品影院| 欧美视频在线观看一区| 午夜dv内射一区二区| 一个人看的www视频在线免费观看| 国产欧美日韩不卡免费| 免费毛片一区二区三区久久久| 最近中文字幕在线观看| 久久精品人人| 热99在线视频| 成人免费一级片| 在线 亚洲欧美在线综合一区| 国产亚洲人成网站在线观看| 加勒比综合在线| 国产欧美日韩免费观看| 国产一区二区三区久久精品| 免费看91的网站| 日本不卡电影| 久久久黄色av| 欧美色视频一区二区三区在线观看 | 亚洲一二三四区| 丁香婷婷综合激情| 91福利区在线观看| 日韩欧美在线视频| www.好吊操| 99爱在线视频| 色婷婷亚洲精品| 午夜免费福利在线| 欧美日韩免费看片| 91黄色在线观看| 午夜精品中文字幕| 精品精品视频| 亚洲成人激情在线| 一级片视频免费看| 我不卡伦不卡影院| 久久久久久噜噜噜久久久精品| 欧美丰满熟妇bbbbbb| 欧美先锋影音| 欧美主播福利视频| 亚洲系列第一页| 成人性视频免费网站| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | 亚洲一二三区av| 国产精品视频一区视频二区 | 久热精品在线播放| 国产精品毛片无码| 日韩av在线网| 99热这里只有精品4| 黄色成人av网站| 国产不卡在线观看| 性中国古装videossex| 久久午夜免费电影| 影音先锋成人资源网站| 三妻四妾完整版在线观看电视剧 | 久久久无码精品亚洲日韩按摩| 国产精品久久精品国产| 午夜精品一二三区| 国产日韩在线不卡| 黄色一级片黄色| 九九热线视频只有这里最精品| 欧美日韩亚洲国产一区| www.超碰97.com| 日韩三级毛片| 欧美福利视频在线| 在线播放成人av| 97se亚洲国产综合自在线不卡| 精品一区二区三区日本| 午夜激情视频在线观看| 偷偷要91色婷婷| 午夜av中文字幕| 久久av超碰| 欧美精品videosex牲欧美| 中文字幕 视频一区| 不卡在线观看av| 一级黄色免费在线观看| 日本成人片在线| 亚洲国产精品女人久久久| 亚洲专区区免费| 精品日本12videosex| 午夜精品三级视频福利| www.激情五月.com| 国产精品久久久久久亚洲伦| 欧美三级午夜理伦三级老人| 亚洲第一会所001| 亚洲国产精品小视频| 老妇女50岁三级| 美女视频黄免费的久久| 免费久久久一本精品久久区| 黄视频免费在线看| 日韩欧美国产一二三区| 在线看的片片片免费| 亚洲高清电影| 国产激情一区二区三区在线观看| 清纯唯美亚洲色图| 婷婷丁香激情综合| 日韩少妇一区二区| 狠狠爱综合网| 成人3d动漫一区二区三区91| av黄在线观看| 91精品黄色片免费大全| 四虎永久免费在线| 免费日韩精品中文字幕视频在线| 国产欧美亚洲精品| 最新电影电视剧在线观看免费观看| 亚洲免费色视频| 波多野结衣在线免费观看| 色狼人综合干| 欧美wwwxxxx| 国产高清视频免费| 国产亚洲欧美日韩日本| 欧美激情国产精品日韩| 国产剧情一区二区在线观看| 久久久国产成人精品| 国产女人18毛片水18精| 久久综合色天天久久综合图片| 中国老女人av| 成人做爰视频www网站小优视频| 日韩精品一区二区三区视频| 久久久久久激情| 成人av网站在线观看免费| 成人午夜视频在线观看免费| 久久久久97| 国产精品成久久久久三级| 国产精品久久久久一区二区国产| 亚洲成在线观看| 黄色免费视频网站| 免费亚洲婷婷| 亚洲一区3d动漫同人无遮挡 | 内射后入在线观看一区| 婷婷六月综合网| 久久国产柳州莫菁门| 久久99国内精品| av无码久久久久久不卡网站| 综合国产视频| 国产在线精品播放| 成人在线高清免费| 亚洲人午夜精品| 国产乱码精品一区二区三区精东 | 日本妇女毛茸茸| 99久久久国产精品| 精品国产一区二区三区无码| 亚洲精品进入| 91九色精品视频| 成人ssswww在线播放| 国产亚洲精品一区二区| 黄色片视频免费| 久久久不卡网国产精品一区| 中日韩av在线播放| 99视频精品全国免费| 99九九视频| 日本色护士高潮视频在线观看| 91精品福利在线一区二区三区| 国产一区二区三区视频播放| 国产精品18久久久久久久网站| 国产1区2区3区中文字幕| 性欧美lx╳lx╳| 91精品国产高清久久久久久91裸体| 国产不卡在线| 日韩欧美亚洲另类制服综合在线| 校园春色 亚洲| 国产精品911| 欧美成人黑人猛交| 亚洲无毛电影| 天堂社区 天堂综合网 天堂资源最新版| 成人免费网站视频| 欧美精品在线看| 成年人在线观看| 4438亚洲最大| 黄色网址中文字幕| 性做久久久久久免费观看欧美| 国产麻豆xxxvideo实拍| 亚洲欧美日韩国产综合精品二区| 欧美尤物一区| 国产成人在线中文字幕| 亚洲一区二区三区四区视频| 免费污视频在线一区| 97久久精品人人澡人人爽缅北| 欧美高清电影在线| 精品sm在线观看| 99国产精品久久久久久久成人| 午夜国产不卡在线观看视频| 波多野结衣久久久久| 国产午夜精品一区二区| 999精品免费视频| 国产99久久久精品| 手机在线播放av| 激情小说亚洲一区| 国产精品成人久久电影| 亚洲91精品| 曰韩不卡视频| 四虎成人av| 五码日韩精品一区二区三区视频| 欧美高清hd| 成人网在线观看| 四虎国产精品成人免费影视| 国产精品免费视频久久久| 超碰在线观看免费版| 日韩一区二区欧美| 老司机精品影院| 日韩电影网在线| 国产乱人乱偷精品视频| 欧美日韩国产片| 97精品人妻一区二区三区香蕉 | 久草视频在线免费| 在线观看av不卡| 艳妇乳肉豪妇荡乳av无码福利| 亚洲成av人在线观看| 精品视频久久久久| 亚洲高清不卡在线观看| 日韩女同强女同hd| 丁香五六月婷婷久久激情| 天天干天天干天天操| 日韩欧美在线播放| 国产在线视频二区| 亚洲婷婷在线视频| 欧美偷拍一区二区三区| 97久久超碰国产精品| xxxxx在线观看| 国产日韩精品一区| 91久久久久久久久久久久久久 | 日本欧美韩国一区三区| 三级在线视频观看| 激情成人午夜视频| 年下总裁被打光屁股sp| 99久久伊人精品| 精品一区二区三区蜜桃在线| 日韩理论片在线| 久久亚洲成人av| 亚洲美女精品一区| 日韩黄色精品视频| 色婷婷国产精品综合在线观看| 日韩黄色在线视频| 欧美最猛黑人xxxxx猛交| 一级特黄aaa大片| 精品处破学生在线二十三| а√中文在线资源库| 日韩精品久久久久久久玫瑰园| 老牛影视av牛牛影视av| 亚洲精品日韩丝袜精品| 好吊日视频在线观看| 亚洲欧美一二三| 欧美综合自拍| 日韩欧美一区二区三区久久婷婷| 亚洲日本va| 精品一区二区国产| 五月激情久久久| 欧美日韩精品在线一区二区| 日本一区中文字幕| 国产一级免费片| 99久久国产免费看| 99自拍视频在线| 欧美日韩在线第一页| 国产又粗又猛又黄又爽| 日韩电影中文字幕| 欧洲亚洲在线| 美女扒开尿口让男人操亚洲视频网站| 老司机在线视频二区| 欧美一级片一区| 成人av观看| 99影视tv| 日韩激情毛片| 好吊色视频988gao在线观看| 久久精品1区| 久久国产劲爆∧v内射| 中文字幕日韩一区| 久草网站在线观看| 欧美中文字幕一区二区三区亚洲| 伊人网免费视频| 亚洲精品福利在线| 手机av在线播放| 成人国产精品av| 99ri日韩精品视频| 午夜探花在线观看| 日韩激情av在线| www.51色.com| 中文字幕 久热精品 视频在线 | 美女一区二区在线观看| 一区二区三区国产福利| 老司机午夜精品视频| 理论片大全免费理伦片| 亚洲精品国产无天堂网2021| 三级网站在线播放| 亚洲精品中文字幕女同| h片在线观看视频免费| 国产福利精品在线| 老司机精品视频在线播放| 精品国产一区二区三区无码| 国产一区二区不卡| 日本裸体美女视频| 欧美系列一区二区| seseavlu视频在线| 日韩免费观看在线观看| 无码日韩精品一区二区免费| 黄色www网站| 99r国产精品| 国产精品theporn动漫| 欧美精品一区二区在线播放 | 成人av色网站| 欧美日韩一区二区三| 午夜在线播放视频欧美| 朝桐光av一区二区三区| 国产精品久久久久四虎| 一二三区中文字幕| 久久精品国产精品| 国产精选久久| 日韩国产成人无码av毛片| 丁香亚洲综合激情啪啪综合| 在线免费观看毛片| 亚洲成人三级在线| 在线观看爽视频| 成人免费在线一区二区三区| 欧美精品国产一区二区| 亚洲一区和二区| 黄色91在线观看| 黄色小视频在线观看| 国产精品久久久久久中文字| 97久久夜色精品国产| 黄色片子免费看| 五月婷婷色综合| 国产中文字幕在线观看| 国产精品色视频| 亚洲综合色网| 老司机免费视频| 一本久久a久久精品亚洲| 免费观看成年人视频| 欧美亚洲视频在线看网址| 视频成人永久免费视频| 日韩xxxx视频| 国产三级久久久| 国产裸体永久免费无遮挡| 日韩亚洲欧美成人| 视频在线一区| 国产免费成人在线| www.欧美.com| 伊人成年综合网| 欧美大胆a视频| 免费成人网www| 激情成人在线观看| 欧美日韩午夜剧场| 在线免费看av| 国产福利一区二区三区在线观看| 一区二区三区四区日韩| 欧美一级片黄色| 欧美午夜免费电影| 里番在线播放| 国产精品一区免费观看| 日韩中文字幕av电影| 久草网站在线观看| 国产一区二区三区在线观看视频| 波多视频一区| 亚洲第一综合网站| 91欧美一区二区| 午夜精品久久久久久久99 | 亚洲第一成人网站| 欧美日韩国产专区| 麻豆传媒在线观看| 91中文字幕在线观看| 性欧美暴力猛交另类hd| 国产盗摄x88av| 最近2019中文免费高清视频观看www99 | 成年人在线观看网站|