精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習之父給LLM判死刑!站隊LeCun:我們全搞錯了

人工智能 新聞
當全世界都在狂熱追逐大模型時,強化學習之父、圖靈獎得主Richard Sutton卻直言:大語言模型是「死胡同」。在他看來,真正的智能必須源于經驗學習,而不是模仿人類語言的「預測游戲」。這番話無異于當頭一棒,讓人重新思考:我們追逐的所謂智能,究竟是幻影,還是通向未來的歧路?

在日前參加的一個訪談中,強化學習之父、圖靈獎得主Richard Sutton語出驚人:大語言模型(LLM)是一個錯誤的起點,是一條死胡同。

在Sutton看來,真正的智能源自經驗學習,通過行動、觀察與反饋持續修正行為,實現目標;相比之下,大語言模型的預測能力更多是對人類行為的模仿,它沒有獨立的目標,也無法對外部世界的變化產生真正意義上的驚訝和調整。

他認為,想要真正可擴展的智能,必須從經驗學習出發,而不是把大語言模型當作起點。

這一犀利的觀點,在如今人人追捧的大模型浪潮中,無疑是一劑清醒劑,促使我們從對模型「能力」的狂歡中跳脫出來,重新審視「智能」的本質與基礎。

此次Sutton與國外科技博Dwarkesh Patel的對話非常精彩,充滿了觀點碰撞。訪談內容包括以下7個部分:

  • 大語言模型(LLMs)是死胡同嗎?
  • 人類會進行模仿學習嗎?
  • 經驗時代
  • 現有架構在分布外泛化能力差
  • AI領域的驚喜
  • 「苦澀的教訓」在AGI之后仍然適用嗎?
  • AI的接替

圖片

完整訪談詳見:https://www.dwarkesh.com/p/richard-sutton

學術頭條節選了該訪談的第一部分內容「Are LLMs a dead end?」,在不改變原文大意的前提下,做了一定的編輯。如下:

Dwarkesh Patel:Richard Sutton是強化學習的奠基人之一,也是許多主要技術的發明者,比如時序差分學習和策略梯度方法。憑借這些貢獻,他獲得了今年的圖靈獎——被譽為「計算機科學界的諾貝爾獎」。Richard,恭喜您。

Richard Sutton:謝謝你,Dwarkesh。

Dwarkesh Patel:我的第一個問題是:我和我的聽眾更多是從大語言模型(LLM)的角度來思考人工智能。那么,如果從強化學習(RL)的角度來理解AI,我們可能錯過了什么?

Richard Sutton:這確實是一個非常不同的視角。兩者很容易被割裂開來,失去相互對話的能力。大語言模型如今非常火,生成式AI整體也成了熱門話題。可我們的領域往往容易被潮流帶偏,從而忽視最根本的問題。而我認為,強化學習才是真正的基礎AI。

什么是智能?歸根到底,是對你所處世界的理解。強化學習關注的就是理解世界,而大語言模型更多是在模仿人類,按人類的指令去做。它們并不是在思考「應該做什么」。

Dwarkesh Patel:你可能會認為,要想模仿互聯網上數萬億的文本token,你必須先建立一個世界模型。事實上,這些模型似乎確實展現出了強大的世界建模能力。它們是我們在AI領域迄今為止創造的最好的世界模型,對吧?您認為還缺少什么?

Richard Sutton:我不同意你剛才說的大部分內容。模仿人類語言,并不等于在建立世界模型。那只是在模仿那些擁有世界模型的人類。我并不是想采取對抗的立場,但我想質疑「大語言模型具備世界模型」這個觀點。一個真正的世界模型,應該能預測未來會發生什么。大語言模型能預測某個人會說什么,但沒法預測世界上會發生什么。

借用Alan Turing的話來說,我們真正想要的,是一臺能從經驗中學習的機器。而「經驗」,就是你實際生活中遭遇的事情:你采取行動,觀察結果,并從中學習。而大語言模型學到的卻是另一種模式:給定一個情境,它們學習某個人會怎么做,并隱含地暗示你應該照著那個人的做法去做。

Dwarkesh Patel:不知道您是否認同,我想關鍵點或許在于,有人認為模仿學習能夠為模型提供一種先驗知識,讓它們在進入您所謂的「經驗時代」之前,就已經具備一種合理的解決問題的能力。這樣一來,它們就能在一些情況下給出正確答案,而后續的經驗學習也可以建立在這個基礎上。您認同這種看法嗎?

Richard Sutton:不。我理解這是從大語言模型出發的觀點,但我不認為這是一個好觀點。要成為某事的先驗,必須有一個真實的東西存在。先驗知識應該是實際知識的基礎。什么是實際知識?在大語言模型中,沒有對實際知識的定義。是什么讓一個動作成為一個好的動作?

真正重要的是持續學習。「持續」意味著你必須在與世界的正常交互中不斷學習。而在正常的互動過程中,必須有某種方式來判斷什么是對的。

在大語言模型的設置中,是否存在判斷正確表達的方式?當你發出某種表達時,無法獲得關于正確表達的反饋,因為根本不存在對正確表達的定義。它們是沒有目標的。所以一句話和另一句話沒有對錯之分。沒有什么正確之說。

它沒有ground truth。如果沒有ground truth,就不可能有先驗知識,因為先驗知識本應是關于真相(truth)是什么的提示或初始信念。世間本無絕對真理,亦無絕對正確的言論。在強化學習中,有正確的話語要說,有正確的動作要做,正確的事就是能夠獲得獎勵的事。

我們對正確的事是有定義的,因此可以預先掌握或通過他人獲取關于正確的事的知識。然后我們可以去驗證它,因為我們知道什么是真正正確的事。

舉一個簡單例子:當你嘗試建立世界模型時,你會預測會發生什么,然后觀察結果。這中間存在ground truth。但大語言模型沒有這種ground truth,它們沒法預測接下來真實會發生什么。

比如在一場對話中,大語言模型回復了某句話,它無法預測對方會如何回應,或者回應什么。

Dwarkesh Patel:我認為它們可以。你直接問它們,「你預計用戶可能會有什么回應?」它們會給出一個預測。

Richard Sutton:不,那只是對問題的回答,而不是有意義的預測。它們不會對結果感到驚訝。即便事實和它們所謂的「預測」不符,它們也不會因為發生了意料之外的事情而改變。要學習到這一點,它們必須做出調整。

Dwarkesh Patel:這種能力在某些上下文中確實存在。例如,觀察一個模型進行「思維鏈」(CoT)是很有趣的。假設它正在嘗試解決一個數學問題。它會說:「好吧,我首先要用這種方法來解決這個問題。」它會把這個寫出來,然后說:「哦等等,我剛剛意識到這在概念上是解決問題的錯誤方法。我要用另一種方法重新開始。」

這種靈活性在上下文中是存在的,對吧?您是否另有想法,還是您只是認為需要將這種能力擴展到更大范圍?

Richard Sutton:我只是說,他們根本無法對接下來會發生什么做出任何有意義的預測。他們不會對后續發展感到意外。即使發生變故,他們也不會根據事態發展做出任何調整。

Dwarkesh Patel:這不就是「下一個token預測」(next token prediction)嗎?預測接下來會是什么,然后根據意外情況進行更新?

Richard Sutton:不一樣。下一個token預測的只是它們接下來要說什么,是一種輸出動作,而不是對外部世界的預測。

關鍵還是在于,它們缺乏目標。對我來說,擁有目標是智能的本質。如果一個系統能實現目標,那它就是智能的。我贊同John McCarthy的定義:智能就是達成目標的計算能力。沒有目標,它就只是一個行為系統,沒有特別之處,算不上智能。你同意大語言模型沒有目標嗎?

Dwarkesh Patel:不,它們有目標。

Richard Sutton:目標是什么?

Dwarkesh Patel:下一個token預測。

Richard Sutton:那不是一個目標。它不能改變世界。預測Token,本身不會對token產生影響。

Dwarkesh Patel:是的,我同意。它不是一個關于外部世界的目標。

Richard Sutton:所以,那不是實質性的目標。你不能說,一個只是靜靜預測并因預測準確而滿足的系統,是有目標的。

Dwarkesh Patel:我更想問的是,為什么您認為在大語言模型之上做強化學習不是一個可行的方向?畢竟我們已經能賦予這些模型解決復雜數學問題的目標。

例如, 它們已經能在國際數學奧林匹克競賽(IMO)上拿到金牌,這意味著它們確實在追求「正確解題」這個目標。為什么不能把這種能力擴展到其他領域呢?

Richard Sutton:數學問題是不同的。構建物理世界的模型,與在數學中演繹推理、計算結果,完全是兩回事。經驗世界必須通過交互去學習,需要從結果中得到反饋。而數學更偏向計算,更像是標準的規劃,目標比較清晰:找到證明。某種意義上,它們被賦予了「找到證明」的目標。

Dwarkesh Patel:您在2019年寫了一篇題為《慘痛的教訓》(The Bitter Lesson)的文章,這也許是AI歷史上最具影響力的文章。如今,人們正把它作為擴大大語言模型規模的依據,因為在他們看來,這是我們目前唯一能找到的可擴展方案,就是用海量算力去探索世界。有趣的是,您卻認為大語言模型并沒有真正吸取「苦澀的教訓」。

Richard Sutton:大語言模型是否是「苦澀的教訓」的一個案例,這是一個有趣的問題。它們顯然是一種利用大規模計算的方法,這種計算可以隨著互聯網數據的極限擴展。但它們也是一種融入大量人類知識的方式。這確實是個值得探討的問題——既涉及社會學層面,也關乎產業未來。它們是否會觸及數據極限,最終被那些僅憑經驗而非人類知識就能獲取更多數據的新事物所取代?

在某些方面,這正是「苦澀的教訓」的典型案例。我們向大語言模型輸入的人類知識越多,它們的表現就越出色。這令人欣慰。然而,我期望會出現能夠從經驗中學習的系統。這種系統可以表現得更好,也更具可擴展性。那時,人類知識驅動的系統終將被純粹依靠經驗與計算訓練的系統所取代——這又將成為「苦澀的教訓」的另一例證。

Dwarkesh Patel:在我看來,這好像不是核心分歧。我認為那些人也認同,未來絕大多數的計算將來自從經驗中學習。他們只是認為,支撐這種學習的基礎架構——即為實現未來經驗學習或在職學習而注入計算能力的起點——將是大語言模型。我還是不明白,為什么這根本就是錯誤的起點,為什么我們需要一個全新的架構來開始進行經驗上的、持續的學習?為什么我們不能從大語言模型開始做這件事呢?

Richard Sutton:在每一個「苦澀的教訓」的案例中,你都可以先從人類知識入手,然后再去做那些可擴展的事情。理論上,這并不算錯誤。但實踐中,它幾乎總是行不通。因為人們會被困在人類知識驅動的方法中,很難跳出來。最終,這些方法總會被真正可擴展的途徑超越。

Dwarkesh Patel:那么,真正可擴展的方法是什么?

Richard Sutton:就是從經驗中學習。嘗試各種做法,觀察哪些有效。不需要有人告訴你。前提是,有一個目標,沒有目標,就沒有對錯或好壞之分,而大語言模型試圖在沒有目標或優劣判斷的情況下運作。這就是一個錯誤的起點。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-06-10 11:22:09

強化學習AI模型

2025-09-28 08:58:55

2023-03-27 17:45:16

研究AI

2024-09-29 13:40:00

2024-11-29 16:33:24

2025-05-28 02:25:00

2025-04-21 08:40:00

算力AI模型

2024-08-26 15:21:06

2025-10-11 04:00:00

2025-03-07 09:24:00

2025-06-05 06:36:17

2017-02-20 16:35:10

人工智能算法強化學習

2011-06-02 09:27:28

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2025-09-09 09:09:00

2025-09-11 06:57:11

2022-09-03 18:19:17

Github趨勢

2025-04-18 10:01:41

2025-03-25 09:12:00

LIMAI模型
點贊
收藏

51CTO技術棧公眾號

日本wwwcom| 亚洲最大av网站| 能直接看的av| 国产精品久一| 亚洲国产欧美在线| 欧美激情视频一区二区三区| 精品乱码一区内射人妻无码| 91精品国产91久久综合| 亚洲成人免费在线视频| 性生交免费视频| 伊人福利在线| 久久丝袜美腿综合| 亚洲影影院av| 亚洲av无码精品一区二区| 一区二区三区四区电影| 亚洲欧美日韩网| 中文字幕乱码在线人视频| 欧美极度另类| 亚洲福利视频一区| 日本福利视频导航| 欧美一区二区少妇| 国产东北露脸精品视频| 国产精品久久久精品| 国产无套在线观看| 婷婷亚洲图片| 色系列之999| 3d动漫精品啪啪一区二区下载| 日本精品在线播放| 欧美日韩视频在线第一区| 伊人成色综合网| 欧美6一10sex性hd| 日韩理论在线观看| 水蜜桃亚洲一二三四在线| 午夜视频www| 成人性生交大片免费看视频在线| 国产欧美中文字幕| 一级黄色av片| 久久国产主播| 日韩码欧中文字| 国产精品我不卡| 99国产精品久久久久久久成人 | 亚洲毛片在线免费| 日韩欧美亚洲成人| www.99热这里只有精品| 欧洲一区二区三区| 亚洲欧洲综合另类在线| 天天综合狠狠精品| av中文字幕一区二区三区| 久久久噜噜噜久久中文字幕色伊伊 | 久久久久久久久久久视频| 金瓶狂野欧美性猛交xxxx| 亚洲精品乱码久久久久久黑人| 亚洲一区二区三区涩| 成人不用播放器| 中文字幕欧美激情| 亚洲v国产v| 天天综合视频在线观看| 国产精品每日更新| 一区二区三区国| 欧洲日本在线| 亚洲伦理在线精品| h无码动漫在线观看| 久久99亚洲网美利坚合众国| 亚洲成av人片一区二区| 成人午夜免费在线| 中国色在线日|韩| 色综合色狠狠天天综合色| 韩国一区二区av| 国产成人福利夜色影视| 欧美久久久影院| 日批视频在线看| av日韩精品| 日韩精品久久久久久福利| 爱爱免费小视频| 欧美三级伦理在线| 久久精品福利视频| 欧美精品成人久久| 国产日韩综合| 国产精品久久久久久久久免费看| 亚洲香蕉在线视频| 国产精品一区不卡| 国产一区二区高清视频| 免费一级在线观看| 亚洲欧洲无码一区二区三区| 免费看日b视频| 亚洲精品一区| 制服.丝袜.亚洲.中文.综合| 免费观看一区二区三区| 亚洲三级网页| 欧美成年人在线观看| 国产无遮无挡120秒| 日本午夜精品一区二区三区电影| 亚洲一区二区日本| 桃花色综合影院| 亚洲图片激情小说| 欧美色图色综合| 亚洲青青久久| 日韩精品在线观看网站| 熟女少妇a性色生活片毛片| 亚洲黄色毛片| 国产欧美日韩综合精品| 无码精品在线观看| 亚洲天天做日日做天天谢日日欢| 999在线观看视频| a屁视频一区二区三区四区| 精品99999| 天天色天天综合| 免费欧美日韩| 97碰碰视频| jizz亚洲| 狠狠躁夜夜躁人人爽超碰91| 在线视频日韩欧美| 成人情趣视频网站| 97超视频免费观看| 中文字幕久久熟女蜜桃| 不卡的av电影| 国产91视频一区| 欧美久久久网站| 亚洲精品中文字幕有码专区| 久久午夜无码鲁丝片| 麻豆传媒一区二区三区| 区一区二区三区中文字幕| 都市激情久久综合| 日韩视频永久免费| 登山的目的在线| 日韩—二三区免费观看av| 激情欧美一区二区三区中文字幕| 男人资源在线播放| 欧美视频一区二区三区| 欧美成人午夜精品免费| 在线欧美福利| 99在线视频播放| 超鹏97在线| 欧美精品vⅰdeose4hd| 9.1成人看片免费版| 国产欧美日本| 国产尤物99| 丁香花高清在线观看完整版| 日韩一区二区三区三四区视频在线观看 | 91专区在线观看| 一区二区在线视频观看| 欧美成人精品在线播放| 国产黄a三级三级看三级| 国产精品久久久久久久久免费相片 | 三级福利片在线观看| 宅男噜噜噜66一区二区66| 后入内射无码人妻一区| 美女一区二区久久| 一级二级三级欧美| 亚洲三级电影| 米奇精品一区二区三区在线观看| 中文字幕一区二区三区免费看| 欧美国产精品一区二区| www.涩涩涩| 欧美xxxx中国| 亚洲最大福利网站| 色婷婷在线播放| 亚洲第一区第一页| 久热这里只有精品6| 久久久久国产精品人| 久久黄色免费看| 日韩av免费大片| 成人伊人精品色xxxx视频| 国产秀色在线www免费观看| 91精品欧美一区二区三区综合在| 欧美三根一起进三p| 国产69精品久久99不卡| 国内精品在线观看视频| 久久99国产精品视频| 国产精品美女免费看| 精品国产丝袜高跟鞋| 日韩欧美在线不卡| 一区二区三区视频免费看| 久久久久久99久久久精品网站| 国产一线二线三线在线观看| 欧美va久久久噜噜噜久久| 91精品久久久久久蜜桃| 成人在线黄色电影| 在线观看日韩专区| 精品人妻无码一区二区| 同产精品九九九| www.99热| 国产91精品精华液一区二区三区| 男人日女人bb视频| 999成人网| 国外成人免费视频| 国产精品黄色片| 欧美激情一区二区三区高清视频| 韩国免费在线视频| 欧美一区二区三区四区在线观看| 女人十八岁毛片| 亚洲同性gay激情无套| 99re久久精品国产| 久久97超碰国产精品超碰| 久久这里只有精品18| 国产亚洲精品美女久久久久久久久久| 91色琪琪电影亚洲精品久久| 黄色软件视频在线观看| 俺去啦;欧美日韩| 欧美亚洲日本| 欧美xxxx老人做受| 在线视频精品免费| 天天av天天翘天天综合网 | 欧洲中文字幕国产精品| 成人国产免费电影| 亚洲区中文字幕| 蜜桃视频在线观看www| 欧美福利电影网| 中文字幕在线欧美| 亚洲一线二线三线视频| 貂蝉被到爽流白浆在线观看| 91丨porny丨在线| 欧美成人手机在线视频| 美女视频一区免费观看| www.夜夜爱| 欧美在线视屏| 在线观看成人一级片| 欧美美女在线观看| 国产一区二区三区四区五区加勒比| 2020国产精品小视频| 日本老师69xxx| 久草在线资源站手机版| 欧美日韩福利电影| 麻豆tv入口在线看| 在线视频一区二区| 成a人片在线观看www视频| 日韩精品免费一线在线观看| 亚洲狼人综合网| 6080yy午夜一二三区久久| 亚洲视屏在线观看| 色婷婷精品大在线视频| 欧美一区二区激情视频| 亚洲成人精品一区二区| 精品爆乳一区二区三区无码av| 亚洲婷婷综合久久一本伊一区| 国产一区在线观看免费| 亚洲国产精品成人久久综合一区| 亚洲熟妇无码av| 久久尤物电影视频在线观看| 永久免费看mv网站入口78| 99久久婷婷国产| 在线天堂www在线国语对白| 成人妖精视频yjsp地址| 91视频在线免费| 成人黄色大片在线观看 | 一区二区三区在线观看动漫| 久久精品一区二区三区四区五区 | 亚洲欧美在线第一页| 手机看片福利在线观看| 亚洲精品wwwww| 亚洲av成人无码网天堂| 亚洲欧美日韩精品久久奇米色影视| 日韩私人影院| 亚洲天堂网站在线观看视频| 国产高清视频免费最新在线| 伊人精品在线观看| www.视频在线.com| 久久久91精品| 欧美xxxx性xxxxx高清| 国外色69视频在线观看| 日本不良网站在线观看| 情事1991在线| 天堂综合在线播放| 99se婷婷在线视频观看| www.丝袜精品| 欧美精品一区二区视频| 日韩在线观看电影完整版高清免费悬疑悬疑| 亚洲图片欧洲图片日韩av| 亚洲情侣在线| 欧美,日韩,国产在线| 校园激情久久| 亚洲视频第二页| 国产99久久久久| 欧美精品黑人猛交高潮| 国产精品三级视频| 国产高清在线免费观看| 欧美日韩国产精品一区二区三区四区 | 中文字幕精品无| 在线播放91灌醉迷j高跟美女 | 欧美日韩福利电影| 在线成人av观看| 成人淫片在线看| 欧美黄色影院| 日本三级福利片| 国产亚洲精品v| 亚洲怡红院在线| 91在线免费视频观看| 麻豆视频免费在线播放| 亚洲一二三四久久| 欧美特级黄色片| 日韩视频在线永久播放| 国产成人天天5g影院在线观看| 久久久999成人| 国产一二在线播放| 国产原创欧美精品| xxxx日韩| 一区中文字幕在线观看| 国产精品五区| 91porn在线| 国产精品三级在线观看| 国产成人无码一区二区三区在线| 欧美日韩久久久久久| 天天爱天天干天天操| 久久久精品中文字幕| 偷拍精品精品一区二区三区| 99r国产精品视频| 99久久婷婷国产综合精品电影√| 亚洲 自拍 另类小说综合图区 | 中国黄色a级片| 亚洲欧美成人一区二区三区| 中文字幕一区二区三区四区欧美| 精品久久久久久无| 国产精品久久麻豆| 国产成人精品国内自产拍免费看| 97久久综合精品久久久综合| 伊人久久大香线蕉精品| 免费国产自线拍一欧美视频| 蜜臀视频在线观看| 18成人在线视频| 中文字幕 欧美激情| 日韩高清中文字幕| free性欧美| 成人欧美视频在线| 亚洲综合专区| 午夜av中文字幕| 中文字幕一区二区三| 免费看av在线| 亚洲视频在线看| 另类专区亚洲| 牛人盗摄一区二区三区视频| 亚洲麻豆av| 日韩精品一区二区三区高清免费| 亚洲精品欧美综合四区| 国产日韩一级片| 久久五月情影视| 四虎国产精品成人免费影视| 亚洲第一在线综合在线| 日韩福利视频网| 东京热无码av男人的天堂| 欧美中文字幕一区二区三区| 国产人成在线视频| 国产精品高潮呻吟久久av黑人| 精品福利久久久| mm1313亚洲国产精品无码试看| 久久免费视频色| 7799精品视频天天看| 亚洲男人天天操| 日日av拍夜夜添久久免费| 日韩高清av电影| 蜜桃传媒麻豆第一区在线观看| 久久午夜精品视频| 欧美日韩国产高清一区二区三区 | 黄色一级大片在线免费看国产一 | 四虎国产精品免费久久5151| 在线日韩av永久免费观看| 韩国av一区二区三区在线观看| 日韩三级久久久| 日韩精品中文字幕一区二区三区| 丰满大乳少妇在线观看网站| 久精品国产欧美| 日本一不卡视频| 国产黄在线免费观看| 欧美白人最猛性xxxxx69交| а√天堂中文资源在线bt| 久久久久久久有限公司| 首页综合国产亚洲丝袜| 久久久久麻豆v国产| 日韩欧美123| 日韩av影片| 一本一道久久久a久久久精品91| 国产在线精品免费av| 国产在线观看你懂的| 亚洲欧美日韩在线一区| 在线日韩三级| 男人天堂a在线| 国产三级精品在线| 国产一区二区在线不卡| 欧美激情亚洲国产| 亚洲区小说区图片区qvod| 鲁一鲁一鲁一鲁一av| 亚洲最新在线观看| 国产黄色片在线观看| 亚洲专区国产精品| 国产日韩专区| 国产精品夜夜夜爽阿娇| 亚洲精品福利资源站| 精品福利在线| 国产96在线 | 亚洲| 国产精品乱人伦| 婷婷色在线视频| 成人观看高清在线观看免费| 国产欧美一区二区三区国产幕精品| 亚洲激情图片网| 亚洲国产精品专区久久| 不卡亚洲精品| 日本a视频在线观看| 国产精品第一页第二页第三页| 男人天堂手机在线观看| 国产中文字幕亚洲| 亚洲综合99|