精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

五年白領下崗,AGI靠RL一飛沖天?網友:這是讓狗學會打麻將!

人工智能 新聞
只靠強化學習,AGI就能實現?Claude-4核心成員放話「5年內AI干掉白領」,卻被Karpathy等聯手潑冷水!持續學習真的可能嗎?RL的真正邊界、下一代智能的關鍵轉折點到底在哪兒?

只靠強化學習,AGI就能實現?

「到2030年,不靠算法創新,只要繼續收集數據,針對性訓練,就能實現AGI。」

最近,這一關于AGI的未來道路的觀點,引起了熱議。

這還要從Darkesh Patel主持的播客節目說起。

在上月的節目中,Claude 4核心成員Sholto Douglas和Trenton Bricken認為強化學習就足以實現AGI,5年內AI就能勝任白領工作。

即使人工智能的發展完全停滯,但收集不同的白領工作任務的數據足夠容易,因此我們預計在未來五年內將看到它們實現自動化。

事后,主持人Darkesh Patel覺得事情沒那么容易。

圖片

他認為目前算法并不成熟,AGI要更晚才會到來。

圖片

最大的問題在于:隨著時間流逝,LLM不會像人類一樣變得更好。

它們無法進行持續學習。工程師能做的就是不斷修改系統提示詞,但這遠遠不及人類能通過反饋、積累經驗和自我糾錯而持續進步。即便是RL微調也無法提供人類那種有機、不斷適應的學習體驗。

Darkesh Patel的系列推文引起了Karpathy的注意。

Karpathy同意當前的LLM能力不足,無法持續學習,無法保存學習到的經驗和知識,就像人失憶一樣。

圖片

Ai2的后訓練負責人、「強化學習傳人」Nathan Lambert,也回應了Darkesh Patel的觀點。

圖片

他認為在LLM中,強化學習確實已經取得突破,而之后還有三個值得探索的方向:Scaling強化學習、稀疏獎勵和持續學習。

圖片

強化學習下一步

如何將當前可驗證獎勵強化學習(reinforcement learning with verifiable rewards,RLVR)擴展到下一代語言模型?

甚至擴展到通用人工智能(AGI)或超級人工智能(ASI)?

即便我們真希望如此,但最樂觀的設想也有一個前提:RL是否具備解決更高難度任務的能力。

目前的訓練方法在處理數學或編程問題時,每個答案通常生成1萬到10萬個token。而設想的下一代RL訓練中,單個答案可能需要生成100萬到1億個token。

這意味著每次訓練要整合多個推理調用、提示以及與環境的多輪交互,納入到統一的學習回合(Episode)中,并據此更新策略。

然而,RL能否適用于新領域,目前遠不像它在現有訓練機制中那樣明確。

在現有方法中,模型只需完成一次任務,例如解決一道編程題、算出一個數學答案或完成一次信息檢索,就能根據表現獲得獎勵。

但RL并不能「魔法般」地讓我們訓練出能優化整個代碼庫、開展現實世界科學實驗或制定復雜策略的語言模型。要實現這些目標,仍需重大的技術突破和基礎設施的升級。

因此,當我們說「Scaling RL是提升語言模型性能的最短路徑」時,真正的含義是

繼續沿用當前模型的擴展方法,而不是一下子進軍全新的復雜應用領域。

這種「超長回合」的強化學習,與「持續學習」(Continual Learning)的理念密切相關——

也就是語言模型與現實世界不斷交互,持續進步。

從結構上看,擴大RL訓練規模很可能是未來發展的前沿方向,但目前還不確定的是:要擴展的這些新任務,是否在訓練效果上具有本質上的不同。

以下三個相關方向,依舊值得展開討論:

  • 推理中繼續擴展RL——也就是在不依賴重大算法創新的前提下,繼續在數據規模和應用領域上擴展當前的RLVR技術。
  • 將RL應用于反饋稀疏的任務——例如那些需要數小時甚至數天才能獲得反饋的科學研究或機器人任務。隨著傳統領域的訓練逐漸飽和,AI實驗室的研究重點自然會轉向這些方向。
  • 實現語言模型的持續學習——即模型根據實際使用情況不斷更新參數,而不是一旦訓練完畢就固定權重,進入只負責推理的靜態狀態。

推理任務中繼續擴展RL

從建模的角度來看,隨著預訓練與后訓練方法的演化,未來的趨勢可能是:

預訓練進一步降低,而后訓練的強化學習(RL)階段將顯著延長。

更長的RL訓練周期,自然呈現出類似「持續學習」(Continual Learning)的特征:訓練可以從某個中間階段的RL檢查點繼續,執行偏好對齊與安全性相關的后訓練,最終產出可直接部署給用戶的模型。

不過需要指出的是,這并不是嚴格意義上的「持續學習」。它更多意味著:

模型的發布將更加頻繁,每次訓練的周期也更長。

對于訓練團隊而言,這是重要的轉變。

過去,只有在預訓練完全結束后,才能啟動后訓練,最后評估模型的性能。比如說,GPT-4或GPT-4.5(又稱Orion),這些模型通常需要大量后訓練來「馴服」預訓練模型,但性能難以預測,完成時間也具有高度不確定性。

可預見的是,未來幾年整個行業將進入以RL擴展為核心、強調持續優化的迭代模式,整體上類似「持續學習」。

在Dwarkesh Patel看來,真正的「持續學習」應更像人類「活到老,學到老」。也就是說,模型能夠從經驗中學習、調整參數,從而在特定任務上不斷改進

「從失敗中學習」的機制,是當前智能系統所缺失的一塊核心拼圖。

畢竟,人類之所以特別,就在于我們具備極強的適應能力,并能從反饋中迅速成長。

與此相關,Arc Prize組織也提出了另一種衡量智能的方式: 他們稱之為「技能獲取效率」(skill acquisition efficiency)。

無論是實現Dwarkesh所設想的「持續學習」,還是提升「技能獲取效率」,要在這兩個方向取得實質進展,都極其困難。

相比之下,像「推理時擴展」(inference-time scaling)這樣的方式則更容易實現和理解。

所謂「推理時擴展」,本質上是進一步放大思維鏈提示(CoT prompting)方法。在訓練與應用階段加大力度,它可以將模型性能提升10倍甚至100倍

但要真正實現「持續學習」——尤其是在模型規模不斷擴大、應用場景日益復雜的背景下

——則需要顛覆性的科學突破。 這種突破,往往具有極高的不確定性。

我們確實可以通過更高效的編程系統,持續優化當前模型體系。 但要實現更智能的目標,仍離不開人類的創造力與開放式研究的推動

稀疏強化學習擴展中的難題

如前所述,當前業界正積極探索:

將現有的強化學習(RL)機制與可驗證獎勵機制結合,并不斷擴大應用范圍。

在這種模式下,模型發布頻率更高,可以更頻繁地交付更新版本。 由于開發重心正逐漸轉向后訓練階段,模型的迭代優化也變得更加自然和高效。

但在另一個極端,我們也談到過——

若試圖在現有語言模型的基礎上,構建真正意義上的「持續學習」系統, 本質上,是一種高度不確定性的嘗試。

而介于這兩者之間的方向,即:

嘗試將RL應用于反饋稀疏、評估周期較長的任務領域,前景更具爭議  。

從個人角度,對此Nathan Lambert持略為悲觀的態度。

原因在于,這類研究路徑在實踐中,越來越像復雜機器人系統的研究。而在機器人領域,端到端的強化學習,并不是當前公認的最佳方案。

這一事實提醒我們:將RL拓展到稀疏反饋領域時,必須格外謹慎,不能盲目套用已有的訓練范式。

真需要「持續學習」嗎?

AI應該像人一樣,能在互動之后獲得永久性的成長

這個愿景雖然美好,但也暗藏隱患,甚至帶有某種危險。

事實上,當前實現「持續學習」的最接近方式,其實是推薦系統。

很多人驚嘆推薦系統能在短短幾分鐘內精準捕捉到個人興趣,這其實就是通過用戶交互進行的即時學習

但想象一下,如果這種能力被賦予超強理解力的AI模型,并且背后的交互反饋機制又被某家公司所掌控,那將帶來一系列令人不安的后果。

其實,也有一些更穩妥的替代方案

比如說,雖然ChatGPT當前的「記憶」功能還不完美,但它已經可以根據你過往的糾正,避免重復犯錯

這種基于歷史對話記錄的記憶機制,雖然沒有更新模型權重,但在體驗上,其實已接近「持續學習」。

如果覺得還不夠強,那我們可以繼續等待技術成熟:

讓本地模型邊用邊學,真正實現私有化的持續進化。

這些路徑雖然發展更慢,卻能顯著降低「超級偏見AI」的風險

在這場討論中,有一個詞其實更容易被大眾接受——「個性化」。

相比之下,「持續學習」這個提法,更有利于AI巨頭。 因為他們可以從每一位用戶的交互中提取數據、反哺模型。但對這些AI實驗室而言,真正的個性化其實和他們的戰略相悖。

他們更傾向于:用少數幾個通用模型,服務成千上萬的用戶

而如果開源模型能持續進步,或許真的能迎來「個性化」時代—— 每個人都擁有屬于自己的專屬AI。

圖靈獎得主

從經驗中學習

早在1993年,2024年度圖靈獎得主Richard Sutton就寫下這樣一段話:

我從智能體(agent)與環境之間的互動關系起步,因為目標的設定、選擇以及信息的獲取,都是基于這種互動。

可以說,這種互動是唯一真實存在的事物,我們對世界的所有理解正是由此而來。

圖片

他的核心觀點是,智能的本質,是智能體與環境之間的直接交互體驗——即來回傳遞的信號。

從邏輯上講,這幾乎是不證自明的:智能體的智能只能通過它的行為展現出來,而這種行為的好壞又只能通過對環境反饋的影響來評估。

所謂「了解環境」,對智能體而言,其實就是了解這些交互造成的效果。

智能體所感知的一切世界,其實都來自自身不斷接收到的經驗流。

不管如何抽象世界,例如物體、物理規則或其他智能體等復雜概念,對于一個智能體來說,這些不過是經驗中反復出現的模式。經驗流構成了智能體全部的輸入和輸出,它的智能行為正是在對這些經驗的理解和處理中顯現出來。

這一看似顯而易見卻頗具顛覆性的思想,正是他研究生涯的出發點。

他認為隨著主流AI范式演變,人類將進入「體驗時代」。

圖片

圖1:主流AI范式的演變時間簡圖。縱軸表示整個領域中用于強化學習(RL)的研究精力和計算資源的大致比例

體驗時代的到來標志著AI的關鍵轉折。

在已有的堅實基礎上,智能體將突破「人類衍生數據」的局限。

它們將更多依靠自身與世界的互動進行學習。通過觀察和行動,智能體能主動與環境交流。在持續終身的體驗中,它們不斷適應和進化。它們的目標可以設定為任何基于現實信號的組合。

借助超過人類的推理能力,智能體能規劃決策,用行動影響環境。隨著體驗數據的積累,規模與質量最終將超過人類生成的數據。

這種范式轉變,結合強化學習的進步,將催生許多超越人類極限的新能力。

責任編輯:張燕妮 來源: 新智元
相關推薦

2015-10-14 22:26:04

阿里云云棲大會飛天

2018-05-29 13:55:21

2024-03-14 09:46:42

算法檢測

2014-03-20 17:27:45

百會CRM

2024-01-24 13:15:00

Redis分布式鎖SpringBoot

2018-07-25 09:52:42

2024-09-25 15:02:47

2015-09-18 09:29:21

2019-03-13 09:51:56

AI人工智能打麻將

2022-12-05 13:58:36

2018-12-24 10:04:32

區塊鏈數據存儲分布式記賬

2019-04-15 14:52:02

2020-05-21 12:15:35

機器狗人工智能波士頓

2014-12-17 10:15:55

喬布斯電影

2011-09-09 09:09:16

LBS應用

2010-05-10 10:32:42

白領年齡

2020-01-17 06:02:46

技術開發AI

2017-02-23 10:42:39

2025-11-19 09:16:25

點贊
收藏

51CTO技術棧公眾號

国自产精品手机在线观看视频| 欧美高清dvd| 女同一区二区| 一区二区视频播放| 伊人久久大香线| 亚洲国产天堂久久国产91 | 欧美成人高清| 亚洲精品一区二区久| 午夜一级免费视频| 中文av在线全新| 亚洲女厕所小便bbb| 国产欧美一区二区视频| 一区二区三区日| 中文亚洲欧美| 日韩视频免费看| 大地资源二中文在线影视观看| 日本亚洲欧洲无免费码在线| 亚洲v精品v日韩v欧美v专区 | 国产一区欧美| 中文欧美在线视频| 色天使在线视频| 精品视频一区二区三区在线观看| 欧美性xxxx在线播放| 中国一级黄色录像| 国产在线播放av| 不卡一区在线观看| 亚洲r级在线观看| 国产视频91在线| 中文字幕午夜精品一区二区三区| 亚洲人成网7777777国产| 波多野结衣三级视频| 日本成人一区二区| 在线看国产日韩| 国产白丝袜美女久久久久| a毛片在线看免费观看| 国产欧美日韩三级| 欧美日韩成人一区二区三区 | xxxx.国产| 国产精品草草| 操人视频在线观看欧美| 91免费在线看片| 国产一区二区区别| 亚洲开心激情网| av2014天堂网| 成人在线视频你懂的| 91精品国产91久久综合桃花| 天天干天天玩天天操| 亚洲综合av一区二区三区| 色先锋aa成人| 国产精品天天av精麻传媒| 日韩性xxx| 91国产福利在线| 手机看片福利盒子久久| 日韩三区在线| 欧美日韩精品电影| 欧美一级特黄aaa| 国产精品毛片aⅴ一区二区三区| 欧美日韩卡一卡二| 免费av不卡在线| 伊人亚洲精品| 日韩一区二区电影网| 黄页网站在线看| 成人爽a毛片| 日韩精品中文在线观看| 亚洲做受高潮无遮挡| 国产一区99| 精品国内产的精品视频在线观看| 美女三级黄色片| 欧美一区高清| 97**国产露脸精品国产| 久久夜色精品国产噜噜亚洲av| 丝袜美腿亚洲一区| 国产日韩专区在线| 亚洲黄色a级片| 99精品在线免费| 日韩中文字幕一区| 黄色av电影在线播放| 亚洲综合清纯丝袜自拍| 精品视频免费在线播放| a∨色狠狠一区二区三区| 91精品福利在线一区二区三区| 4438x全国最大成人| 国产欧美三级电影| 国产一区二区三区中文| 欧美特黄一级片| 在线精品观看| 国产精品高潮呻吟久久av野狼 | 亚洲国产高潮在线观看| 久久久久久久久久久久| 亚洲天天影视网| 欧美中文在线免费| 97人妻一区二区精品免费视频| 国产成人精品免费在线| 奇米888一区二区三区| dy888亚洲精品一区二区三区| 五月天激情综合| 天天综合网久久| 奇米777国产一区国产二区| 欲色天天网综合久久| 久久中文字幕无码| 免费看精品久久片| 国产欧美日韩综合一区在线观看 | 欧美伦理91i| 久草视频一区二区| 国产传媒日韩欧美成人| 日韩精彩视频| av资源在线| 7777精品伊人久久久大香线蕉完整版 | 日韩高清免费在线| 久久久久久久久久网站| 日韩av在线发布| 国产视频在线观看一区| 成人在线免费看片| 色欧美日韩亚洲| 91九色蝌蚪porny| 99热国内精品永久免费观看| 热99精品里视频精品| www.四虎在线观看| 国产精品久久毛片av大全日韩| 国产婷婷一区二区三区| 免费精品一区| 久久精品亚洲国产| 中文字幕在线播放日韩| 91丨九色丨黑人外教| 激情六月天婷婷| 99亚洲男女激情在线观看| 亚洲欧洲国产一区| 欧美一级特黄视频| 99久久久久免费精品国产| 欧美在线观看视频免费| 国产一区一区| 久久亚洲电影天堂| 伊人22222| 日本一区二区三区高清不卡 | 久久成人国产精品入口| 九一九一国产精品| 亚洲欧美电影在线观看| 国模冰冰炮一区二区| 亚洲精品福利在线观看| 国产黄色片视频| 成人免费视频网站在线观看| 一二三四中文字幕| 精品午夜视频| 欧美成人久久久| 欧美激情精品久久久久久大尺度| 日本黄大片一区二区三区| 神马香蕉久久| 538国产精品一区二区免费视频| 狠狠躁日日躁夜夜躁av| 亚洲一级二级三级| 久久性爱视频网站| 这里只有精品国产| 国产精品网站入口| 亚洲精品自在在线观看| 欧美极品影院| 在线观看精品国产视频| 波多野结衣激情视频| 国产片一区二区| 五月天亚洲视频| 日韩中字在线| 91九色视频在线| 黄色动漫在线观看| 欧美tk丨vk视频| 精品成人免费视频| 久久久久久99久久久精品网站| 粉嫩虎白女毛片人体| 成人高清av| 亚洲a∨日韩av高清在线观看| 黄色网在线免费看| 精品国产乱码久久久久久免费 | 欧美日韩精品免费观看视频完整| 97操在线视频| 欧美三级网站| 在线视频日本亚洲性| 国产免费高清av| 亚洲成年人影院| 中文字幕成人动漫| 韩国一区二区三区| 国产毛片久久久久久国产毛片| 日韩美女精品| 国产伦精品免费视频| 91看片在线观看| 日韩精品一区二区三区视频| 青青草成人av| 最新热久久免费视频| 国产综合内射日韩久| 久久精品官网| 色哺乳xxxxhd奶水米仓惠香| 极品国产人妖chinesets亚洲人妖| 日本一区二区三区四区视频| 韩国av网站在线| 亚洲精品www久久久| 中文字幕一区2区3区| 亚洲一区二区在线观看视频 | 欧美国产一级| 狠狠色噜噜狠狠色综合久| 电影一区二区| 午夜精品www| 黄在线免费观看| 亚洲第一中文字幕| 亚洲综合五月天婷婷丁香| 午夜精彩视频在线观看不卡| 亚洲a∨无码无在线观看| 91天堂素人约啪| 性生活一级大片| 日本人妖一区二区| 欧美人成在线观看| 日韩综合网站| 免费日韩av电影| 亚洲精品一二三**| 91精品久久久久久久久久入口 | 国产精品视频免费一区二区三区| 欧美国产日韩电影| 日本精品视频网站| 第一av在线| 久久精品国产免费观看| 国产乱理伦片a级在线观看| 亚洲第一天堂av| 国产av无码专区亚洲a∨毛片| 欧美亚洲国产一区二区三区| 国产成人无码精品久在线观看| 亚洲美女淫视频| 免费在线观看a级片| 国产午夜精品福利| 法国伦理少妇愉情| 成人国产精品免费| av在线天堂网| 国产乱淫av一区二区三区| 婷婷免费在线观看| 日韩av电影天堂| 国产欧美高清在线| 亚洲在线日韩| 每日在线更新av| 亚洲乱码视频| 99色这里只有精品| 女主播福利一区| aaa免费在线观看| 国产精品99在线观看| 视频在线一区二区三区| 国产一区二区三区91| 久久综合中文色婷婷| 任你躁在线精品免费| 久久国产精品高清| 日韩黄色网络| 欧美日韩在线不卡一区| 亚洲动漫精品| 日韩在线国产| 久久国产亚洲精品| 在线综合视频网站| 91成人国产| 2022中文字幕| 国产精品久久| 黄色大片在线免费看| 国产日韩欧美高清免费| 国产h视频在线播放| 天堂影院一区二区| 九九热免费精品视频| 久久成人18免费观看| 污污的视频免费| 国产精品一区二区在线看| 中文字幕乱妇无码av在线| 国产盗摄视频一区二区三区| 色哟哟网站在线观看| 9人人澡人人爽人人精品| 亚洲av无码成人精品国产| 国产欧美一区二区三区在线看蜜臀| 久久精品三级视频| 亚洲视频网在线直播| 久久免费精彩视频| 狠狠躁18三区二区一区| 香蕉污视频在线观看| 欧美精品777| 亚洲第九十九页| 亚洲女成人图区| 色的视频在线免费看| 欧美国产乱视频| 日本综合字幕| 亚洲伊人久久大香线蕉av| 久久a级毛片毛片免费观看| 免费不卡亚洲欧美| 91欧美日韩| 男人用嘴添女人下身免费视频| 老司机午夜精品视频| 亚洲一区二区偷拍| 92精品国产成人观看免费| 国产毛片欧美毛片久久久| 亚洲欧美日韩国产手机在线| 国产精品自拍99| 88在线观看91蜜桃国自产| 亚洲三级中文字幕| 日韩小视频在线| 欧美男人天堂| 91日韩在线播放| 中文字幕中文字幕精品| 精品日韩在线播放| 噜噜爱69成人精品| 亚洲性图第一页| 欧美—级在线免费片| 亚洲国产综合久久| 欧美日韩中文一区| 丝袜视频国产在线播放| 久久亚洲精品网站| 欧美精品高清| 精品乱码一区二区三区| 综合久久婷婷| 国产精品久久a| 91社区在线播放| 久久久久久久久久综合| 欧美日韩国产一级| 视频午夜在线| 国内成人精品视频| 精品中文在线| 亚洲精品一区二区三区四区五区| 亚洲国产专区校园欧美| 图片区乱熟图片区亚洲| 欧美韩日一区二区三区| 狠狠躁夜夜躁人人爽天天高潮| 91精品国产综合久久久久久久 | 精品视频9999| 国产精品无码久久久久| 免费av在线一区二区| 亚洲免费激情| 中文在线字幕观看| 亚洲卡通动漫在线| 国产又粗又猛又爽又黄的| 国产亚洲免费的视频看| 久久男人天堂| 国产亚洲二区| 亚洲高清不卡| 人妻换人妻a片爽麻豆| 亚洲乱码中文字幕| 97精品人妻一区二区三区| 中文字幕欧美国内| 99只有精品| 亚洲区一区二区三区| 日本少妇一区二区| 欧美人妻一区二区三区| 91久久精品国产91性色tv | 久久久不卡影院| 69视频免费在线观看| 国产视频久久久久| 高清电影一区| 午夜精品电影在线观看| 日本美女一区二区| 欧美一区二区三区粗大| 欧美图片一区二区三区| av在线播放网| 成人黄色影片在线| 91亚洲一区| 乳色吐息在线观看| 一区av在线播放| 欧美自拍偷拍一区二区| 97久久久久久| 免费电影一区二区三区| 亚洲视频在线a| 国产精品的网站| 国产成人三级一区二区在线观看一| 久久精品国产亚洲7777| 欧美视频二区欧美影视| 美女黄色免费看| 成人免费高清视频在线观看| 激情五月色婷婷| 伊人一区二区三区久久精品 | 久久免费高清| 永久免费av无码网站性色av| 欧美美女视频在线观看| 日韩免费影院| 久久久久一区二区| 日本va欧美va欧美va精品| 精品一区在线观看视频| 亚洲第一网站男人都懂| 欧美日韩大片| 懂色av粉嫩av蜜臀av| aaa国产一区| 一级黄色免费看| 欧美高清一级大片| 免费精品国产的网站免费观看| 欧美午夜aaaaaa免费视频| 亚洲狼人国产精品| 欧美扣逼视频| 亚洲综合中文字幕在线观看| 一区二区日本视频| 国产精品suv一区二区88| 精品国产1区二区| 欧美性xxx| 欧美xxxx吸乳| 久久色在线视频| av在线免费在线观看| 欧美在线视频免费播放| 亚洲天堂免费| 在线观看免费小视频| 欧美sm美女调教| 粉嫩av一区二区三区四区五区| 欧美视频在线观看视频| 中文字幕成人av| 午夜小视频免费| 亚洲在线观看视频网站| 日本欧美加勒比视频| 日本在线视频免费| 美日韩精品免费视频|