精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習的“GPT-3 時刻”即將到來

人工智能
當前的 RL 數據集相對較小。例如,DeepSeek-R1 在大約 60 萬個數學問題上進行了訓練,這相當于人類連續努力六年的工作量(假設每個任務耗時五分鐘完成)。相比之下,重建 GPT-3 那包含 3000 億 token 的訓練語料庫,若按人類平均書寫速度計算,需要大約數萬年的寫作時間。

強化學習能否像 GPT-3 改變自然語言處理那樣,通過大規模擴展實現質的飛躍?為什么強化學習至今仍困在“先預訓練,再微調”的傳統模式中?為什么即使是最先進的 RL 模型,一旦脫離訓練環境就變得如此脆弱?

無論是自動駕駛、機器人控制,還是復雜系統優化,我們都需要能夠快速適應新任務、具備真正泛化能力的智能體。然而當前的 RL 模型就像是“高分低能”的應試選手 —— 在熟悉的測試環境中表現優異,但面對真實世界的復雜性時卻束手無策。

本文提出了 replication training 范式,為強化學習的規模化擴展指明了全新方向。作者不再拘泥于傳統的游戲環境或仿真場景,而是大膽提議讓 AI 復制現有的軟件產品。它利用了互聯網上豐富的軟件資源,提供了客觀明確的評估標準,同時訓練了 AI 在長周期項目中保持穩定輸出的能力。

GPT-3 證明了,僅僅通過擴大語言模型的規模,就能帶來強大的、task-agnostic(譯者注:模型不依賴特定任務的設計或微調,就能處理多種不同類型的任務。)、few-shot(譯者注:模型僅需極少量示例,就能快速理解并執行新任務。)的性能,其表現通常優于經過精心微調的模型。在 GPT-3 出現之前,要達到最先進的性能,首先需要在大型通用文本語料庫上對模型進行預訓練,然后再針對特定任務進行微調。

如今的強化學習同樣困在類似 GPT-3 之前的范式里。我們首先是對大模型進行預訓練,然后在高度專業化的環境中,對特定任務進行精細的微調。但這種方法的根本局限在于:由此獲得的能力難以泛化,導致性能“脆弱”(brittle performance) —— 模型一旦脫離訓練期間接觸的精確語境,性能便會迅速退化。

image.pngimage.png

我們認為強化學習(RL)即將迎來其“GPT-3 時刻”。相比在有限數量的訓練場景或任務設置上微調模型,我們預計該領域將轉向在數千個多樣化環境上進行大規模訓練。有效實施這一做法將催生出具有 few-shot、task-agnostic 能力的 RL 模型,能夠快速適應全新的任務。但實現這一點需要訓練環境在規模和多樣性上遠超當前任何的可用資源。

究竟需要多少 RL 資源?

當前的 RL 數據集相對較小。例如,DeepSeek-R1 在大約 60 萬個數學問題上進行了訓練,這相當于人類連續努力六年的工作量(假設每個任務耗時五分鐘完成)。相比之下,重建 GPT-3 那包含 3000 億 token 的訓練語料庫,若按人類平均書寫速度計算,需要大約數萬年的寫作時間。

需要說明的是,要達到與當前前沿模型預訓練預算相當的 RL 計算支出,按人類完成相同任務所需時長來衡量,可能需要大約上萬年。DeepSeek-R1 在 RL 階段使用了約 6e23 FLOP 的計算量[1],按人類效率折算,對應約 6 年的時長。假設未來的訓練任務使用與 DeepSeek-R1 相似的訓練輪次(epochs)和組大小(group sizes),將此擴展至約 6e26 FLOP 意味著需要人類約 6000 年的工作時長。

尚不確定未來的強化學習訓練會需要更大的還是更小的組規模(group sizes)、抑或是更多的訓練輪次(epochs),尤其是隨著任務分布多樣性的增加。我們在這方面缺乏足夠的數據,因此精確估算等效的人類工作時間仍很困難,盡管 1 萬年左右似乎是一個較為合理的數量級。

這一過程要求模型完成的工作量,其規模可與 Windows Server 2008、GTA V 或 Red Hat Linux 7.1 等大型項目相當 —— 每個項目估計都需要約 1 萬年的累計人類工作量。

將強化學習(RL)擴展到這一規模在經濟上是高效的。由于算力成本在總訓練成本中占據主導地位,將強化學習的規模提升到與預訓練預算相當的水平,能在不明顯增加總成本的情況下帶來大幅的性能提升。然而,要實現這一目標,就必須大規模擴展強化學習環境(RL environments)的體量,同時確保任務能夠實現自動化評估。這很可能需要開發新的構建強化學習環境的方法。

Replication training

想象一下,每次當你想要通過下一個詞預測方法(next-token prediction)預訓練語言模型時,都必須親手創建整個訓練語料庫。顯然,這極其不切實際。因此,我們轉而利用海量的現有內容 —— 如書籍、學術論文、博客帖子和 Reddit 討論內容來構建訓練語料庫。

同樣,我們推測,RL(強化學習)領域的“GPT-3 時刻”將主要依托于一種稱為 replication training 的新范式來實現。該范式要求 AI 復制現有的軟件產品或其內部特定功能。實現復雜的哈希與加密算法的簡單命令行工具是較為理想的初期目標,這種方案可以輕松擴展到更復雜的軟件,例如網站、專業軟件和游戲。

每項復制任務(replication tasks)均包含詳細的說明規范和用于參考的實現方案。其核心思想是,AI 模型經過訓練后能夠生成與用于參考的實現方案完全一致的方案。這種清晰直接的方法極大地簡化了評估過程,因為評分標準客觀且明確:生成的實現方案的行為要么與用于參考的實現方案完全一致,要么就是不一致。

盡管這些復制任務(replication tasks)可能與日常的軟件工程活動有所不同,但它們專門針對當前 AI 系統難以掌握的關鍵能力。例如,復制一個復雜的算法(如依據詳細規范進行開發的、包含萬行量級代碼的加密/解密 CLI 工具),要求模型必須做到:

  • 準確閱讀并深度理解詳細指令。
  • 一絲不茍且精確無誤地執行指令。
  • 能夠發現早期錯誤并可靠地恢復。
  • 在長時間周期(相當于人類數月時間的開發工作量)內保持穩定輸出 —— 在此過程中,質量優劣完全由功能正確性直接判定。
  • 在遇到困難時展現出韌性,而非草率止步于看起來“差不多能用”的方案。

我們預測,replication training 將成為 AI 領域的下一個范式,因為它順延了我們在 AI 發展過程中已觀察到的趨勢 —— 利用海量的現有人類生成數據來創建新任務。就像自然語言一樣,軟件在互聯網上同樣資源豐富。因此,replication training 提供了一種可擴展的途徑,能高效生成復雜任務,推動我們實現可端到端完成完整軟件項目的 AI。

然而,這種方法也面臨著幾項挑戰。編寫有效且全面的測試仍然是一項非同小可的任務,需要大量的工程投入。此外,復制任務(replication tasks)本身具有一定的人造性,因為精確復制現有軟件并非日常軟件工程的典型工作(盡管在軟件移植、遺留系統重構、凈室重新實現【譯者注:clean-room reimplementations,指在嚴格隔離原始代碼知識的前提下,僅通過分析功能規范或外部行為,重新實現與原有軟件功能相同的程序。該過程需確保開發團隊從未接觸過原始源代碼,以避免法律上的版權/專利侵權風險。】)等場景中確有其例。

盡管存在這些挑戰,但我們認為 replication training 為將強化學習環境(RL environments)擴展到實現有意義泛化所需的龐大規模提供了一條清晰明確的路徑。它很可能將成為解鎖強化學習“GPT-3 時刻”的關鍵,為達成穩健的、task-agnostic 的性能提供所需的數萬年量級的經驗積累。

replication training 會是解鎖 full automation of labor(譯者注:通過 AI / 機器人系統實現人類所有勞動形式的自動化替代,達到無需人類直接參與即可完成經濟生產活動的終極狀態。)的終極范式嗎?對此我們持懷疑態度。雖然它能催生可在精確設計規范下自主完成高復雜度軟件項目的系統,但我們推測,這些能力仍將遜色于人類所具備的開放式能力。即便 AI 成為高級編程專家,它們在狹窄的軟件領域之外的高層管理(譯者注:high-level management,指組織架構中涉及戰略決策、資源分配和跨部門協調的頂層管理職能。)與自主規劃(agentic planning)方面也未必能勝任。

然而,正如我們需要先發明預訓練,才能邁向 replication training,replication training 仍可作為通往下一范式的橋梁。我們對這一新范式的未來潛力充滿期待。

責任編輯:武曉燕 來源: Baihai IDP
相關推薦

2009-04-14 22:31:35

Linux開源

2018-08-15 09:12:58

2023-11-10 09:04:47

2024-01-24 13:27:34

2024-02-22 15:39:23

2022-09-11 08:10:44

Fedora

2010-10-25 13:12:13

云計算

2015-07-03 09:45:34

火車WiFi

2022-10-12 00:07:25

加密貨幣區塊鏈比特幣

2021-12-14 10:04:52

無密碼時代多因素身份驗證MFA

2009-04-14 09:56:00

2015-02-09 15:37:46

2010-04-19 15:58:33

互聯網

2009-05-05 10:36:44

KDESocialDesktop

2015-06-16 10:50:45

2013-03-11 09:43:30

VMware vClo公有云服務

2015-04-29 09:55:50

Windows 10

2023-02-14 09:37:00

Vue無虛擬模式

2013-01-25 09:43:14

2013-10-09 10:50:00

智能電視智能電視庫應用
點贊
收藏

51CTO技術棧公眾號

性色av一区二区三区免费 | 日本系列第一页| a看欧美黄色女同性恋| 亚洲va欧美va人人爽午夜| 免费在线观看一区二区| 亚洲午夜精品久久久| 欧美亚洲不卡| 国产一区二区三区日韩欧美| 91精品视频国产| 国产极品在线观看| 国产精品理伦片| 国产伦精品一区二区三区高清| 一本一道无码中文字幕精品热| 大色综合视频网站在线播放| 精品久久99ma| 欧美美女一级片| 欧洲一区精品| 一区二区三区日韩欧美精品| 欧美久久电影| 丁香花免费高清完整在线播放| 石原莉奈一区二区三区在线观看| 美日韩精品免费观看视频| 给我看免费高清在线观看| 高清久久精品| 在线免费观看日本一区| 老太脱裤子让老头玩xxxxx| 日本福利在线| 久久久国产精华| 国产精品视频500部| 一女二男一黄一片| 日韩国产在线观看| 欧美做爰性生交视频| 国产亚洲欧美久久久久| 99久久久久| 中文字幕v亚洲ⅴv天堂| 免费a级黄色片| 国产伦乱精品| 欧美mv日韩mv国产网站| 日本一本在线视频| 老司机精品视频网| 欧美中文字幕一区二区三区亚洲| 人人妻人人添人人爽欧美一区| 在线免费av导航| 人人狠狠综合久久亚洲婷婷| 亚洲精品国偷自产在线99热| 精品国产免费久久久久久婷婷| 亚洲最大的免费视频网站| 91久久精品一区二区三| 精品欧美一区免费观看α√| 9999在线视频| 亚洲成av人片一区二区| a天堂资源在线观看| 69成人在线| 亚洲视频免费观看| 妞干网这里只有精品| 日本三级视频在线观看| 国产欧美一区二区精品久导航| 国产精品扒开腿做爽爽爽的视频| 国产a∨精品一区二区三区仙踪林| 精品二区视频| 97欧美精品一区二区三区| 日本一级黄色大片| 99精品国产福利在线观看免费| 欧美国产亚洲精品久久久8v| 精品视频一区二区在线观看| 亚洲国产黄色| 欧美在线影院在线视频| 中文字幕一区二区人妻电影| 乱人伦精品视频在线观看| 日本精品视频在线播放| 中文字幕永久在线| 美女网站色91| 99re6在线| 同心难改在线观看| 国产日本一区二区| 中文字幕av导航| 任你弄在线视频免费观看| 亚洲香肠在线观看| 欧美日韩在线中文| 国产国产一区| 日韩一区二区三区免费观看| 欧美xxxxx少妇| 免费精品国产| 日韩亚洲精品电影| 久草视频免费在线播放| 制服诱惑一区二区| 国产精品视频播放| 性一交一乱一乱一视频| 久久综合九色综合欧美就去吻| 天天人人精品| 第一中文字幕在线| 欧美主播一区二区三区| 香蕉视频在线观看黄| 一区三区在线欧| 日韩天堂在线视频| 日韩成人免费观看| 毛片av一区二区| 精品国产aⅴ麻豆| 尤物在线视频| 天天射综合影视| 欧美女同在线观看| 国产精品任我爽爆在线播放| 综合网中文字幕| 精品在线视频免费| 捆绑紧缚一区二区三区视频| 国产视频一区二区不卡| 成人77777| 婷婷久久综合九色综合绿巨人| 成人av电影免费在线播放| 蜜桃91精品入口| 爆操欧美美女| 欧洲人成人精品| 欧美性生交xxxxx| 色135综合网| 51ⅴ精品国产91久久久久久| 国产免费不卡视频| 欧美国产禁国产网站cc| 成年人午夜视频在线观看| 日韩毛片免费看| 亚洲人在线视频| 国产成人无码一区二区三区在线| 激情深爱一区二区| 日本精品视频一区| 黄毛片在线观看| 欧美一级专区免费大片| 亚洲一级片在线播放| 亚洲在线播放| 国产亚洲情侣一区二区无| av超碰免费在线| 欧美人与禽zozo性伦| 欧美激情视频二区| 日韩精品视频网站| 欧美日韩精品免费在线观看视频| 国产剧情av在线播放| 欧美videossexotv100| 日本a级片视频| 老司机精品视频在线| 日韩免费一区二区三区| 欧美国产大片| 亚洲欧美综合图区| av大全在线观看| 久久一区二区视频| 欧美aⅴ在线观看| 国产伦乱精品| 91国语精品自产拍在线观看性色 | 福利精品一区| 亚洲性生活视频| 91久久国产综合久久91| 久久久久久久久久看片| 999精品网站| 精品视频97| 国产精品男女猛烈高潮激情| 国产三级视频在线| 欧美性猛片xxxx免费看久爱 | 亚洲欧美日韩国产另类专区| 狠狠干狠狠操视频| 希岛爱理一区二区三区| 91亚洲精品一区| 欧美黄色视屏| 日韩精品在线视频美女| 一级一片免费看| 欧美激情一区二区三区蜜桃视频 | 丁香网亚洲国际| 日本精品久久久久久久久久| 成人自拍在线| 欧美中文字幕精品| 992tv免费直播在线观看| 欧美日韩成人综合在线一区二区| 美女网站视频色| 国产伦精品一区二区三区免费| 天天做天天躁天天躁| 加勒比视频一区| 日产精品99久久久久久| 在线激情免费视频| 欧美sm美女调教| 久久久国产精品成人免费| 欧美激情中文字幕一区二区| 国内国产精品天干天干| 雨宫琴音一区二区在线| 九色一区二区| 日本欧美一区| 欧美精品免费播放| 日本韩国一区| 欧美一区三区二区| 999这里只有精品| 国产精品福利av| 奇米777第四色| 美女性感视频久久| 妞干网在线观看视频| 在线天堂新版最新版在线8| 亚洲网站在线看| www.国产黄色| 日本福利一区二区| 一区二区三区四区五区| 99国产精品久久久久久久久久| 免费看污污网站| 99视频一区| 51xx午夜影福利| 久久91麻豆精品一区| 91手机在线播放| 78精品国产综合久久香蕉| 欧美激情精品久久久久久免费印度| 黄色在线观看网| 精品国产电影一区二区 | 日韩欧美综合一区| 庆余年2免费日韩剧观看大牛| 亚洲精品无遮挡| 欧美综合一区二区三区| 日本少妇性生活| 亚洲视频1区2区| 亚洲欧洲久久久| 成人av在线播放网站| 99re6在线观看| 水野朝阳av一区二区三区| 91精品一区二区三区四区| 成人6969www免费视频| 久久久久久久久一区| 日本一区二区三区视频在线看 | 小说区图片区亚洲| **欧美日韩vr在线| 五月婷婷视频在线观看| 伊人男人综合视频网| 凸凹人妻人人澡人人添| 日韩一二在线观看| 亚洲视频在线免费播放| 日韩欧美国产骚| 伊人久久综合视频| 亚洲国产日韩一级| 麻豆国产尤物av尤物在线观看| 国产日韩欧美在线一区| 88久久精品无码一区二区毛片| 成人av在线一区二区| 亚洲AV成人精品| 国产黄色精品网站| 四川一级毛毛片| 国产一区二区免费在线| 中文字幕欧美日韩一区二区| 免费av一区二区三区四区| 好吊色欧美一区二区三区| 波多野结衣一区二区三区免费视频| 亚洲aaa激情| 国产精品xnxxcom| 91亚洲va在线va天堂va国 | 亚洲一区二区中文字幕| 日日夜夜亚洲精品| 91精品国产综合久久香蕉| 精品女同一区二区三区在线观看| 国产精品影院在线观看| 国产精品99精品一区二区三区∴| 国产精品毛片a∨一区二区三区|国| 日韩精品三区| 国产精品偷伦视频免费观看国产| 天堂久久午夜av| 国产精自产拍久久久久久| 国产成人免费精品| 91色精品视频在线| 清纯唯美激情亚洲| 国产成人一区二区三区免费看| 999在线精品| 久久国产精品久久| 国产成人一区| 一区二区三视频| 欧美激情性爽国产精品17p| 久久久久久久久久久综合| 亚洲黄色天堂| 少妇性饥渴无码a区免费| 日本欧美大码aⅴ在线播放| 亚洲va综合va国产va中文| 国产高清精品网站| v天堂中文在线| 国产午夜精品理论片a级大结局| 欧美波霸videosex极品| 亚洲狼人国产精品| 日本系列第一页| 欧美综合一区二区| 国产后入清纯学生妹| 亚洲国产精品资源| av在线之家电影网站| 久久高清视频免费| 三级在线看中文字幕完整版| 欧美一级免费视频| 欧美天堂一区| 精品1区2区| 白白色免费视频| 欧美国产一区视频在线观看| 全网免费在线播放视频入口| 亚洲成av人片www| 中文字幕第2页| 精品国产乱子伦一区| 国产视频二区在线观看| 久久手机免费视频| sis001欧美| 亚洲一区二区在线| 黑人操亚洲人| 免费高清一区二区三区| 日韩国产在线一| 欧美日韩人妻精品一区在线| 欧美激情一区二区三区全黄| 国产五月天婷婷| 欧美日韩国产免费| 亚洲色图21p| 裸体女人亚洲精品一区| 写真福利精品福利在线观看| 国产成人精品自拍| 偷拍欧美精品| 成人精品视频一区二区| 波多野结衣中文字幕一区| 国产在线免费看| 91福利精品第一导航| 色噜噜在线播放| 超在线视频97| 国产亚洲精彩久久| 欧美成人一区二区在线| 国产综合色产| 亚洲视频在线不卡| 国产精品无人区| 亚洲国产av一区二区三区| 亚洲精品国产美女| 久操av在线| 91在线精品观看| 中文av一区| 青青青国产在线视频| 久久综合资源网| 亚洲视频免费播放| 亚洲第一中文字幕在线观看| 黄av在线播放| 91精品在线一区| 99久久婷婷| 国产一级片自拍| 国产精品卡一卡二卡三| 无码人妻aⅴ一区二区三区有奶水| 日韩av影院在线观看| 欧美aaa免费| 99久久精品免费看国产四区| 亚洲国产精品久久久天堂| 自拍偷拍21p| 中文久久乱码一区二区| 久久永久免费视频| 亚洲天堂av女优| 欧美日韩美女| 日本一区不卡| 美女一区二区久久| 亚洲少妇xxx| 宅男在线国产精品| jizzjizz亚洲| 高清av免费一区中文字幕| 午夜精品婷婷| 美女伦理水蜜桃4| 亚洲国产日韩av| 天堂在线观看视频| 5566日本婷婷色中文字幕97| 亚洲人成伊人成综合图片| 成人免费观看cn| 久久女同精品一区二区| 天天干天天操天天爱| 一区二区三区天堂av| 日韩成人在线电影| 大桥未久一区二区| 国产成人激情av| 成年人午夜视频| 亚洲欧美精品一区二区| 成人国产一区| 中文字幕精品一区日韩| 国产成人免费视频网站高清观看视频 | 国产suv精品一区| 国产97在线 | 亚洲| 国产午夜精品在线观看| 97人妻精品一区二区三区软件 | 久久国产免费观看| 日韩大陆欧美高清视频区| 怡红院成人在线| 青青在线免费视频| 久久亚洲综合色| 中文字幕自拍偷拍| 欧美日韩国产二区| 亚洲免费观看高清完整版在线观| 麻豆三级在线观看| 亚洲永久精品大片| 欧美拍拍视频| 91久久久精品| 国产精品久久久久久模特| a资源在线观看| 亚洲成人av片在线观看| av激情成人网| 国产精品无码免费专区午夜| 国产亚洲成av人在线观看导航| 91丨porny丨在线中文| 97色在线视频| 国产精品久久久久久久久妇女| 苍井空张开腿实干12次| 日本韩国精品一区二区在线观看| a视频在线观看| 日本午夜一区二区三区| 丁香网亚洲国际| 中文字幕在线视频免费| 2018国产精品视频| 欧美日本不卡高清| 久久久久亚洲AV成人无在| 亚洲激情小视频| 亚洲图色一区二区三区|