精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

張俊林:OpenAI o1的價值意義及強化學習的Scaling Law

人工智能 新聞
OpenAI o1 提到了關于 RL 在訓練和推理時候的 Scaling law,并指出這與預訓練時候的 Scaling law 具有不同特性。

蹭下熱度談談 OpenAI  o1 的價值意義及 RL 的 Scaling law。

一、OpenAI o1 是大模型的巨大進步

我覺得 OpenAI o1 是自 GPT 4 發布以來,基座大模型最大的進展,邏輯推理能力提升的效果和方法比預想的要好,GPT 4o 和 o1 是發展大模型不同的方向,但是 o1 這個方向更根本,重要性也比 GPT 4o 這種方向要重要得多,原因下面會分析。

為什么說 o1 比 4o 方向重要?

這是兩種不同的大模型發展思路,說實話在看到 GPT 4o 發布的時候我是有些失望的,我當時以為 OpenAI 會優先做 o1 這種方向,但是沒想到先出了 GPT 4o。GPT 4o 本質上是要探索不同模態相互融合的大一統模型應該怎么做的問題,對于提升大模型的智力水平估計幫助不大;而 o1 本質上是在探索大模型在 AGI 路上能走多遠、天花板在哪里的問題,很明顯第二個問題更重要。

GPT 4o 的問題在于本身大模型的智力水平還不夠高,所以做不了復雜任務,導致很多應用場景無法實用化,而指望靠圖片、視頻這類新模態數據大幅提升大模型智力水平是不太可能的,盡管確實能拓展更豐富的多模態應用場景,但這類數據彌補的更多是大模型對外在多模態世界的感知能力,而不是認知能力。提升大模型認知能力主要還要靠 LLM 文本模型,而提升 LLM 模型認知能力的核心又在復雜邏輯推理能力。LLM 的邏輯推理能力越強,則能解鎖更多復雜應用,大模型應用的天花板就越高,所以不遺余力地提升大模型尤其是文本模型的邏輯能力應該是最重要的事情,沒有之一。

如果 o1 模型能力越做越強,則可以反哺 GPT 4o 這種多模態大一統模型,可以通過直接用 o1 基座模型替換 GPT 4o 的基座、或者利用 o1 模型生成邏輯推理方面的合成數據增強 GPT 4o、再或者用 o1 蒸餾 GPT 4o 模型….. 等等,能玩的花樣應該有很多,都可以直接提升 GPT 4o 的復雜任務解決能力,從而解鎖更復雜的多模態應用場景。OpenAI 未來計劃兩條線,一條是 o1,一條是 GPT 4o,它的內在邏輯大概應該是這樣的,就是說通過 o1 增強最重要的基座模型邏輯推理能力,而再把這種能力遷移到 GPT 4o 這種多模態通用模型上。

OpenAI o1 的做法本質上是 COT 的自動化。

我們知道,通過 COT 把一個復雜問題拆解成若干簡單步驟,這有利于大模型解決復雜邏輯問題,但之前主要靠人工寫 COT 來達成。從用戶提出的問題形成樹的根結點出發,最終走到給出正確答案,可以想像成類似 AlphaGo 下棋,形成了巨大的由 COT 具體步驟構成的樹形搜索空間,這里 COT 的具體步驟的組合空間是巨大的,人寫的 COT 未必最優。如果我們有大量邏輯數據,是由 <問題,明確的正確答案> 構成,則通過類似 AlphaGo 的 Monte Carlo Tree Search(MCTS)搜索 + 強化學習,確實是可以訓練大模型快速找到通向正確答案的 COT 路徑的。

而問題越復雜,則這個樹的搜索空間越大,搜索復雜度越高,找到正確答案涉及到的 COT 步驟越多,則模型生成的 COT 就越復雜,體現在 o1 的速度越慢,生成的 COT Token 數越多。很明顯,問題越復雜,o1 自己生成的隱藏的 COT 越長,大模型推理成本越高,但效果最重要,成本其實不是問題,最近一年大模型推理成本降低速度奇快,這個總有辦法快速降下去。

從上面 o1 的做法可以知道 Prompt 工程會逐漸消亡。

之前解決復雜問題,需要人寫非常復雜的 Prompt,而 o1 本質上是 COT 等復雜 Prompt 的自動化,所以之后是不太需要用戶自己構造復雜 Prompt 的。本來讓用戶寫復雜 Prompt 就是不人性化的,所有復雜人工環節的自動化,這肯定是大勢所趨。

Agent 屬于概念火但無法實用化的方向,主要原因就在于基座模型的復雜推理能力不夠強。如果通過基座模型 Plan 把一個復雜任務分解為 10 個步驟,哪怕單個步驟的正確率高達 95%,要想最后把任務做對,10 個環節的準確率連乘下來,最終的正確率只有 59%,慘不忍睹。那有了 o1 是不是這個方向就前途坦蕩?也是也不是,o1 的 Model Card 專門測試了 Agent 任務,對于簡單和中等難度的 Agent 任務有明顯提升,但是復雜的、環節多的任務準確率還是不太高。就是說,不是說有了 o1 Agent 就現狀光明,但是很明顯 o1 這種通過 Self Play 增強邏輯推理能力的方向應該還有很大的發展潛力,從這個角度講說 Agent 未來前途光明問題應該不大。

OpenAI 很多時候起到一個行業指路明燈的作用,往往是第一個證明某個方向是行得通的(比如 ChatGPT、GPT 4、Sora、GPT 4o 包括這次的 o1),然后其他人開始瘋狂往這個方向卷,到后來甚至卷的速度太快把 OpenAI 都甩到后面吃尾氣。典型例子就是 Sora,如果 OpenAI 不是出于阻擊競爭對手秀一下肌肉,大家都沒有意識到原來這個方向是可以走這么遠的,但當意識到這一點后,只要你專一地卷一個方向,方向明確且資源聚焦,是可能趕超 OpenAI 的,目前國內外各種視頻生成模型有些甚至可能已經比 Sora 好了,Sora 至今仍然是期貨狀態,主要 OpenAI 想做的方向太多,資源分散導致分到具體一個方向的資源不夠用,所以越往后發展期貨狀態的方向越多,也讓人覺得盡顯疲態。

OpenAI o1 等于給大家又指出了一個前景光明的方向,估計后面大家又開始都往這個方向卷。我覺得卷這個方向比去卷 GPT 4o 和視頻生成要好,雖然具體怎么做的都不知道,但是大方向清楚且效果基本得到證明,過半年肯定頭部幾家都能摸清具體技術追上來,希望能再次讓 OpenAI 吃尾氣。而且這個方向看上去資源耗費應該不會特別大,偏向算法和數據一些,數據量規模估計不會特別巨大,卷起來貌似成本低一些。這是個卷的好方向。

二、預訓練 Scaling Law 的來源及 O1 提到的 RL Scaling law

粗分的話,大語言模型最基礎的能力有三種:語言理解和表達能力、世界知識存儲和查詢能力以及邏輯推理能力(包括數學、Coding、推理等理科能力,這里 Coding 有一定的特殊性,是語言能力和邏輯摻雜在一起的混合能力,Coding 從語言角度可以看成一種受限的自然語言,但是混雜著復雜的內在邏輯問題。從語言角度看,Coding 貌似是容易解決的,從邏輯角度看又相對難解決。總之,Coding 目前看是除了語言理解外,大模型做得最好的方向)。

語言理解和表達是 LLM 最強的能力,初版 ChatGPT 就可以完全勝任各種純語言交流的任務,基本達到人類水準,目前即使是小模型,在這方面比大模型能力也不弱;世界知識能力雖說隨著模型規模越大效果越好,但幻覺問題目前無法根治,這是制約各種應用的硬傷之一;邏輯推理能力一直都是 LLM 的弱項,也是最難提升的方面,從 GPT 4 開始往后,如何有效并大幅提升 LLM 的邏輯推理能力是體現不同大模型差異和優勢的最核心問題。所以,大模型最重要的一個是世界知識方面如何有效消除幻覺,一個是如何大幅提升復雜邏輯推理能力。語言能力已不是問題。

從大模型的基礎能力,我們再說回已經被談濫了的大模型 Scaling law。現在普遍認為通過增加數據和模型規模來提升大模型效果的 Scaling law 模式,其增長速度在放緩。其實我們對照下大模型的三個基礎能力的能力來源,基本就能看出來這是為啥(以下是我猜的,不保真):

本質上大模型的能力來源都來自訓練數據,包含能體現這方面能力的訓練數據越多,則這種能力越強。語言能力不用說了,任意一份預訓練數據,其中都包含相當比例的語言的詞法句法等成分,所以訓練數據中體現語言能力的數據是最多的,這也是為何大模型的語言能力最強的原因。

而數據中包含的世界知識含量,基本是和訓練數據量成正比的,明顯數據量越多,包含的世界知識越多,Scaling law 是數據中包含的世界知識含量關系的一個體現,但是這里有個問題,大模型見過越多數據,則新數據里面包含的新知識比例越小,因為很多知識在之前的數據里都見過了,所以隨著數據規模增大,遇到的新知識比例就越低,在世界知識方面就體現出 Scaling law 的減緩現象。

為啥邏輯推理能力最難提升?因為能體現這方面的自然數據(代碼、數學題、物理題、科學論文等)在訓練數據中比例太低,自然大模型就學不好,盡管通過不斷增加數據,能增加邏輯推理方面數據的絕對數量,但因為占比太少,這方面提升的效果和增加的總體數據規模就不成比例,效果也不會太明顯,就體現在邏輯推理能力 Scaling law 看上去的放緩。這是很自然的。這也是為何現在為了提高模型邏輯能力,往往在預訓練階段和 Post-training 階段,大幅增加邏輯推理數據占比的原因,且是有成效的。

所以目前大模型的核心能力提升,聚焦到不斷通過合成數據等方式構造更多比例的邏輯推理數據上來。但是大部分邏輯推理數據的形式是 < 問題,正確答案 >,缺了中間的詳細推理步驟,而 o1 本質上是讓大模型學會自動尋找從問題到正確答案的中間步驟,以此來增強復雜問題的解決能力。

OpenAI o1 提到了關于 RL 在訓練和推理時候的 Scaling law,并指出這與預訓練時候的 Scaling law 具有不同特性。很明顯,如果 o1 走的是 MCTS 搜索技術路線,那么把 COT 拆分的越細(增加搜索樹的深度),或提出更多的可能選擇(節點的分支增多,就是說樹的寬度越寬),則搜索空間越大,找到好 COT 路徑可能性越大,效果越好,而訓練和推理的時候需要算力肯定越大。看上去有著效果隨著算力增長而增長的態勢,也就是所謂的 RL 的 Scaling law。這其實是樹搜索本來應有之義,我倒覺得把這個稱為 RL 的 Scaling law 有點名不副實。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-13 06:32:25

2024-09-18 10:37:00

強化學習AI模型

2025-01-21 09:00:00

2025-02-18 15:02:13

2024-11-25 15:50:00

模型訓練

2024-09-29 13:07:16

2025-02-20 09:11:28

2024-09-24 11:01:03

2024-09-19 18:03:31

2024-12-17 12:30:00

2024-10-05 00:00:00

2024-12-05 10:16:14

2024-11-07 15:40:00

2025-10-20 09:05:00

2024-12-16 07:15:00

2024-09-25 09:30:16

2024-11-14 18:40:57

2025-02-14 08:30:00

模型AI訓練

2024-11-05 14:20:00

AI模型

2017-08-22 15:56:49

神經網絡強化學習DQN
點贊
收藏

51CTO技術棧公眾號

久久久久97国产| 一二三av在线| 永久免费av片在线观看全网站| 日本中文一区二区三区| 超碰精品一区二区三区乱码| 精品人妻无码中文字幕18禁| 亚洲永久av| 中文字幕视频一区| 国产精品成人一区二区三区| 伦av综合一区| 亚洲精品国产成人影院| 亚洲精品720p| 亚洲另类第一页| 成人在线黄色电影| 国产精品久久看| 国内一区二区三区在线视频| 中文字幕乱码视频| 亚洲日产国产精品| 久久人人爽亚洲精品天堂| 亚洲天堂美女视频| 国产精品xnxxcom| 欧美日韩综合视频| 久久免费一级片| 国产三级在线看| 成人激情免费网站| 成人亚洲激情网| 337p粉嫩色噜噜噜大肥臀| 国产一区视频在线观看免费| 最近中文字幕mv在线一区二区三区四区| 佐佐木明希电影| 先锋影音网一区二区| 色嗨嗨av一区二区三区| 99视频在线免费播放| 国产二区三区在线| 久久久精品tv| 国产亚洲二区| 国产成人精品a视频| 免费久久99精品国产| 日本a级片电影一区二区| 麻豆changesxxx国产| 99久久夜色精品国产亚洲狼| 亚洲欧美日韩天堂| 狠狠人妻久久久久久综合蜜桃| 国产精品igao视频网网址不卡日韩| 欧洲精品在线观看| 激情综合网婷婷| 日本黄色免费在线| 五月天激情小说综合| 男人的天堂avav| aa在线视频| 亚洲久草在线视频| 性生活免费观看视频| 欧美性videos| 国产精品久久久久精k8| 午夜精品一区二区三区在线观看| 伦理片一区二区三区| 久久在线观看免费| 欧美综合77777色婷婷| 欧美美乳在线| 国产日韩亚洲欧美综合| 日韩一区不卡| 色综合久久久久综合一本到桃花网| 欧美激情在线观看视频免费| 色99中文字幕| 9191在线观看| 国产精品久久久久久久久免费樱桃 | 亚洲欧美日本另类| 欧美精品欧美极品欧美激情| 欧美jizz19性欧美| 亚洲美女av黄| 黄色国产在线播放| 亚洲电影影音先锋| 高清在线视频日韩欧美| 五月婷婷激情网| 久久久人人人| 成人午夜黄色影院| 日本美女一级视频| 久久久一区二区三区捆绑**| 亚洲精品在线免费看| av观看在线| 欧美日韩国产一区二区三区| 黄色国产小视频| 欧美日韩视频免费看| 欧美大肚乱孕交hd孕妇| 日韩 中文字幕| 日本道不卡免费一区| 不卡毛片在线看| 国产情侣自拍av| 久久精品国产99国产精品| 97自拍视频| 神马久久高清| 中文字幕亚洲一区二区av在线| 蜜臀av色欲a片无码精品一区| 欧美日韩免费看片| 日韩一区二区三区高清免费看看| 日本三级日本三级日本三级极| 国产麻豆一区二区三区精品视频| 久久视频精品在线| 久久久精品免费看| 国产中文字幕精品| 欧美精品一区二区三区在线四季| 国产福利视频在线| 在线免费不卡视频| 无码av免费精品一区二区三区| 欧美日韩国产高清电影| 午夜精品久久久久久99热| 亚洲天堂男人网| 99久久精品免费| 国产91av视频在线观看| 色综合桃花网| 日韩欧美精品三级| 欧美成人久久久免费播放| 最新亚洲激情| 亚洲在线视频福利| 二区三区在线播放| 同产精品九九九| 免费看91视频| 97国产精品| 国产精品成久久久久三级| 天天操天天舔天天干| 亚洲色图欧洲色图婷婷| caoporn超碰97| 欧美性生活一级片| 欧美老少配视频| 一级视频在线播放| 日本一区二区成人| 国产v亚洲v天堂无码久久久 | 欧美一级二级三级九九九| 在线视频国产区| 欧美一区二区在线观看| 久久久久久视频| 久久精品国产99国产| 日韩精品一区二区三区外面| 中文字幕一区久| 日韩av网站导航| 国产精品6666| 成人久久18免费网站麻豆| 黄色一级大片免费| 亚洲精品午夜| 欧美国产视频日韩| 国产黄色高清视频| 一区二区三区欧美| 真实乱偷全部视频| 国精品一区二区三区| 97中文在线观看| 福利在线导航136| 亚洲福利视频网| 亚洲男人第一av| xfplay精品久久| 无码内射中文字幕岛国片| 亚洲ab电影| 国产成人精品久久久| 欧洲综合视频| 欧洲一区在线观看| 亚洲a∨无码无在线观看| 毛片不卡一区二区| 免费成人进口网站| 亚洲精品一区二区三区中文字幕| 欧美高清视频在线| 午夜性色福利视频| 色综合天天天天做夜夜夜夜做| 一道本在线观看| 免费在线观看视频一区| 亚洲AV无码成人精品一区| 精品国产一区二区三区2021| 欧美大片欧美激情性色a∨久久| 亚洲精品国产手机| 欧美性xxxx极品hd欧美风情| 一区二区三区四区免费| 蜜臀av一级做a爰片久久| 中文字幕中文字幕在线中一区高清| 精品国产麻豆| 午夜精品视频网站| 精品电影在线| 欧美日本乱大交xxxxx| 国产1区2区3区4区| 99久久精品免费| 亚洲成人天堂网| 国产一区视频在线观看免费| 欧美日韩国产不卡在线看| 国内精品伊人| 久久久亚洲国产| 国产一级免费在线观看| 3d动漫精品啪啪一区二区竹菊 | 色欧美片视频在线观看在线视频| 91精品国自产在线| 国产精品资源站在线| 日本a级片免费观看| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 小嫩嫩精品导航| 一区二区三区国产福利| 给我免费播放日韩视频| 国产女人精品视频| av男人的天堂在线观看| 中文国产成人精品| 国产综合无码一区二区色蜜蜜| 色悠久久久久综合欧美99| 曰本女人与公拘交酡| 久久午夜老司机| 久久发布国产伦子伦精品| 久久中文在线| 国产成人永久免费视频| 成人在线免费观看视频| 国产日韩一区欧美| 欧美午夜在线播放| 国产精品福利观看| 九九色在线视频| 中文字幕在线看视频国产欧美在线看完整 | 免费精品视频| 四虎4hu永久免费入口| 九一国产精品| 国产区日韩欧美| 国产精品色婷婷在线观看| 国产91在线播放| 91视频欧美| 欧美激情二区三区| 精品黄色免费中文电影在线播放| 亚洲乱码国产乱码精品精| 狠狠躁夜夜躁av无码中文幕| 在线播放国产精品二区一二区四区| 伦av综合一区| 黑人巨大精品欧美一区免费视频 | 欧美日本三区| 手机成人av在线| 欧美在线色图| 日产中文字幕在线精品一区| 日本中文字幕在线一区| 国产精品美女久久久久av福利| 24小时成人在线视频| 国产精品免费网站| 日韩欧美一区二区三区免费观看 | 久久精品最新地址| www.久久热.com| 亚洲一区二区久久| 免费在线性爱视频| 亚洲图片制服诱惑| 国产中文字幕在线播放| 亚洲美女性视频| 日韩偷拍自拍| 亚洲精品之草原avav久久| 婷婷开心激情网| 日韩av有码在线| 五月激情婷婷网| 日韩精品极品视频| 嫩草研究院在线| 亚洲欧美激情视频| 国产乱视频在线观看| 亚洲色在线视频| 国产福利片在线| 在线视频欧美日韩精品| av网站在线免费播放| 日韩在线欧美在线| 国产美女av在线| 欧美精品激情在线| 原纱央莉成人av片| 国产精品免费观看在线| 欧美午夜三级| 5566中文字幕一区二区| 草草视频在线一区二区| 久久狠狠久久综合桃花| 国产99精品一区| 亚洲欧美国产不卡| 久久精品青草| 欧美久久在线观看| 久久精品女人天堂| 一级黄色录像在线观看| 国产成人精品亚洲日本在线桃色| 久久久久无码精品| 91丨porny丨蝌蚪视频| 人人爽人人爽人人片| 综合久久国产九一剧情麻豆| 久久这里只有精品免费| 黑人与娇小精品av专区| 中文字幕+乱码+中文字幕明步 | 亚洲色图欧美视频| 亚洲无线码在线一区观看| 日本电影全部在线观看网站视频| 久久国产精品久久久久| xxxx视频在线| 国产91在线播放九色快色| 国产精久久一区二区| 国产在线欧美日韩| 93在线视频精品免费观看| 日韩极品视频在线观看 | 国产99久久精品一区二区| 亚洲欧美专区| 精品免费一区二区三区蜜桃| 成人在线丰满少妇av| 阿v天堂2018| 奇米一区二区三区| 中文视频在线观看| 国产精品网站在线观看| 国产无遮挡又黄又爽| 在线免费视频一区二区| 亚洲奶汁xxxx哺乳期| 正在播放亚洲1区| 国产丝袜精品丝袜| 国产精品伦子伦免费视频| 久久动漫网址| 中文字幕一区二区三区四区五区人| aa亚洲婷婷| 特黄特黄一级片| 中文字幕成人av| 国产精品第9页| 日韩欧美国产电影| 在线看的av网站| 日韩av高清不卡| ady日本映画久久精品一区二区| 日韩资源av在线| 99亚洲伊人久久精品影院红桃| 亚洲欧美日韩网站| 国产精品毛片久久久久久 | 欧美精品日韩一本| 欧美视频免费一区二区三区| 欧美华人在线视频| 日韩亚洲国产免费| 日韩一区二区电影在线观看| 性高湖久久久久久久久| 国产精品成人免费一区久久羞羞| 国产目拍亚洲精品99久久精品| 亚洲欧美在线观看视频| 日韩欧美在线123| 免费黄网站在线播放| 国产精品aaa| 伊人成综合网yiren22| 国产午夜大地久久| 波多野结衣亚洲一区| 免费一级片视频| 日韩欧美一级特黄在线播放| 国产超级va在线视频| 国产一区二区丝袜| 色777狠狠狠综合伊人| 亚洲黄色av网址| 欧美极品xxx| 国产精品无码一区| 在线精品高清中文字幕| 亚洲成人短视频| 日本精品一区二区三区视频 | 欧美中文字幕在线观看| 精品三级av在线导航| www.日本少妇| 99久久综合狠狠综合久久| 日本一区二区三区四区五区| 亚洲精品在线三区| 欧美sm一区| 欧美极品色图| 日日噜噜夜夜狠狠视频欧美人| 91网站免费入口| 欧美午夜一区二区三区免费大片| 成a人v在线播放| 国产一区二区在线免费视频| 久久视频在线| 91视频福利网| 亚洲伦在线观看| 后进极品白嫩翘臀在线视频| 久久久久久噜噜噜久久久精品| 国内精品国产成人国产三级粉色| 日韩精品 欧美| 久久精品欧美日韩精品| 中文字幕在线观看免费| 色多多国产成人永久免费网站| 99久久999| 亚洲精品久久久久久久蜜桃臀| 99精品国产热久久91蜜凸| 欧美日韩一二三四区| 这里只有精品久久| 国产一区二区三区视频在线| 国产精品久久久久9999爆乳| 久久久久久影视| 亚洲系列第一页| 欧美激情第三页| 国产精品欧美日韩一区| 肉色超薄丝袜脚交| 精品久久久久久久久久久久久久| 九色在线视频蝌蚪| 91精品久久久久久久久| 尹人成人综合网| 亚洲国产av一区| 日韩一级片网址| 亚洲三级欧美| 咪咪色在线视频| 99久久精品国产网站| 一级做a爰片久久毛片16| 欧美极品美女电影一区| 欧美限制电影| 国产吃瓜黑料一区二区| 欧美午夜精品一区| 久久国产精品黑丝| 亚洲 国产 日韩 综合一区| 高清国产一区二区| 少妇一级淫片日本| 欧美精品久久久久久久久| 韩日一区二区三区| 日韩精品xxx| 欧美综合久久久| √最新版天堂资源网在线| 一区二区三区四区视频在线观看 | 久久精品99久久| 国模大尺度一区二区三区| 久久久久久少妇|