精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑!把李沐都炸出來了

人工智能 新聞
比如GPT-4在變笨并非危言聳聽,這項評測發現GPT進化路上出現了明顯的“蹺蹺板現象”,即模型進化過程中一部分能力提升另一部分下降。

GPT-3究竟是如何進化到GPT-4的?

字節給OpenAI所有大模型來了個“開盒”操作。

結果還真摸清了GPT-4進化路上一些關鍵技術的具體作用和影響。

圖片

比如:

  • SFT是早期GPT進化的推動者
  • 幫助GPT提升編碼能力的最大功臣是SFT和RLHF
  • 在預訓練中加入代碼數據則提升了后續GPT版本的各方面能力,尤其是推理……

創業后忙得不可開交的AI大牛李沐看完,也久違地出現在公眾視野,并給這項研究點了個贊。

圖片

網友們更是盛贊:

這是迄今為止第一個充分開盒OpenAI所有模型的工作,respect。

圖片

而除了一些新發現,它還坐實了一些已有猜想:

比如GPT-4在變笨并非危言聳聽,這項評測發現GPT進化路上出現了明顯的“蹺蹺板現象”,即模型進化過程中一部分能力提升另一部分下降。

這和網友此前的感受不謀而合。

圖片

如作者本人表示:

這項工作可以為GPT-3到GPT-4的演化路徑提供寶貴的見解。

言外之意,通過它我們可以一窺GPT模型的“成功之道”,為接下來的大模型構建工作提供有效經驗。

那么,具體它都“開”出了哪些東西,我們扒開論文來看。

探秘GPT-3到GPT-4進化之路

最開頭的進化圖由作者們根據公開信息總結得出。

可以看到,它標注了每一個中間模型是經過哪些技術(如代碼微調、SFT/FeedME等)一路從最初的GPT-3進化到3.5再到如今的4。

這些技術具體起到了多大影響,從davinci到gpt-4-0613,字節對每代GPT的數學、編碼、推理等7大能力全部測了個“底朝天”。

圖片

1. SFT:早期GPT進化的推動者

首先,在GPT-3系列中,最初的davinci (GPT-3)通過監督微調SFT和其變體FeedME進化為了text-davinci-001。

這讓后者在幾乎全部任務上都獲得了性能提升:

圖片

更直觀的表現如下圖所示(“粉圈”為進化后的text-davinci-001)。

圖片

接著,GPT開始進入3.5系列,在該系列早期階段,先是最基礎的code-davinci002采用同樣的技術進化成text-davinci-002。

然而這一進化操作的效果屬實不大,GPT的各項性能只有少數幾個提升,更多是不增反減的。

圖片

在此,作者引出他們的第一個結論,即:

SFT只在較弱的基礎模型上管用,用在更強的模型上收效甚微

類似現象在開源模型身上也可見(這個評測還測了Llama1和2、PaLM2-L、Claude 2等模型)

在初代Llama-65B之上,SFT成功提升了它在MMLU基準上的性能,但是,所有使用了SFT改進的Llama2-70B在Open LLM Leaderboard榜單上卻只表現出微小的進步。

總結:在GPT3階段,SFT技術對模型的進化起到了關鍵作用。

2、RLHF和SFT:編碼能力提升的功臣

順著GPT3.5系列接著看,從text-davinci-002開始,OpenAI開始引入新技術基于PPO算法的RLHF,得到text-davinci-003。

此時,它在大部分基準上的表現和前代模型持平或略變差,說明作用不是特別明顯(在開源模型身上也是如此)。

但有一個除外:編碼任務,最高足足增加了近30分。

圖片

聯想到前面code-davinci002采用SFT技進化成text-davinci-002造成整體性能下降時,編碼任務也沒受影響,反而還漲分了——

圖片

作者決定驗證SFT和RLHF對大模型編碼能力的影響。

在此,他們測量了幾代GPT模型的pass@1(采樣1次通過的概率)、pass@100(采樣100次通過的概率)等分數。

圖片

結果是與基礎模型相比,使用了SFT和RLHF技術的模型在pass@1上出現了大幅提升,而在pass@100上略有下降。

這說明啥呢?

作者解釋:

pass@100刻畫的是模型內在coding能力,而pass@1代表的是模型一遍過、bug-free的coding能力。

pass@100小幅下降表明SFT和RLHF在編碼任務上和其它任務一樣,仍然有所謂的對齊稅(alignment tax)

不過,SFT和RLHF能夠將pass@100的能力學到pass@1上,即把內在能力(但需要很多次嘗試)轉化到一遍過、bug-free的coding能力,致使pass@1大幅提升。

而再仔細看結果,可以發現gpt-3.5-turbo-0301通過SFT和RLHF,大幅提升了pass@1,這對于小模型的性能優化是個好消息。

圖片

這還沒完,鑒于作者之前觀察到GPT-4在一些復雜推理任務上經過多次嘗試才能解決問題。

他們結合上面的觀察,總結為:
LLM仍可以通過SFT和RLHF,不斷將內在能力(但需要多次嘗試)轉化成一次性解決問題的能力,不斷逼近LLM的能力上限。

言外之意,GPT-4還可以更強。

3、代碼加入預訓練,對推理幫助最大

在GPT4進化之路上,還出現了2個特別的模型:

code-cushman-001 (Codex-12B) 和code-davinci-002。

前者是OpenAI初次嘗試使用代碼數據訓練模型,盡管它的規模較小,但也取得了不錯的代碼能力。

后者是GPT3.5的基座模型,它是在GPT3的基礎上使用RLHF+代碼訓練的結果,也就是文本和代碼混合預訓練。

可以看到,它大幅超越GPT-3(不止是編碼能力)、在一些推理任務上(如BBH)表現甚至可以超過后面的gpt-3.5-turbo-0613。

圖片

作者表示:

這表明預訓練加入代碼數據可以全面提升LLM的能力,尤其是推理能力。

4、“蹺蹺板”現象

通過比較2023年3月和2023年6月的OpenAI API模型,我們確實可以發現這一現象:

與gpt-3.5-turbo-0301相比,升級后的gpt-3.5-turbo-0613在HumanEval上表現出色(53.9 -> 80.0),但在MATH上卻大幅下降(32.0 -> 15.0)

gpt-4-0613在DROP上的表現優于gpt-4-0314 (78.7 -> 87.2) ,但在MGSM上也出現了直線下降(82.2 -> 68.7) 

作者認為:

“蹺蹺板現象”可能成為LLM通往AGI之路的絆腳石,因為AGI強調“通用智能”,要在所有task上都有優異的性能,要求模型不能“偏科”。

在此,他們也呼吁社區重視這個問題,共同推進大模型平衡發展的研究。

幫助大模型從業者找到方向

以上這些發現,全部基于GPT-Fathom——

字節最新提出的一個大模型評測工具。

想必大家肯定疑問:

大模型排行榜和評測工具已經有很多了,為什么還要提出一個新的方法?

作者介紹,相比已有的測評方式,GPT-Fathom尺度更加統一,結果具有可重現性。

大模型從業者可以借助它來明確自己與領先模型的差距到底在什么地方,從而有的放矢地完善自己的產品。

具體來看,GPT-Fathom主要是解決了其他大模型評測方法的三個不足:

  • setting標準不一致:是否使用思維鏈(CoT)、樣本數量等設置,以及答案評價方法沒有統一標準
  • 模型和任務收集不完整:測試關注的能力不全面,缺乏對早期模型的關注
  • 缺乏對模型敏感性的研究

為了更直觀體現GPT-Fatham的特點,作者對比了一些具體的現有榜單,可以總結成下面這個表格:

圖片

其中,對敏感性的評測就發現了此前的測試標準沒能找出的問題。

相比于GPT,其他模型對提示詞的敏感度很高,稍有變化就會導致輸出截然不同,提示其他模型的魯棒性和GPT之前還存在很大差距。

比如在TriviaQA數據集上,提示詞的細微改變就讓Llama 2-70B的得分下降四分之一,而GPT系列模型則沒有明顯變化。

圖片

此外諸如CoT、樣本數量以及采樣方差等因素也都被包括進了敏感性測試當中。

未來,作者計劃從能力種類、測試數據集和模型三個維度繼續擴展GPT-Fathom,將支持多輪對話、多模態等能力的測評,以及增加對多個數據集和模型的測試。

GPT-Fatham的兩位共同一作分別是字節公司應用機器學習研究組的研究人員張馭宇(Yuyu Zhang)和實習生Shen Zheng。

Shen Zheng是伊利諾伊大學香檳分校(UIUC)的一名碩士生。

此外,字節公司的Yijie Zhu等四名研究人員,以及UIUC的Kevin Chen-Chuan Chang教授也參與了這項研究。

論文地址:https://arxiv.org/abs/2309.16583
參考鏈接:https://github.com/GPT-Fathom/GPT-Fathom

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-10-18 11:12:44

2023-07-07 09:32:57

GPT-4OpenAI

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-07-11 15:30:08

GPT-4架構

2023-04-09 16:17:05

ChatGPT人工智能

2025-08-18 09:15:00

2023-03-16 19:17:57

2023-03-28 08:23:38

2023-06-19 08:19:50

2025-08-19 08:40:00

AI技術模型

2023-08-17 08:00:00

2023-09-19 13:48:31

AI數據

2025-04-16 09:35:03

2023-12-09 14:30:50

2025-08-07 14:05:40

OpenAI大模型開源

2024-05-14 07:30:52

OpenAIGPT-4模型

2021-03-23 15:21:00

人工智能機器學習技術

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2021-07-13 17:38:49

算法語言模型GPT-4

2022-04-20 10:47:46

AIGPT-4
點贊
收藏

51CTO技術棧公眾號

亚洲第一天堂网| 538任你躁在线精品视频网站| wwww亚洲| 久久久噜噜噜久噜久久综合| 国产精品白嫩美女在线观看| 色撸撸在线视频| 日韩欧美中文字幕在线视频| 精品成人乱色一区二区| 五月天亚洲综合小说网| www.激情五月.com| 国产精品亚洲综合色区韩国| 日韩最新av在线| 精品国产av色一区二区深夜久久 | 一级成人免费视频| 韩国精品一区二区三区| 国产亚洲精品美女久久久| 色偷偷中文字幕| 婷婷电影在线观看| 亚洲精品视频在线观看网站| 欧美精品一区在线| а√中文在线资源库| 男女av一区三区二区色多| 久久久国产91| 亚洲精品一区二区三区影院忠贞| 亚洲国产高清在线观看| 精品视频1区2区| a√天堂在线观看| av黄在线观看| 国产精品国产三级国产普通话99 | 波多野结衣 在线| 精品国产一区二区三区2021| 在线观看日韩电影| 怡红院av亚洲一区二区三区h| 成人在线app| 国产精品天美传媒| 日本一区二区久久精品| 日本黄色一区二区三区| 韩国午夜理伦三级不卡影院| 奇米四色中文综合久久| 日本少妇激情视频| 欧美色综合网| 久久中文字幕一区| 国产精品视频在| 国产成人3p视频免费观看| 亚洲黄色有码视频| 女同性αv亚洲女同志| 亚洲日本免费电影| 欧美浪妇xxxx高跟鞋交| 牛夜精品久久久久久久| 国产精品一区二区av影院萌芽| 亚洲国产综合在线| 免费观看亚洲视频| av网址在线看| 亚洲视频在线一区观看| 小说区视频区图片区| 欧美日韩在线看片| 最好看的中文字幕久久| 一本色道久久综合亚洲二区三区 | 无罩大乳的熟妇正在播放| 日本在线观看高清完整版| 亚洲欧美另类久久久精品2019| 一区国产精品| 看女生喷水的网站在线观看| 最新日韩在线视频| 粉嫩av一区二区三区天美传媒 | 中文字幕av网址| 欧美亚洲tv| 亚洲欧美日本另类| 久久亚洲AV无码专区成人国产| 国产成人ay| 在线国产精品播放| 亚洲综合图片一区| 91不卡在线观看| 欧美第一黄网免费网站| 亚洲黄色一区二区| 久久夜色精品| 成人xxxx视频| 人妻与黑人一区二区三区| av成人动漫在线观看| 欧美日韩高清在线一区| 国产一级网站视频在线| 亚洲天堂成人网| 大荫蒂性生交片| 在线中文字幕播放| 在线免费观看不卡av| 欧美一级特黄aaa| 911精品国产| 亚洲免费电影一区| 国产黄色片在线| 黄色亚洲免费| 国产精品高精视频免费| 国产成人精品av在线观| av电影天堂一区二区在线| 日本日本精品二区免费| 黄色网址在线免费观看| 午夜不卡av在线| 日本免费观看网站| 高清一区二区中文字幕| 亚洲国产97在线精品一区| 91麻豆制片厂| 亚洲国产片色| 国产日本欧美在线观看| 欧美一区二不卡视频| 国产欧美日韩三级| 男人草女人视频| 欧美精品高清| 亚洲国产精品一区二区久| 一二三四国产精品| 亚洲午夜激情在线| 国产精品免费看久久久香蕉| 成人激情四射网| 欧美激情自拍偷拍| 青娱乐自拍偷拍| 国产一区二区久久久久| 亚洲精品福利在线观看| 91免费在线看片| 国产精品嫩草99av在线| 成人免费观看网址| 国产有码在线| 精品福利视频导航| aaaaaaaa毛片| 色欧美自拍视频| 8x海外华人永久免费日韩内陆视频| 国产又粗又黄又爽| 久久精品男人天堂av| 妺妺窝人体色777777| 99国内精品久久久久| 国产一区二区精品丝袜| 福利一区二区三区四区| 国产自产v一区二区三区c| 日韩av一区二区三区在线| 不卡视频观看| 精品国内片67194| 182在线观看视频| 亚洲欧美日韩精品一区二区 | 91精品大全| 色婷婷久久久综合中文字幕| 欧美激情一区二区三区p站| 欧美成免费一区二区视频| 日韩美女中文字幕| 日本在线视频1区| 激情成人在线视频| 波多野结衣影院| 99成人在线| 国产一区精品在线| 暧暧视频在线免费观看| 日韩精品中文字幕一区二区三区| 国产成人av免费在线观看| 麻豆精品视频在线观看视频| 亚洲国产一区二区三区在线播 | 日本电影全部在线观看网站视频| 色成人在线视频| 国产精品高清无码在线观看| 噜噜爱69成人精品| 欧美理论一区二区| 毛片无码国产| 中文字幕日韩av| 在线免费看91| 亚洲欧美日韩精品久久久久| 婷婷激情综合五月天| 婷婷综合五月| 91丨九色丨国产| 色呦呦在线看| 亚洲精品www| 亚洲va在线观看| 久久久精品中文字幕麻豆发布| 欧美视频第一区| 精品美女久久久| 成人精品在线观看| 羞羞网站在线看| 亚洲大胆人体在线| 亚洲第一精品在线观看| 久久久久久免费毛片精品| 精品久久久久久久免费人妻| 欧美一区二区三区激情视频| 国产主播喷水一区二区| 色呦呦在线视频| 精品夜色国产国偷在线| 中文字幕+乱码+中文| 成人欧美一区二区三区1314| 无人码人妻一区二区三区免费| 亚洲国产专区| 日本精品一区二区三区不卡无字幕| 狂野欧美性猛交xxxx| 精品自在线视频| 日韩三级电影网| 在线播放亚洲一区| 日本系列第一页| 国产网站一区二区三区| 国产精品久久久久久久av福利| 日韩一区二区免费看| 性欧美.com| 国产成人精品亚洲线观看| 国产精国产精品| 色综合999| 一区二区三区在线播放欧美| 免费av网站观看| 在线观看免费成人| 激情五月婷婷小说| 国产日韩精品一区二区三区在线| 男男受被啪到高潮自述| 午夜一区不卡| 国产尤物av一区二区三区| 国产伦一区二区三区| 3d动漫啪啪精品一区二区免费 | 成人动漫在线观看视频| 亚洲国产欧美日本视频| 欧美另类高清videos| 国产视频精品久久| 精品国产精品网麻豆系列| 综合久久中文字幕| 午夜欧美在线一二页| 丝袜美腿小色网| 国产精品欧美一区喷水| 国产精品一区二区人妻喷水| 国产一区二区在线影院| 少妇高清精品毛片在线视频| 伊人久久综合| 中国女人做爰视频| 日韩精品一区二区久久| 欧美三日本三级少妇三99| 一区二区亚洲视频| 成人黄色免费网站在线观看| 99精品国自产在线| 欧美一区二区三区精品电影| 国产精品国精产品一二| 久久久av亚洲男天堂| av在线电影院| 国产亚洲欧美aaaa| 色视频在线看| 亚洲激情 国产| 亚洲精品字幕在线观看| 在线播放亚洲一区| 国产一区二区自拍视频| 在线亚洲人成电影网站色www| 天堂网一区二区三区| 亚洲综合在线第一页| 在线观看美女av| 国产精品国产三级国产aⅴ中文| 性欧美一区二区| 久久久久久99精品| 亚洲欧美色图视频| 2021中文字幕一区亚洲| 99久久人妻无码中文字幕系列| 成人自拍视频在线观看| 亚洲一级片免费观看| 国产精品一区免费在线观看| 亚洲欧美另类动漫| 日韩国产精品大片| 免费男同深夜夜行网站| 久久亚洲影院| 国产精品久久久毛片| 麻豆国产精品一区二区三区| 国产精品一区二区小说| 美女www一区二区| 黄色小视频免费网站| 国模娜娜一区二区三区| 精品国产鲁一鲁一区二区三区| 国产一区二区导航在线播放| 男人女人拔萝卜视频| 国产suv一区二区三区88区| 性生活一级大片| 成人一区二区在线观看| 理论片大全免费理伦片| 96av麻豆蜜桃一区二区| 草草影院第一页| 日本一区二区不卡视频| 精品无码一区二区三区蜜臀| 一区二区三区中文在线| 久久精品无码人妻| 黑人巨大精品欧美一区二区三区| 欧美一级特黄视频| 欧美丝袜丝交足nylons| 国产三区在线播放| 日韩免费一区二区| 图片区 小说区 区 亚洲五月| 亚洲美女视频网站| 午夜激情视频在线观看| 久久99亚洲精品| 亚洲十八**毛片| 国产欧美精品一区二区| 久久伊人精品| 久久综合一区二区三区| 欧美激情777| 国产原创中文在线观看| 日本vs亚洲vs韩国一区三区二区| 三级性生活视频| 97久久精品人人做人人爽50路| 免费福利视频网站| 亚洲精品免费电影| 免费观看一区二区三区毛片 | 不卡视频免费在线观看| 日韩国产欧美精品在线| av免费观看一区二区| 九色精品美女在线| 女生影院久久| 91精品网站| 欧洲专线二区三区| 国产在线无码精品| 老色鬼久久亚洲一区二区| www.久久com| 国产亚洲精品资源在线26u| 欧美激情图片小说| 在线观看亚洲a| 动漫av一区二区三区| 国产一区二区三区欧美| 成人福利影视| 成人xxxx视频| 免费视频国产一区| 97超碰国产精品| 麻豆精品国产91久久久久久| 成人手机在线免费视频| 玉米视频成人免费看| 波多野结衣人妻| 日韩av综合中文字幕| 岛国中文字幕在线| 国产精品69精品一区二区三区| 成人av激情人伦小说| 影音先锋亚洲视频| 久久永久免费| 91精品小视频| 亚洲福利国产精品| 99热这里只有精品1| 中文字幕v亚洲ⅴv天堂| 中文字幕在线直播| 国产日韩欧美二区| 欧美视频一区| 午夜天堂在线视频| 国产精品乱码人人做人人爱| 日韩美一区二区| 日韩精品极品视频免费观看| 免费在线国产视频| 亚洲曰本av电影| 98精品视频| 欧美午夜aaaaaa免费视频| 久久久.com| 亚洲国产精品无码久久久| 亚洲精品97久久| 韩国精品一区| 久久艳妇乳肉豪妇荡乳av| 黄色欧美成人| 中文字幕一区二区三区乱码不卡| 亚洲最大的成人av| 亚洲av无码国产精品久久不卡| 久久夜精品香蕉| 久久久久久爱| 精品一二三四五区| 成人综合激情网| 国产午夜福利片| 亚洲成色777777女色窝| gogo高清午夜人体在线| 成人片在线免费看| 激情综合电影网| 尤物网站在线观看| 午夜精品久久久久影视| 五月天婷婷在线播放| 欧美亚洲在线播放| 精品黄色一级片| 亚洲欧洲日本精品| 一区二区中文视频| 成人福利小视频| 69精品小视频| 国产一区二区三区网| 男女男精品视频站| 亚洲日本青草视频在线怡红院| 国内精品久久久久久久久久| 久久乐国产精品| 伊人成综合网yiren22| 日本888xxxx| 亚洲欧美日韩在线不卡| 国产综合无码一区二区色蜜蜜| 69影院欧美专区视频| 国产精品一区二区av日韩在线| 性刺激的欧美三级视频| 自拍av一区二区三区| 国精产品一品二品国精品69xx | silk一区二区三区精品视频 | 91欧美精品成人综合在线观看| 999精品色在线播放| 亚洲一区二区三区观看| 亚洲午夜在线电影| 亚洲欧美日韩免费| 国产精品一区电影| 综合激情婷婷| 国产精品第七页| 欧美日韩国产三级| 免费毛片在线看片免费丝瓜视频 | 日本一区二区在线播放| 日本一区二区高清不卡| 美女被爆操网站| 在线一区二区三区| 欧美性爽视频| 亚洲一区二区三区涩| 国产 日韩 欧美大片| 久久久精品毛片| 色综合导航网站| 波多野结衣的一区二区三区 | 欧美日韩国产二区| 色棕色天天综合网| 中文字幕1区2区|