精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Chinchilla之死：只要訓練足夠長時間，小模型也能超過大模型

作者：小模型 2023-10-04 00:16:00

近日，博主 Thaddée Yann TYL 寫了一篇題為《Chinchilla 之死》的文章，其中分析解讀了 OpenAI 與 DeepMind 幾篇論文中的細節(jié)，得到了一個出人意料的結(jié)論。

2022 年 3 月，DeepMind 一篇論文《Training Compute-Optimal Large Language Models》通過構(gòu)建的 Chinchilla 模型得出了一個結(jié)論：大模型存在訓練不足的缺陷，模型大小和訓練 token 的數(shù)量應(yīng)該以相等的比例擴展。也就是說模型越大，所使用的訓練 token 也應(yīng)該越多。

但事實可能并非如此，近日，博主 Thaddée Yann TYL 寫了一篇題為《Chinchilla 之死》的文章，其中分析解讀了 OpenAI 與 DeepMind 幾篇論文中的細節(jié)，得到了一個出人意料的結(jié)論：如果有充足的計算資源和數(shù)據(jù)，訓練足夠長時間，小模型的表現(xiàn)也可以超越大模型。

多算勝，少算不勝?！秾O子兵法》

為了避免將算力浪費于緩慢的收斂過程中，進行外推是非常重要的。畢竟，如果你不得不步行去珠穆朗瑪峰，你不會只靠眼睛辨別方向，而是會使用 GPS。

但有時候，你又不得不把視線從 GPS 上移開，看看道路。有些東西是無法通過簡單的公式推斷出來的。對十九世紀的物理學家來說，紫外災(zāi)變（ Ultraviolet catastrophe）便是如此；而現(xiàn)在，LLM 亦是如此。我們估計在中心位置附近有效的東西可能在遠處會出現(xiàn)巨大的偏差……

《我的世界》的邊境之地（far lands），這是突然扭曲并與自身重疊的懸崖之地。

Chinchilla 到底是什么？

更小的模型執(zhí)行的乘法更少，因而訓練得也更快。但是，按照理論，更小的模型最終會觸及自身知識容量的極限，并且學習速度會變慢；而有更大知識容量的大型模型在經(jīng)過給定的訓練時間后會超過小模型，取得更好的性能表現(xiàn)。

在評估如何在訓練期間獲得最佳性價比時，OpenAI 和 DeepMind 都會試圖繪制帕累托邊界（Pareto frontier）。雖然他們沒有明確說明他們使用了該理論來繪制，但 OpenAI 曾說過的一句話暗示存在這個隱藏假設(shè)：

我們預計更大模型的表現(xiàn)應(yīng)當總是優(yōu)于更小的模型…… 大小固定的模型的能力是有限的。

這一假設(shè)是他們計算帕累托邊界的基石。在 Chinchilla 研究中，圖 2 展示了不同大小的模型經(jīng)過大量訓練時的訓練損失變化情況。初看之下，這些曲線與理論相符：更小的模型一開始的損失更低（表現(xiàn)更好），但損失降低的速度最終變慢并被更大模型的曲線超越。

比較許多不同模型大小的損失曲線的 Chinchilla 圖

在這幅圖中，每當更小的模型輸給一個更大的模型時，他們就會標記一個灰點。這些點連成的灰線便是帕累托邊界，這是他們計算縮放定律（scaling laws）的方式。

這一假設(shè)有個問題：我們不知道如果讓更小的模型訓練更長時間會發(fā)生什么，因為他們在小模型被超越時就不再繼續(xù)訓練它們了。

接下來在看看 Llama 論文。

Chinchilla 會有 Llama 的視野嗎？

今年初，Meta 訓練了四個不同大小的模型。不同于其它研究，其中每個模型都被訓練了非常長時間，較小的模型也一樣。

他們公布了所得到的訓練曲線：

四個不同大小的 Llama 模型的訓練損失曲線

每條曲線首先按照冪律大幅下降。
然后損失開始近乎線性地下降（對應(yīng)于一個相當恒定的知識獲取率）。
在這條曲線的最右端，直線趨勢被稍微打破，因為它們稍微變更平緩了一些。

首先，對于曲線末端的變平情況，這里解釋一下人們可能有的一個微妙的誤解。這些模型都是通過梯度下降訓練的并且使用了可變的學習率（大致來說，這個超參數(shù)定義了每次朝梯度方向前進的程度）。為了獲得優(yōu)良的訓練效果，學習率必須不斷降低，這樣模型才能檢測到源材料中更細微的模式。他們用于降低學習率的公式是最常用的余弦調(diào)度（cosine schedule）。

在余弦調(diào)度下，學習率與訓練步數(shù)的函數(shù)關(guān)系：學習率首先線性增長，然后下降且下降速度變快，之后到達中途一個轉(zhuǎn)折點，下降速度再減慢。

從這張圖中可以看到，在訓練結(jié)束時，余弦調(diào)度會停止降低學習率，此時已經(jīng)得到一個很好的近乎線性的訓練損失曲線。學習速度減慢就是這種做法造成的。模型并不一定不再具有以同樣近乎線性的速率學習的能力！事實上，如果我們能為其提供更多文本，我們就能延長其余弦調(diào)度，這樣其學習率就會繼續(xù)以同樣速率下降。

模型的適應(yīng)度圖景并不取決于我們供給它訓練的數(shù)據(jù)量；所以學習率下降趨勢的改變是沒有道理的。

不過這并非本文的重點。

訓練損失曲線可能在另一方向上也存在誤導性。當然，它們訓練使用的數(shù)據(jù)是一樣的，但它們處理這些數(shù)據(jù)的速度不同。我們想知道的并不是模型的樣本效率如何（在這方面，更大的模型顯然可以從其所見數(shù)據(jù)中學到更多）。讓我們想象一場比賽：所有這些模型同時開始起步，我們想知道哪個模型首先沖過終點線。換句話說，當在訓練時間投入固定量的算力時，哪個模型能在那段時間內(nèi)學到更多？

幸好我們可以把這些損失曲線與 Meta 提供的另一些數(shù)據(jù)組合起來看：每個模型訓練所用的時間。

先來談?wù)勆厦嫖覀兛催^的那張 Chinchilla 圖，其僅占這張圖左側(cè)的一小部分。在這一小部分，可以看到 Chinchilla 記錄的相同行為。以 7B 版本為例：其損失的下降速度一開始比更大的模型快得多，然后減慢；之后 13B 版本模型超過了它，率先到達 1.9。

然后，抵達邊境之地，意外的轉(zhuǎn)折出現(xiàn)了：7B 版本進入了近乎線性的疆域，損失穩(wěn)步下降，看起來似乎走上了反超 13B 版本之路？如果能訓練 7B 版本更長時間，說不好會發(fā)生什么。

但是，13B 和 33B 版本之間似乎也有類似的現(xiàn)象，其中 13B 版本起初的 Chinchilla 減慢也使其呈現(xiàn)出近乎線性的趨勢，這時候 13B 版本的損失下降速度似乎很快！33B 其實勝之不武，因為它超越 13B 版本時已經(jīng)用去了超過兩倍的計算時間。

33B 和 65B 版本之間也有同樣的先減速再加速的現(xiàn)象，以至于 33B 實際上從未被 65B 超越。這幅圖的內(nèi)容擊破了 OpenAI 和 Chinchilla 的假設(shè)：更大的模型并未取得勝利（至少說還沒有）。他們檢測到的這種減速實際上并不是由于達到了某個能力極限！

盡管如此，7B 模型的線還是有點不盡如人意。如果 Meta 能訓練更長時間就好了……

不賣關(guān)子了：他們訓練了！他們發(fā)布了 Llama 2！

是時候證實我們的懷疑了

四個不同大小的 Llama 2 模型的訓練損失曲線

同樣，可以得到訓練時間：

Llama 2 訓練損失與所耗費的 GPU 時間

一眼便能看出，這里的訓練損失曲線與 Llama 1 的不一樣，即便這些基礎(chǔ)模型是一樣的。事實證明， Llama 2 的訓練使用了雙倍上下文大小和更長的余弦調(diào)度 —— 不幸的是，這會對所有模型大小產(chǎn)生負面影響。但是，更小的模型受到的影響比更大的模型更嚴重。由此造成的結(jié)果是：在 Llama 1 的訓練時間，33B 模型總是優(yōu)于 65B 模型；而在 Llama 2 的訓練時間，34B 模型則在重新超過 70B 模型之前要略遜一籌。

更重要的是，對訓練速度的比較強烈地佐證了之前對 Llama 1 的猜想：

一開始時，更小的模型快于更大的模型。
然后，更小的模型速度變慢，并被更大的模型超越（按照 Chinchilla）。
但再然后，模型進入近乎線性的區(qū)域，這時候更小的模型能更快地下降，獲取更優(yōu)的知識，它們再次超越更大的模型。

這就帶來了一個有關(guān)訓練方法的結(jié)論：與普遍的看法相反，更大的模型會產(chǎn)生更差的結(jié)果。如果你必須選擇一個參數(shù)大小和數(shù)據(jù)集，你可能最好選擇 7B 模型，然后在數(shù)萬億 token 上訓練 7 epoch。

請看看 7B 模型近乎線性的區(qū)域，然后將其模式外推給 70B 模型，看看 70B 模型訓練停止時的情況：如果將 70B 模型的訓練資源花在 7B 模型上，可能會達到更低的困惑度！

從 Llama 2 的曲線還能看到另一點：Llama 1 曲線末端的學習減速實際上是余弦調(diào)度造成的。在 Llama 2 的訓練中，在對應(yīng)于 1 萬億 token 讀取數(shù)的位置，就完全沒有這種減速。

事實上，原因可能是這樣的：在同一位置， Llama 2 7B 模型的質(zhì)量低于 Llama 1 7B 模型，可能是因為其余弦調(diào)度被拉長了！

現(xiàn)在我們回到那篇 Chinchilla 論文來論證這一點。在該論文的附錄 A 的圖 A1 中，他們給出了一個不同余弦調(diào)度參數(shù)的消融實驗，換句話說就是對學習率曲線使用不同的延展方式。

Chinchilla 余弦調(diào)度消融研究

他們指出，當學習率曲線沒有延展時，能實現(xiàn)最低的損失。這得到了圖表的支持，但其中也有不對勁的地方。在讀取了 600 萬 token 后，上圖模型的訓練損失低于 2.8；與此同時，在相同的位置，下圖模型的訓練損失還更好。然而這兩個模型的差異僅僅是余弦調(diào)度！由于下圖模型注定會處理更多訓練數(shù)據(jù)，所以就計算了「未拉伸的」余弦調(diào)度更多步驟，這實際上產(chǎn)生了拉伸效果。如果學習率遵循分配給更少訓練步驟的余弦調(diào)度，其在同等訓練時間下的損失會更低。

更廣泛地說，這會引出一個有待解答的問題：如果余弦調(diào)度不是最優(yōu)的，那么曲線的尾部形狀應(yīng)該是什么樣子？

責任編輯：趙寧寧來源：小模型

Chinchilla 小模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

免费看欧美女人艹b| 日韩精品免费一区二区三区竹菊 | av成人观看| www.youjizz.com亚洲| 在线日韩网站| 在线播放亚洲一区| 黄页免费在线观看视频| 久久电影中文字幕| 国产一区二区三区不卡在线观看| 午夜精品久久久久久久男人的天堂| 法国伦理少妇愉情| www.久久热| 粉嫩老牛aⅴ一区二区三区| 日韩一本精品| 日韩在线观看视频一区二区三区| 日本特黄久久久高潮| 欧美大尺度激情区在线播放| 久久福利小视频| 在线观看欧美| 色婷婷精品大视频在线蜜桃视频| 天天在线免费视频| 韩国三级av在线免费观看| 高清av一区二区| 国产美女主播一区| 国产又大又黑又粗免费视频| 欧美顶级大胆免费视频| 精品无人区乱码1区2区3区在线| 免费精品99久久国产综合精品应用| 1区2区在线| 18欧美亚洲精品| 欧洲精品国产| 无码国产精品96久久久久| 久久福利视频一区二区| 日韩av不卡在线| 国产精品111| 亚洲国产一成人久久精品| 国产一区二区三区在线观看视频| 永久免费未满蜜桃| 免费精品一区| 这里只有精品视频在线观看| 欧美大尺度做爰床戏| 国内激情视频在线观看| 一区二区三区中文在线观看| 亚洲日韩国产第一区| 日中文字幕在线| 不卡的av中国片| 成人h在线播放| 国内老熟妇对白hdxxxx| 狠狠色狠狠色综合系列| 国产欧美精品日韩| 一级aaaa毛片| 捆绑调教美女网站视频一区| 国产精品视频在线观看| 日韩精品久久久久久免费| 亚洲影视在线| 青青草一区二区| 四虎精品永久在线| 国产欧美另类| 欧美专区中文字幕| 久久精品国产成人av| 亚洲制服少妇| 日本一区二区不卡| 精品久久久久久久久久久国产字幕| 国产日韩一区二区三区在线播放 | 成人黄色视屏网站| 在线影院国内精品| 一区二区xxx| 亚洲男女网站| 日韩一区二区免费电影| 波多野结衣三级视频| 成人免费直播在线| 日韩av最新在线观看| 美国黄色一级毛片| 欧美女王vk| 综合激情国产一区| www欧美com| 亚洲国产综合在线看不卡| 亚洲3p在线观看| 国产一区二区视频免费| 免费国产亚洲视频| 亚洲一区二区三区毛片| 俄罗斯嫩小性bbwbbw| 99久久婷婷国产综合精品| 麻豆亚洲一区| 日本中文字幕在线播放| 一区二区三区四区不卡视频 | 91香蕉一区二区三区在线观看| 亚洲激情五月| 久久久久亚洲精品国产| 欧美国产成人精品一区二区三区| 日产国产高清一区二区三区| 91亚洲精品久久久| 欧洲精品久久一区二区| 国产欧美精品区一区二区三区 | 久久久久一区二区| 2019中文字幕在线视频| 亚洲线精品一区二区三区八戒| 日本免费不卡一区二区| 成人在线免费av| 日韩欧美电影一区| 久久成人激情视频| 欧美女人交a| 国产精品高潮粉嫩av| 午夜精品久久久久久久爽| 久久久久久久综合| 黄色一级视频播放| 国产精品电影| 6080午夜不卡| 国产成人无码精品久久二区三| 综合国产精品| 国产精品久久久久久中文字| 免费看黄色一级视频| 国产精品国产三级国产| 免费成人在线视频网站| a一区二区三区亚洲| 亚洲视频在线观看视频| 九九视频在线观看| 老司机精品视频在线| 美日韩精品免费| 污片在线免费观看| 欧美欧美欧美欧美| 三级网站在线免费观看| 国语对白精品一区二区| 国产免费一区二区三区在线观看 | 成人免费毛片嘿嘿连载视频| 91免费网站视频| 666av成人影院在线观看| 亚洲精品一区二区精华| 欧美日韩在线观看免费| 美女免费视频一区二区| 欧美福利精品| 黄在线观看免费网站ktv| 日韩精品一区二区在线观看| 欧美第一页在线观看| 久久精品国产网站| 日本免费高清一区二区| 涩涩av在线| 亚洲精品久久久久国产| 久久免费小视频| 国产高清精品网站| 婷婷视频在线播放| 日本在线一区二区| 中文字幕亚洲欧美| 国产精品第6页| 久久久青草青青国产亚洲免观| 男人添女人下面高潮视频| 日本一区二区三区播放| 久久精品一偷一偷国产| 亚洲中文字幕一区二区| 国产精品毛片大码女人| 久久久久久三级| 欧美精品一区二区三区精品| 人人爽久久涩噜噜噜网站| 亚洲av成人精品一区二区三区在线播放 | 呦呦在线视频| 日韩欧美一区在线| 69av.com| 97超碰欧美中文字幕| 久久久亚洲国产精品| 国产精品久久久久av蜜臀| 国模精品系列视频| 香港一级纯黄大片| 欧美性极品xxxx做受| 午夜在线观看一区| 久久99久久精品欧美| 天天干天天色天天爽| 深夜激情久久| 97久久精品人人澡人人爽缅北| 日韩a在线观看| 日本精品一区二区三区四区的功能| 中文字幕有码在线播放| 另类人妖一区二区av| 九一免费在线观看| 福利在线一区| 国产91精品最新在线播放| melody高清在线观看| 在线综合+亚洲+欧美中文字幕| 欧美精品久久久久性色| 99精品欧美一区二区蜜桃免费| 欧美激情成人网| 日韩欧美综合| av一区二区三区四区电影| 午夜伦理福利在线| 伊人一区二区三区久久精品 | 亚洲国内高清视频| 69国产精品视频免费观看| 国产精品亲子伦对白| 欧美一级片在线免费观看| 久久婷婷影院| 国产人妻人伦精品| 香蕉久久夜色精品国产更新时间 | 欧美麻豆久久久久久中文| 日批视频在线播放| 欧美三日本三级三级在线播放| 欧美色图亚洲天堂| 久久亚洲精精品中文字幕早川悠里| 亚洲欧美日韩一级| 亚洲激情一区| 一区二区三区国| 偷拍亚洲色图| av成人午夜| 国产精品一区二区免费福利视频| 久久成人人人人精品欧| 青青久在线视频免费观看| 在线不卡一区二区| 日本黄色片视频| 国产精品国产三级国产| 久久久久久久久免费看无码| 国产麻豆一精品一av一免费| 六月丁香婷婷在线| 欧美高清不卡| 日韩电影免费观看高清完整| 东京久久高清| 91深夜福利视频| 老司机2019福利精品视频导航| 欧美激情在线播放| 欧美性videos| 亚洲最新在线视频| 手机av免费在线观看| 日韩一区二区视频| 亚洲综合精品国产一区二区三区| 精品久久久久久久久中文字幕| 最新一区二区三区| 中文字幕精品三区| 丰满少妇高潮一区二区| 丁香激情综合五月| 毛毛毛毛毛毛毛片123| 久久精品国产亚洲高清剧情介绍 | 国产午夜福利片| 亚洲欧美激情视频在线观看一区二区三区 | 欧美亚洲色图校园春色| 97超碰在线播放| 只有精品亚洲| 国产精品视频xxxx| 欧美日韩123区| 日本免费久久高清视频| 狠狠操一区二区三区| 色综合久久88| 91黄色在线| 欧美老女人性视频| 国产素人视频在线观看| 日韩在线观看av| 色网站在线看| 中文字幕日韩在线播放| 国产视频福利在线| 一区二区三区高清国产| 黄视频在线播放| 亚洲午夜av电影| 成年人在线视频| 一区二区三区动漫| 91涩漫在线观看| 久久精品国产亚洲7777| 国产淫片在线观看| 欧美精品做受xxx性少妇| 在线看一级片| 国产69精品久久久久9| 多野结衣av一区| 国产91精品高潮白浆喷水| 极品在线视频| 日产精品99久久久久久| 搜成人激情视频| 成人午夜小视频| 日韩一区二区三区色| 国产亚洲一区在线播放 | 午夜精品福利一区二区| 天天av综合| 欧美人与动牲交xxxxbbbb| 亚洲视频一区| 国产中文字幕在线免费观看| 麻豆久久精品| 久热精品在线播放| 国产jizzjizz一区二区| 午夜一区二区三区免费| 中文字幕欧美三区| 卡通动漫亚洲综合| 偷拍日韩校园综合在线| 91黑人精品一区二区三区| 欧美人妖巨大在线| 亚洲第九十九页| 亚洲欧洲在线播放| 青青青青在线| 45www国产精品网站| 成人黄页网站视频| 99久久精品无码一区二区毛片| 日韩三级毛片| 五月天综合婷婷| 一区二区精品| 欧美特黄aaa| 99久久久无码国产精品| 国产在线综合视频| 亚洲影视在线播放| 国产无遮挡又黄又爽又色视频| 日韩你懂的在线观看| 精品视频一二区| 九九精品视频在线观看| 国偷自产一区二区免费视频| 91美女片黄在线观看游戏| 欧美精品中文字幕亚洲专区| 亚洲最新在线| 美女精品网站| 国产chinese中国hdxxxx| 欧美激情综合五月色丁香| 国产精品第二十页| 欧美久久一区二区| 日韩美女一级视频| 欧美成人精品激情在线观看| 欧美第一视频| 国产精品果冻传媒潘| 成人在线视频免费观看| 91丨porny丨探花| 国产乱码一区二区三区| 一区二区三区伦理片| 亚洲v中文字幕| 精品人妻久久久久一区二区三区| 在线观看国产精品91| 蜜桃视频m3u8在线观看| 96成人在线视频| 91亚洲自偷观看高清| 玩弄japan白嫩少妇hd| www.欧美日韩国产在线| 污软件在线观看| 欧美少妇bbb| 可以在线观看的av网站| 性欧美亚洲xxxx乳在线观看| 天堂va在线高清一区| 国产一区一区三区| 日本不卡视频在线| 久久久久久亚洲中文字幕无码| 亚洲成av人片在www色猫咪| 国产特黄一级片| 久久精品视频中文字幕| 国产极品嫩模在线观看91精品| 日本免费高清不卡| 天堂一区二区在线| 中文字幕av网址| 欧美午夜片在线免费观看| 日韩在线视频免费| 午夜精品www| 欧美久久精品| 无码播放一区二区三区| 91免费看片在线观看| 亚洲欧美视频| 日韩成人在线视频观看| 超碰资源在线| 精品网站在线看| 亚洲欧美久久| 强伦人妻一区二区三区| 一本一道久久a久久精品| 青青草免费观看免费视频在线| 欧洲精品在线视频| 黑人操亚洲人| 国产视频手机在线播放| 中文字幕在线不卡视频| 91免费视频播放| 免费av一区二区| 成人黄色av网址| 黄色片视频在线免费观看| 2023国产一二三区日本精品2022| 青青青在线视频免费观看| 成人黄色综合网站| 日本系列第一页| 日韩经典一区二区三区| 亚洲高清黄色| 在线观看欧美激情| 国产成人精品免费一区二区| 伊人365影院| 亚洲全黄一级网站| 国产精品美女午夜爽爽| 性生活免费观看视频| 不卡的看片网站| 国产成人无码专区| 爽爽爽爽爽爽爽成人免费观看| 国产精品一区三区在线观看| 亚洲理论电影在线观看| 久久日一线二线三线suv| 亚洲精品一区二区二区| 美女少妇精品视频| 偷窥自拍亚洲色图精选| 精品亚洲一区二区三区四区| 一区二区三区在线播| 天堂中文字幕av| 国产日韩欧美91| 亚洲美女啪啪| 国产不卡在线观看视频| 欧美成人精品高清在线播放| 天堂√8在线中文| 午夜啪啪免费视频| a亚洲天堂av| 国产又粗又黄视频| 国语自产精品视频在线看一大j8| 国产欧美一区| 欧美一级片在线免费观看| 色婷婷亚洲精品| 青草视频在线免费直播| 欧美亚洲免费高清在线观看| 国产伦精品一区二区三区视频青涩 | 国产精品精品久久久| 欧美成人午夜| 欧美性受xxxx黑人| 精品国产髙清在线看国产毛片|