精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型開發(fā)者必讀!拆解世界級AI模型的誕生,Hugging Face把4年模型訓(xùn)練經(jīng)驗(yàn)寫成了一本開源指南

人工智能 新聞
這份詳盡的指南,由12位Hugging Face的頂尖工程師團(tuán)隊(duì)打造,記錄了他們訓(xùn)練模型的全部心路歷程,可以說是一份真正意義上的手把手實(shí)戰(zhàn)指南,將Hugging Face團(tuán)隊(duì)約4年來構(gòu)建最先進(jìn)(SOTA)模型和數(shù)據(jù)集的所有經(jīng)驗(yàn),毫無保留地公之于眾。

大模型開發(fā)者必讀!

Hugging Face發(fā)布了《The Smol Training Playbook:The Secrets to Building World-Class LLMs》模型訓(xùn)練秘訣。

這份詳盡的指南,由12位Hugging Face的頂尖工程師團(tuán)隊(duì)打造,記錄了他們訓(xùn)練模型的全部心路歷程,可以說是一份真正意義上的手把手實(shí)戰(zhàn)指南,將Hugging Face團(tuán)隊(duì)約4年來構(gòu)建最先進(jìn)(SOTA)模型和數(shù)據(jù)集的所有經(jīng)驗(yàn),毫無保留地公之于眾。

官方推薦2~4天讀完。

這本手冊,讓這個(gè)過去被神秘光環(huán)籠罩的過程,變得透明、可及、高效。它適合所有對AI訓(xùn)練抱有熱忱的人,無論你是初學(xué)者、研究員,還是身處一線的工程師。

最好別訓(xùn)練模型

手冊開篇就提出了一個(gè)顛覆性的觀點(diǎn)。

在投入數(shù)百萬美元計(jì)算資源之前,必須回答一個(gè)最根本的問題:為什么需要訓(xùn)練一個(gè)新模型?

Hugging Face的經(jīng)驗(yàn)表明,99%的情況下,你根本不應(yīng)該從頭開始訓(xùn)練。

為了避免無謂的資源消耗,他們設(shè)計(jì)了一個(gè)名為訓(xùn)練指南針的決策框架。這個(gè)框架像一位經(jīng)驗(yàn)豐富的老船長,在你準(zhǔn)備揚(yáng)帆出海燒錢遠(yuǎn)航之前,冷靜地幫你審視航行的必要性。

決策的邏輯鏈條異常清晰。

你有一個(gè)需求。

這個(gè)需求能通過提示工程(Prompt Engineering)解決嗎?

如果不行,能通過檢索增強(qiáng)生成(RAG)解決嗎?

如果還不行,能通過微調(diào)(Fine-tuning)一個(gè)現(xiàn)有模型解決嗎?

如果微調(diào)也不夠,審視一下,現(xiàn)有的開源模型真的無法滿足你的要求嗎?

走完這一系列拷問,你才能觸及那僅存的1%的正當(dāng)訓(xùn)練理由。

Hugging Face將其歸納為三類。

一是前沿研究(Frontier Research)。

比如你正在探索一種全新的網(wǎng)絡(luò)架構(gòu),試圖替代Transformer,或者發(fā)明了一種新的注意力機(jī)制。這種探索未知邊界的行為,值得開啟一次全新的訓(xùn)練。

二是特定的生產(chǎn)需求(Production Specificity)。

當(dāng)你的應(yīng)用場景極端特殊,現(xiàn)有模型無法勝任時(shí)。例如,為一種罕見方言構(gòu)建模型,或者在對延遲要求嚴(yán)苛到毫秒級的邊緣設(shè)備上部署,再或者為醫(yī)療、法律等高度專業(yè)化的領(lǐng)域打造專用模型。

三是戰(zhàn)略性開源(Strategic Open-Source)。

當(dāng)你發(fā)現(xiàn)整個(gè)開源生態(tài)系統(tǒng)中存在一個(gè)明顯的空白,需要有人去填補(bǔ)。Hugging Face自家的StarCoder模型就是如此,當(dāng)時(shí)市面上缺乏一個(gè)足夠強(qiáng)大的代碼生成開源模型。SmolLM系列同樣出于此目的,旨在探索小尺寸模型配合海量高質(zhì)量數(shù)據(jù)的性能極限,為社區(qū)提供一個(gè)能在特定規(guī)模上挑戰(zhàn)閉源模型的選項(xiàng)。

倘若你的理由不屬于這三者中的任何一種,指南針會(huì)明確指向停止的方向。如果屬于,那么恭喜你,準(zhǔn)備開啟一段昂貴但目標(biāo)明確的旅程。

確定要訓(xùn)練后,下一個(gè)問題是,訓(xùn)練一個(gè)什么樣的模型?

這并非一個(gè)越大越好的簡單游戲,而是在參數(shù)規(guī)模、數(shù)據(jù)總量、計(jì)算預(yù)算和預(yù)期性能這四個(gè)變量之間,尋找一個(gè)微妙的平衡點(diǎn)。

規(guī)模定律(Scaling Laws)是重要的參考,但絕非不可違背的圣經(jīng)。

SmolLM3團(tuán)隊(duì)的實(shí)踐發(fā)現(xiàn),當(dāng)數(shù)據(jù)質(zhì)量達(dá)到某個(gè)閾值后,模型的性能可以突破傳統(tǒng)規(guī)模定律預(yù)測的上限。換言之,用更優(yōu)質(zhì)的數(shù)據(jù)喂養(yǎng),一個(gè)較小的模型也能爆發(fā)出驚人的能量。

對SmolLM3而言,這個(gè)平衡點(diǎn)被定格在30億參數(shù)。這個(gè)規(guī)模不大不小,恰到好處。它足夠強(qiáng)大,足以展現(xiàn)出一些復(fù)雜能力;又足夠小巧,可以在單張消費(fèi)級顯卡上流暢運(yùn)行推理,極大地降低了部署門檻。

上下文長度則采用漸進(jìn)式策略,從4K起步,逐步擴(kuò)展至16K以上,這需要在位置編碼方式與訓(xùn)練成本之間做出權(quán)衡。多語言能力的設(shè)計(jì)從一開始就融入數(shù)據(jù)混合策略,而不是等到訓(xùn)練后期再通過微調(diào)打補(bǔ)丁。

最后是如何訓(xùn)練。

這部分構(gòu)成了手冊的主體,但在決策階段就需要確立核心哲學(xué):先用極小的成本進(jìn)行消融實(shí)驗(yàn),再進(jìn)行中等規(guī)模的驗(yàn)證,最后才投入全規(guī)模訓(xùn)練。每個(gè)階段都必須有可靠、可量化的評估指標(biāo)作為導(dǎo)航,同時(shí)對存儲(chǔ)、網(wǎng)絡(luò)、節(jié)點(diǎn)故障率等基礎(chǔ)設(shè)施成本有清醒的認(rèn)識。

魔鬼藏在架構(gòu)與參數(shù)的細(xì)節(jié)里

一旦進(jìn)入模型設(shè)計(jì)的深水區(qū),每一個(gè)微小的組件選擇都可能對最終結(jié)果產(chǎn)生深遠(yuǎn)影響。Hugging Face的工程師們像鐘表匠一樣,對模型的每一個(gè)零件進(jìn)行了數(shù)十次甚至上百次的拆解、測試與重組。

這個(gè)過程的核心原則是小規(guī)模上驗(yàn)證一切。

直覺是廉價(jià)的,而GPU時(shí)間是昂貴的。

SmolLM3團(tuán)隊(duì)運(yùn)行了數(shù)百個(gè)消融實(shí)驗(yàn),每一個(gè)實(shí)驗(yàn)都在為一個(gè)關(guān)鍵決策去風(fēng)險(xiǎn)。這些實(shí)驗(yàn)遵循黃金法則:每次只改變一個(gè)變量,用10億到100億(token)的小規(guī)模數(shù)據(jù)快速迭代,并確保評估指標(biāo)足夠敏感,能夠捕捉到不同配置間的細(xì)微差異。

以注意力機(jī)制為例,這是Transformer模型的心臟。團(tuán)隊(duì)系統(tǒng)性地評估了四種方案。

標(biāo)準(zhǔn)多頭注意力(MHA)效果最好,但它的鍵值緩存(KV Cache)在推理時(shí)會(huì)占用大量內(nèi)存,對于追求極致性能且不計(jì)較部署成本的場景是首選。

多查詢注意力(MQA)則走向另一個(gè)極端,多個(gè)查詢頭共享一個(gè)鍵值頭,內(nèi)存占用最小,推理速度最快,但會(huì)帶來2%到3%的質(zhì)量損失,更適合資源受限的邊緣設(shè)備。

分組查詢注意力(GQA)是前兩者之間的完美妥協(xié)。它將查詢頭分組,每組共享一套鍵值頭,內(nèi)存占用減半,質(zhì)量損失卻不到1%。在10億到30億參數(shù)規(guī)模的模型上,GQA是數(shù)據(jù)驅(qū)動(dòng)下得出的最佳平衡點(diǎn)。SmolLM3最終選擇了它。

還有一種新興的潛在多頭注意力(MLA),它通過低秩投影壓縮鍵值,在處理長上下文時(shí)效率極高。團(tuán)隊(duì)在小規(guī)模測試后發(fā)現(xiàn),在30億參數(shù)的規(guī)模下,MLA帶來的收益尚不明顯,但它被作為未來版本的潛在升級選項(xiàng)保留了下來。

選擇的背后并非一帆風(fēng)順。GQA的實(shí)現(xiàn)有一個(gè)巨大的陷阱。

在進(jìn)行張量并行(Tensor Parallelism)時(shí),如果權(quán)重劃分不當(dāng),可能導(dǎo)致同一個(gè)張量并行組內(nèi)的不同GPU分配到錯(cuò)誤的鍵值頭,使得GQA在功能上退化為MQA。SmolLM3團(tuán)隊(duì)就曾因此遭遇過一次訓(xùn)練到1萬億(token)后被迫重啟的重大事故。

位置編碼是模型理解序列順序、處理長上下文的基石。

旋轉(zhuǎn)位置編碼(RoPE)是當(dāng)前的主流選擇。它的關(guān)鍵在于基值(base)的選擇。基值越大,模型向更長上下文外推的能力就越強(qiáng),但訓(xùn)練的穩(wěn)定性也可能隨之下降。SmolLM3采用10萬作為基值,在4K長度上訓(xùn)練后,模型可以很好地外推到16K的上下文。

線性偏置注意力(ALiBi)是另一個(gè)選項(xiàng),它在長文本上的泛化能力很好,實(shí)現(xiàn)也更簡單,但在短文本上的表現(xiàn)略遜于RoPE。

令人驚訝的是,無位置編碼(NoPE)在某些特定設(shè)置下竟然也行得通。但SmolLM3的消融實(shí)驗(yàn)表明,在30億參數(shù)規(guī)模上,放棄位置編碼會(huì)導(dǎo)致多任務(wù)語言理解(MMLU)評估分?jǐn)?shù)下降約2%,這個(gè)代價(jià)是無法接受的。

一個(gè)關(guān)鍵的創(chuàng)新是文檔內(nèi)掩碼(IntraDoc Masking)。傳統(tǒng)的因果掩碼在不同文檔的邊界處會(huì)阻斷注意力,使得模型無法在打包的序列中跨文檔學(xué)習(xí)。文檔內(nèi)掩碼則允許模型在保持因果性的前提下,在文檔之間建立聯(lián)系,顯著提升了模型對長篇文檔的理解能力。

嵌入層與歸一化層的設(shè)計(jì)同樣充滿了細(xì)節(jié)。

輸入和輸出嵌入層共享權(quán)重,這個(gè)看似簡單的技巧可以減少15%到20%的參數(shù)量。在30億參數(shù)規(guī)模上,SmolLM3的實(shí)驗(yàn)證明這種做法對性能沒有任何損失,因此成為必選項(xiàng)。

歸一化層的位置,前置歸一化(Pre-norm)在超過20次的消融實(shí)驗(yàn)中,因其優(yōu)越的穩(wěn)定性和收斂速度而勝出,盡管理論上它的表達(dá)能力略弱于后置歸一化(Post-norm)。

歸一化的類型,均方根層歸一化(RMSNorm)相比層歸一化(LayerNorm)計(jì)算更快、內(nèi)存占用更少,且效果相當(dāng),因此被全程采用。

查詢鍵歸一化(QK-Norm)是在查詢和鍵進(jìn)行點(diǎn)積后增加一個(gè)歸一化步驟。這個(gè)操作至關(guān)重要,它能有效防止注意力分?jǐn)?shù)在長上下文或半精度(FP16)訓(xùn)練時(shí)發(fā)生爆炸,是穩(wěn)定訓(xùn)練的守護(hù)神。

優(yōu)化器和超參數(shù)的選擇,看似枯燥,卻往往是決定成敗的致命環(huán)節(jié)。

團(tuán)隊(duì)測試了多種優(yōu)化器,包括Adam、Lion、Sophia等。

結(jié)論清晰而明確:AdamW至今仍是大規(guī)模語言模型訓(xùn)練的黃金標(biāo)準(zhǔn)。其配置細(xì)節(jié)也經(jīng)過了微調(diào):β1為0.9,β2為0.95(而非更常見的0.999,較低的β2更適合長序列訓(xùn)練),權(quán)重衰減為0.1。

學(xué)習(xí)率調(diào)度策略是另一個(gè)深?yuàn)W的領(lǐng)域。

最流行的余弦(Cosine)調(diào)度策略并不適合超長序列的訓(xùn)練,因?yàn)樗ǔT谟?xùn)練總步數(shù)的30%后就開始衰減,過早地降低了學(xué)習(xí)率。SmolLM3的測試發(fā)現(xiàn),在訓(xùn)練了8萬億(token)后,使用余弦調(diào)度的模型性能便陷入停滯。

手冊中著重介紹了一種名為WSD(Warmup-Stable-Decay,預(yù)熱-穩(wěn)定-衰減)的調(diào)度器,這是模型能夠成功訓(xùn)練11萬億(token)的關(guān)鍵。

它先用一小部分步數(shù)預(yù)熱到峰值學(xué)習(xí)率,然后在長達(dá)70%的訓(xùn)練時(shí)間內(nèi)將學(xué)習(xí)率保持在峰值(穩(wěn)定階段),確保模型有充分的時(shí)間學(xué)習(xí),最后再進(jìn)行線性衰減。

SmolLM3的WSD參數(shù)設(shè)置為:前1000億(token)從0預(yù)熱到3e-4的學(xué)習(xí)率;在1000億到10萬億(token)之間,學(xué)習(xí)率穩(wěn)定在3e-4;最后1萬億(token)線性衰減至3e-5。

一個(gè)創(chuàng)新性的技巧是批量大小預(yù)熱(Batch Size Warmup)。訓(xùn)練初期使用較小的批量(例如100萬token),然后逐步增大到硬件能承受的最大值(400萬token)。這種做法能有效穩(wěn)定訓(xùn)練早期的損失函數(shù),避免發(fā)散。

數(shù)據(jù)決定了模型的上限

手冊用最醒目的方式強(qiáng)調(diào)了一個(gè)原則:數(shù)據(jù)質(zhì)量是提升模型性能最大的杠桿,沒有之一。

模型架構(gòu)的創(chuàng)新帶來的性能提升可能不到5%,而數(shù)據(jù)質(zhì)量的改善則能帶來超過20%的飛躍。

Hugging Face的數(shù)據(jù)哲學(xué)是一條嚴(yán)謹(jǐn)?shù)墓I(yè)流水線。

原始文本首先經(jīng)過嚴(yán)格的過濾,然后進(jìn)行細(xì)致的去重,接著由模型進(jìn)行質(zhì)量評分,最后按照精心設(shè)計(jì)的比例進(jìn)行混合。每一個(gè)環(huán)節(jié)都有可量化的指標(biāo)進(jìn)行監(jiān)控。

以他們開源的FineWeb數(shù)據(jù)集為例,其過濾流程包括:

使用FastText進(jìn)行語言檢測,只保留置信度超過90%的樣本。

使用一個(gè)小型語言模型對文本質(zhì)量進(jìn)行打分,淘汰低分樣本。

通過MinHashLSH算法在文檔級別進(jìn)行去重,防止模型背誦重復(fù)內(nèi)容,也避免了評估集數(shù)據(jù)的泄露。

利用Perspective API等工具過濾掉有毒或不安全的內(nèi)容。

代碼數(shù)據(jù)的處理則更為特殊。只保留在GitHub上星標(biāo)數(shù)超過10的倉庫,通過語法解析器檢查代碼的有效性,并將去重做到函數(shù)級別,以防止許可證污染。

數(shù)學(xué)數(shù)據(jù)則通過從學(xué)術(shù)論文網(wǎng)站arXiv提取LaTeX源碼并渲染成文本,再結(jié)合使用GPT-4等大模型合成新的數(shù)學(xué)問答對來進(jìn)行增強(qiáng)。

數(shù)據(jù)混合的配比,是真正的煉丹術(shù)。

SmolLM3的目標(biāo)是成為一個(gè)兼具多語言、推理和代碼能力的全能模型。團(tuán)隊(duì)的初始混合配比是50%的網(wǎng)頁文本,30%的代碼,以及20%的多語言數(shù)據(jù)。

然而,消融實(shí)驗(yàn)的結(jié)果令人意外。

將代碼比例從30%提升到40%,代碼評估基準(zhǔn)HumanEval的分?jǐn)?shù)竟提升了8%。

將多語言數(shù)據(jù)從20%提升到30%,通用知識評估MMLU的分?jǐn)?shù)不僅沒有下降,反而因跨語言知識的遷移而有所上升。

網(wǎng)頁文本的質(zhì)量遠(yuǎn)比數(shù)量重要,經(jīng)過更嚴(yán)格的過濾后,即便比例從50%降至35%,模型性能也毫無損失。

最終,SmolLM3的數(shù)據(jù)配方演變?yōu)椋?5%高質(zhì)量英語網(wǎng)頁文本,15%覆蓋20種語言的多語言文本,40%的代碼(其中Python占一半),以及10%專門用于數(shù)學(xué)和推理的數(shù)據(jù)。

課程學(xué)習(xí)(Curriculum Learning)的有效性也得到了驗(yàn)證。訓(xùn)練的前1萬億(token),模型只學(xué)習(xí)相對簡單的內(nèi)容,比如短文本和高置信度的干凈數(shù)據(jù)。隨后,長文檔、復(fù)雜代碼等高難度數(shù)據(jù)才被逐步引入。這種由易到難的學(xué)習(xí)路徑,不僅穩(wěn)定了訓(xùn)練初期的收斂過程,還為最終性能帶來了2%到3%的額外提升。

分詞策略同樣關(guān)鍵。SmolLM3的詞表大小從常見的32K擴(kuò)展到了64K,專門增補(bǔ)了大量代碼關(guān)鍵字和多語言的子詞。一個(gè)重要的警告是:訓(xùn)練中途絕對不要修改詞表,這會(huì)破壞嵌入空間的連續(xù)性,導(dǎo)致災(zāi)難性的后果。

當(dāng)理論撞上384塊GPU的現(xiàn)實(shí)

理論設(shè)計(jì)得再完美,當(dāng)它運(yùn)行在由384塊H100 GPU組成的龐大集群上時(shí),現(xiàn)實(shí)的復(fù)雜性便會(huì)顯露無疑。

SmolLM3長達(dá)3周、消耗11萬億(token)的訓(xùn)練過程,就是一場與意外搏斗的馬拉松。

存儲(chǔ)系統(tǒng)曾因并行寫入請求超過IOPS上限而崩潰,導(dǎo)致檢查點(diǎn)(checkpoint)保存失敗。

網(wǎng)絡(luò)在夜間維護(hù)時(shí)段發(fā)生擁塞,導(dǎo)致節(jié)點(diǎn)間的AllReduce通信超時(shí)。

損失函數(shù)曲線上會(huì)隨機(jī)出現(xiàn)無法解釋的尖峰。

平均每天都有一到兩塊H100 GPU發(fā)生故障,故障率約為0.5%。

其中最驚心動(dòng)魄的,是那次發(fā)生在訓(xùn)練進(jìn)行到1萬億(token)后的重啟事件。

當(dāng)時(shí),團(tuán)隊(duì)發(fā)現(xiàn)模型的各項(xiàng)評估指標(biāo),如MMLU和HumanEval,都顯著低于小規(guī)模實(shí)驗(yàn)的預(yù)期。他們首先懷疑是數(shù)據(jù)混合出了問題,但反復(fù)檢查后排除了這個(gè)可能。

排查過程如同一部偵探小說。數(shù)據(jù)加載器正常,梯度同步正常,損失計(jì)算正常。最后,當(dāng)他們檢查到系統(tǒng)的隨機(jī)性時(shí),發(fā)現(xiàn)了那個(gè)隱藏至深的Bug:在同一個(gè)張量并行組內(nèi)的所有GPU,竟然共享了同一個(gè)隨機(jī)種子。

根本原因在于,初始化GQA的鍵值頭時(shí),代碼錯(cuò)誤地使用了全局種子而非與每個(gè)GPU綁定的本地種子。這導(dǎo)致在一個(gè)由8塊GPU組成的張量并行組內(nèi),所有鍵值頭的初始化狀態(tài)完全相同。模型的注意力頭多樣性被人為地削減了,學(xué)習(xí)能力因此受到嚴(yán)重抑制。

雖然Bug被修復(fù)了,但已經(jīng)消耗掉的1萬億(token)的訓(xùn)練成果無法挽回。

團(tuán)隊(duì)面臨一個(gè)艱難的抉擇:是基于當(dāng)前有缺陷的模型繼續(xù)訓(xùn)練,還是壯士斷腕,從頭開始?他們選擇了后者。這個(gè)決定意味著大約15萬美元的計(jì)算成本打了水漂,但它換來的是最終模型能夠達(dá)到SOTA級別的性能。

這次事件的最大教訓(xùn)是,必須對每一個(gè)組件進(jìn)行系統(tǒng)性的單元測試。正是因?yàn)槠渌糠侄冀?jīng)過了嚴(yán)格的消融驗(yàn)證,團(tuán)隊(duì)才能在眾多可能性中迅速定位到問題根源。

吞吐量優(yōu)化是另一場戰(zhàn)斗。理論上,384塊H100能提供380 PFLOPS的算力,但實(shí)際利用率峰值只有45%左右。通過性能剖析,團(tuán)隊(duì)發(fā)現(xiàn)數(shù)據(jù)加載、通信開銷、計(jì)算內(nèi)核效率和中央處理器(CPU)瓶頸是四大性能殺手。

他們通過使用Ray Data并行化數(shù)據(jù)加載、調(diào)整AllReduce的通信桶大小、升級到最新版的CUDA和FlashAttention內(nèi)核、用Numba編譯Python預(yù)處理代碼等一系列手段,將實(shí)際吞-吐量提升到了一個(gè)可接受的水平。序列打包(Sequence Packing)和動(dòng)態(tài)批大小等技巧也被用來減少計(jì)算資源的浪費(fèi)。

損失尖峰是訓(xùn)練中常見的雜音,但SmolLM3遇到的尖峰頻率異常之高。通過細(xì)致的排查,團(tuán)隊(duì)發(fā)現(xiàn)這并非單一原因所致。

一部分尖峰是由數(shù)據(jù)引起的,代碼數(shù)據(jù)的平均長度遠(yuǎn)超文本,其梯度也更大,容易導(dǎo)致梯度爆炸。解決方案是為代碼數(shù)據(jù)設(shè)置一個(gè)更低的梯度裁剪閾值。

另一部分則源于優(yōu)化器,AdamW中β2參數(shù)設(shè)為0.999導(dǎo)致二階矩更新過慢,對梯度尖峰不夠敏感。將其調(diào)整為0.95后,尖峰的幅度顯著降低。

甚至硬件也可能是元兇。監(jiān)控系統(tǒng)發(fā)現(xiàn),某節(jié)點(diǎn)的HBM顯存溫度一度超過95攝氏度,導(dǎo)致GPU自動(dòng)降頻。調(diào)整數(shù)據(jù)中心的空調(diào)流向后問題解決。

從一塊璞玉到一件稱手工具

預(yù)訓(xùn)練完成的基礎(chǔ)模型,本質(zhì)上只是一個(gè)高級的自動(dòng)補(bǔ)全工具。要讓它變成能與人對話、遵循指令的智能助手,還需要經(jīng)歷細(xì)致的后訓(xùn)練過程。

監(jiān)督微調(diào)(SFT)是第一步。其核心在于構(gòu)建高質(zhì)量的指令數(shù)據(jù)集。團(tuán)隊(duì)采用了拒絕采樣的方法,讓模型對同一個(gè)提示生成多個(gè)回答,然后由人工挑選出最佳答案。數(shù)據(jù)混合同樣關(guān)鍵,最終配比為50%的通用指令,30%的代碼指令和20%的對話數(shù)據(jù)。

SFT階段的超參數(shù)也充滿了驚喜。最佳學(xué)習(xí)率是預(yù)訓(xùn)練的十分之一(1e-5),并且訓(xùn)練兩個(gè)周期(epoch)效果最好,更多周期反而會(huì)導(dǎo)致過擬合。有趣的是,流行的低秩適配(LoRA)微調(diào)方法在SFT階段效果不佳,全參數(shù)微調(diào)的表現(xiàn)要好得多。

偏好優(yōu)化,如基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),并非所有模型的必需品。只有當(dāng)模型需要抑制有害內(nèi)容、對齊人類審美或強(qiáng)化特定格式遵循時(shí),它才顯得尤為重要。

Hugging Face在SmolLM3上測試了一種更穩(wěn)定的偏好優(yōu)化算法APO(自適應(yīng)偏好優(yōu)化)。它不需要訓(xùn)練額外的價(jià)值網(wǎng)絡(luò),簡化了架構(gòu),在有益且無害的評估中,為模型帶來了5%的提升。

對于數(shù)學(xué)推理能力,團(tuán)隊(duì)開發(fā)了一種名為GRPO(分組相對策略優(yōu)化)的創(chuàng)新方法。

它讓模型對每個(gè)問題生成多個(gè)候選答案,然后用自動(dòng)化的規(guī)則(如代碼是否可運(yùn)行、數(shù)學(xué)答案是否正確)來篩選和排序這些答案,并據(jù)此更新模型策略。這個(gè)方法的效果是驚人的,它將模型在GSM8k數(shù)學(xué)基準(zhǔn)上的得分從62%一舉提升到了84%。關(guān)鍵在于,這個(gè)過程完全自動(dòng)化,無需昂貴的人工標(biāo)注。

最終,SmolLM3被打造成了一個(gè)雙模式推理模型。它既可以直接回答問題的快速模式,也具備先生成思考鏈條再給出答案的思考模式。這種設(shè)計(jì)是通過在SFT數(shù)據(jù)中混入思維鏈(Chain-of-Thought)樣本,并用特殊標(biāo)記來控制模式切換實(shí)現(xiàn)的。

這一切的背后,是龐大而復(fù)雜的基礎(chǔ)設(shè)施支撐。

在GPU選型上,Hugging Face的經(jīng)驗(yàn)是,對于小規(guī)模的消融實(shí)驗(yàn)(小于1000億token),使用4090消費(fèi)級顯卡集群的性價(jià)比遠(yuǎn)超昂貴的H100。他們用這種方式完成了絕大多數(shù)的早期實(shí)驗(yàn),節(jié)省了約80%的成本。

存儲(chǔ)系統(tǒng)是另一個(gè)常被忽略的瓶頸。

一個(gè)完整的模型檢查點(diǎn)大小可達(dá)300GB,頻繁的保存會(huì)產(chǎn)生巨大的I/O壓力。解決方案包括使用NVMe固態(tài)硬盤陣列作為本地緩存、對檢查點(diǎn)進(jìn)行分片保存,以及采用Apache Arrow格式加速數(shù)據(jù)加載。

網(wǎng)絡(luò)通信是多節(jié)點(diǎn)訓(xùn)練的黑暗藝術(shù)。

PCIe與NVLink拓?fù)洳黄ヅ洹CCL緩沖區(qū)大小設(shè)置不當(dāng)、TCP與RDMA協(xié)議選擇錯(cuò)誤等問題,都可能嚴(yán)重拖慢訓(xùn)練速度。精細(xì)的配置和監(jiān)控是保障通信效率的關(guān)鍵。

最后是故障恢復(fù)。

在一個(gè)擁有數(shù)百塊GPU的集群中,節(jié)點(diǎn)故障是必然事件。一個(gè)健壯的訓(xùn)練系統(tǒng)必須具備自動(dòng)化故障恢復(fù)的能力,包括心跳檢測、故障節(jié)點(diǎn)隔離、動(dòng)態(tài)重配置集群以及從最近的檢查點(diǎn)快速回滾。PyTorch的彈性訓(xùn)練框架為此提供了強(qiáng)大的支持。

《Smol Training Playbook》最終沉淀出了兩條結(jié)晶。

第一是團(tuán)隊(duì)對迭代速度的癡迷。

頂級團(tuán)隊(duì)的標(biāo)志不是單次實(shí)驗(yàn)的規(guī)模有多大,而是單位時(shí)間內(nèi)能完成多少次實(shí)驗(yàn)。并行化實(shí)驗(yàn)、建立快速失敗機(jī)制、將一切流程自動(dòng)化,是提升迭代速度的核心。Hugging Face的內(nèi)部指標(biāo)是,每個(gè)研究員每周要進(jìn)行15到20個(gè)消融實(shí)驗(yàn),從一個(gè)想法誕生到看到初步結(jié)果,平均只需要18小時(shí)。其中90%的實(shí)驗(yàn)會(huì)失敗,但正是這些失敗的實(shí)驗(yàn),為最終的成功指明了方向。

第二是團(tuán)隊(duì)對高質(zhì)量數(shù)據(jù)的偏執(zhí)。

這句話被反復(fù)強(qiáng)調(diào):架構(gòu)帶來的提升是小步快跑,而數(shù)據(jù)帶來的提升是跨越式發(fā)展。對數(shù)據(jù)多樣性、準(zhǔn)確性和信息密度的追求,應(yīng)該近乎于一種信仰。

這本手冊的終極價(jià)值,不在于提供了一份可以按圖索驥的菜譜,而是揭示了SOTA模型誕生的本質(zhì):它是一場工程、科學(xué)與藝術(shù)的完美結(jié)合。

它不需要神來之筆,需要的是系統(tǒng)性地消除風(fēng)險(xiǎn),是永不停歇的快速迭代,是對數(shù)據(jù)質(zhì)量的極致尊重,以及在凌晨兩點(diǎn)調(diào)試數(shù)據(jù)加載器時(shí)那份堅(jiān)韌不拔。

訓(xùn)練世界級模型沒有秘密,只有千次實(shí)驗(yàn)后的直覺,萬次失敗后的洞察,和永不妥協(xié)的質(zhì)量追求。

責(zé)任編輯:張燕妮 來源: AIGC開放社區(qū)
相關(guān)推薦

2024-09-26 10:42:20

2019-08-16 10:55:37

開發(fā)者技能AI

2024-08-02 13:40:00

2022-07-13 16:45:34

?大模型AI微軟

2025-03-26 10:57:40

PyTorchGGUF

2020-03-12 12:31:01

開源谷歌量子AI

2024-11-15 08:24:41

2024-09-24 07:31:52

2024-09-06 13:00:29

2025-04-01 09:54:09

AI算法大模型AI

2024-12-02 12:47:08

2024-07-12 14:53:42

2023-06-16 14:10:45

開源人工智能

2024-02-27 07:22:45

DriftAI應(yīng)用

2024-11-04 00:24:56

2023-12-01 14:34:42

AnthropicAILLM

2023-06-09 12:56:17

AlpacaWizardLMVicuna

2024-10-25 19:32:58

ChatGPT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

好吊色视频一区二区| 91香蕉一区二区三区在线观看| 黄色aa久久| 久久久久久久久久久久久女国产乱| 国产精品视频一| 精品一区二区在线观看视频| 99这里只有精品视频| 亚洲午夜精品17c| 日本精品二区| 亚洲精品久久久久久久久久| 久久亚洲欧美| 久久成人av网站| 久久精品无码一区| 免费欧美网站| 91高清视频在线| 久操网在线观看| 欧洲不卡av| 91丨九色丨尤物| 亚洲www永久成人夜色| 国产午夜免费福利| 欧美freesex交免费视频| 精品亚洲va在线va天堂资源站| 天天看片天天操| 欧美大胆a人体大胆做受| 椎名由奈av一区二区三区| 麻豆成人小视频| 国内精品国产成人国产三级| 日韩福利电影在线观看| 久久久噜噜噜久久中文字免| 国产三级aaa| 国产99亚洲| 亚洲成人久久一区| 在线观看免费av网址| 欧美大片免费观看网址| 亚洲一区二区三区四区不卡| 日本女人高潮视频| 第九色区av在线| av中文字幕不卡| 成人动漫在线视频| 国产黄色av片| 国产精品中文字幕欧美| 国产综合色香蕉精品| 手机在线看片1024| 在线视频精品| 国内精品400部情侣激情| 国产在线一卡二卡| 亚洲精品tv久久久久久久久久| 国产亚洲欧美日韩一区二区| 日韩人妻一区二区三区| 人体久久天天| 精品一区二区三区电影| 国产精品成人99一区无码| 免费一级欧美片在线观看网站| 欧美日韩高清在线| 黄色小视频免费网站| 色999韩欧美国产综合俺来也| 色婷婷av一区二区| 亚洲精品视频导航| 国产精品久久久久久久久久齐齐| 欧美视频中文字幕| 国产精品v日韩精品v在线观看| 台湾成人免费视频| 欧美性一区二区| 少妇网站在线观看| 国产不卡精品在线| 欧美大片在线观看一区二区| 国产乱淫av麻豆国产免费| www国产精品| 亚洲经典中文字幕| 天天躁日日躁aaaa视频| 欧美美女一区| 久久精品视频一| 欧美日韩在线观看成人| 亚洲精品在线二区| 日韩美女免费观看| 一区二区日韩视频| 成人免费视频播放| 精品一区二区三区自拍图片区| 蜜桃视频在线播放| 亚洲欧洲另类国产综合| 波多野结衣 作品| gogo高清在线播放免费| 91久久国产最好的精华液| 北条麻妃在线观看| 欧美亚洲人成在线| 日韩欧美国产成人一区二区| 精品无码在线视频| 成人羞羞动漫| 九九九热精品免费视频观看网站| 国产无遮挡又黄又爽又色| 欧美资源在线| 91在线视频导航| 天堂在线资源库| 国产视频一区在线播放| 国产精品三级一区二区| 在线天堂资源| 在线综合+亚洲+欧美中文字幕| 日批在线观看视频| 久久亚洲在线| 97色在线播放视频| 一级黄色片在线看| 99久久婷婷国产综合精品电影| 亚洲成人一区二区三区| 日本无删减在线| 欧美三级在线视频| 亚洲色图欧美另类| 日韩电影二区| 97成人精品区在线播放| 中文字幕在线网址| av不卡免费电影| 中文字幕中文字幕一区三区| 欧亚av在线| 日韩欧美国产系列| 91香蕉视频网| 老司机精品视频网站| 国产精品久久国产精品| 日本高清视频在线观看| 欧美性黄网官网| www日本在线观看| 99精品电影| 国产精欧美一区二区三区| 日本免费一区视频| 亚洲日本韩国一区| www.涩涩涩| 中文字幕精品影院| 久久免费视频观看| 精品国产av 无码一区二区三区 | 精品久久久99| 奇米狠狠一区二区三区| 欧美极品在线视频| 国产女人高潮时对白| 国产欧美1区2区3区| www黄色日本| 风间由美性色一区二区三区四区 | 青春草视频在线| 91精品在线观看入口| 91社区视频在线观看| 小嫩嫩精品导航| 久久国产精品久久精品国产| 国产乱码午夜在线视频| 精品国产乱码久久久久久久| a级黄色片免费看| 国产一区二区三区久久悠悠色av| 亚洲一区三区电影在线观看| aaaa欧美| 中文字幕综合在线| 又骚又黄的视频| 中文字幕二三区不卡| 人妻无码视频一区二区三区| 国产免费久久| 国产精品色视频| 日p在线观看| 91精品国产综合久久久久久漫画| 日韩视频中文字幕在线观看| 国产一区二区精品久久| 精品国产无码在线| 2020最新国产精品| 欧美精品videossex性护士| 精品国产九九九| 亚洲一区日韩精品中文字幕| 亚洲一区二区三区四区av| 亚洲欧洲视频| 久热国产精品视频一区二区三区| 欧美片第一页| 中文字幕亚洲字幕| 国产乱子伦精品无码码专区| 亚洲麻豆国产自偷在线| 久久久久无码国产精品一区李宗瑞| 午夜精品视频| 激情视频在线观看一区二区三区| 中文在线最新版地址| 亚洲视频欧洲视频| 亚洲自拍第二页| 一区二区在线免费| 久久久久麻豆v国产精华液好用吗 在线观看国产免费视频 | 久久精品国产**网站演员| youjizz.com亚洲| 成人福利免费在线观看| 日本电影亚洲天堂| 免费人成在线观看播放视频| 日韩免费成人网| 久久99国产综合精品免费| 国产欧美精品一区二区三区四区| 日韩va在线观看| 影音先锋日韩资源| 久久久久久久久一区二区| 日本美女久久| 欧美国产日韩中文字幕在线| 免费在线性爱视频| 69堂成人精品免费视频| 男人的天堂一区| 中文字幕一区二区日韩精品绯色| 一二三区视频在线观看| 日韩高清不卡一区二区| 大陆av在线播放| 欧美系列电影免费观看| 成人免费视频观看视频| 免费在线观看一区| 欧美极品美女电影一区| 国产在线一二三| 精品国产一区二区三区忘忧草 | 国产精品免费在线| 成人国产一区| 性色av一区二区三区在线观看| 在线播放麻豆| 日韩黄色av网站| a网站在线观看| 在线免费不卡视频| 日本少妇全体裸体洗澡| 自拍偷拍亚洲欧美日韩| 偷拍夫妻性生活| 粉嫩av一区二区三区粉嫩| 污网站免费在线| 亚洲综合激情| 男人天堂av片| 亚洲精品91| 一区二区视频在线免费| 免费一区二区| 国产欧美丝袜| 一区二区亚洲视频| 成人激情视频小说免费下载| 一区二区三区四区日本视频| 欧美劲爆第一页| 在线观看电影av| 久久久国产影院| 北岛玲一区二区三区| 日韩精品视频在线观看网址| 国产91麻豆视频| 日韩一级免费观看| 亚洲一区二区人妻| 在线观看亚洲精品| 久久久久久不卡| 欧美日韩精品二区| 国产大片aaa| 亚洲最快最全在线视频| 欧美黑人精品一区二区不卡| 亚洲欧美日韩成人高清在线一区| 国产日韩精品中文字无码| 国产亚洲欧美在线| 性久久久久久久久久| 99在线精品观看| 日韩无码精品一区二区| 成人18视频日本| 男男一级淫片免费播放| 成人免费视频一区| 亚洲视频在线播放免费| www.欧美亚洲| 国产精品嫩草av| 久久久久久久综合色一本| 91成年人网站| 国产欧美精品一区二区色综合| 国产又粗又猛又爽又黄av| 国产日韩欧美激情| 少妇高潮一区二区三区喷水| 成人免费在线视频观看| 国产精品丝袜一区二区| 亚洲猫色日本管| 日本一二三区视频| 午夜伦欧美伦电影理论片| 欧美一级视频免费观看| 欧美日韩一区免费| 亚洲成人av网址| 欧美日韩一区二区三区视频| 国产永久免费视频| 日韩欧美久久一区| 女人18毛片水真多18精品| 亚洲第一区在线| 伦理片一区二区三区| 最近2019中文免费高清视频观看www99 | 国产小视频在线观看免费| 性做久久久久久久免费看| 超碰超碰超碰超碰| 欧美区在线观看| 亚洲精品成人电影| 亚洲精品日韩在线| 免费在线你懂的| 久久久亚洲精品视频| 日韩不卡免费高清视频| 国产主播喷水一区二区| 超碰一区二区三区| 相泽南亚洲一区二区在线播放| 99久久夜色精品国产亚洲96| www.欧美黄色| 久久久精品午夜少妇| 亚洲网中文字幕| 99久久综合99久久综合网站| 日本美女xxx| 亚洲国产视频网站| 这里只有精品免费视频| 欧美一级理论片| 日韩精品视频无播放器在线看 | youjizz亚洲女人| 亚洲一区二区成人在线观看| 无码人妻黑人中文字幕| 日韩一级片网站| 成年人视频在线看| 欧美激情女人20p| 美女色狠狠久久| www.一区二区三区| 成人短片线上看| 人妻av中文系列| 久久99深爱久久99精品| 一级做a爰片毛片| 亚洲美女偷拍久久| av首页在线观看| 亚洲国产日韩欧美综合久久| 日本高清视频在线观看| 日本精品一区二区三区在线播放视频 | 国产精品九九久久久久久久| 一区二区三区亚洲变态调教大结局 | 日本www.色| 成人avav影音| 成人免费精品动漫网站| 91福利资源站| 水莓100在线视频| 久久999免费视频| 亚洲成人高清| 午夜精品福利一区二区| 国产精品普通话对白| 国产人妻精品午夜福利免费| 国产精品水嫩水嫩| 中文字幕一区二区三区四区欧美| 精品日韩欧美在线| 99热国产在线| 91精品国产综合久久男男| 欧美呦呦网站| 欧美 日韩精品| 91小视频在线观看| 日韩精品视频免费播放| 日韩视频一区二区在线观看| 日本视频在线观看| 国产精品日韩欧美综合| 欧美精美视频| 国产女女做受ⅹxx高潮| 91亚洲精品久久久蜜桃网站| 久久久久久福利| 日韩情涩欧美日韩视频| 成人在线视频亚洲| 91久久久久久久一区二区| 日韩一区二区在线| 国产九九热视频| 中文字幕一区二区三区在线播放| 中文字幕 亚洲视频| 中文字幕一区电影| 欧美综合影院| 国产资源第一页| 国产黑丝在线一区二区三区| 欧美精品99久久久| 精品裸体舞一区二区三区| 国产99re66在线视频| 国产伦视频一区二区三区| 99国产精品久久久久久久成人热| 国产女人18毛片水真多18| 亚州成人在线电影| 天堂av在线播放| 国产成人黄色av| 成人看的视频| 香蕉视频色在线观看| 亚洲一区二区三区四区不卡| 无码精品黑人一区二区三区 | 国产911在线观看| 国产成人精品三级麻豆| 国产成人在线免费观看视频| 日韩福利视频在线观看| 欧美色片在线观看| 99re99热| av欧美精品.com| 天堂网视频在线| www.亚洲免费视频| 日韩在线观看一区二区三区| 黄色大片在线免费看| 国产午夜精品久久久久久免费视| 在线免费看av的网站| 美女少妇精品视频| 老汉色老汉首页av亚洲| 九色porny91| 1000精品久久久久久久久| 亚洲av无码一区二区三区dv| 国产91精品久| 手机在线电影一区| 最新版天堂资源在线| 色婷婷综合久久久中文字幕| 黄在线免费看| 精品一区久久久久久| 久久99精品久久久久久久久久久久| 久久久久久久久久综合| 亚洲欧美综合精品久久成人| 欧美激情不卡| 国产精品999视频| 国产精品国产三级国产aⅴ无密码| 黄色片一区二区| 国产精品久久久一区| 国产综合激情| www成人啪啪18软件| 亚洲国产成人在线播放| 先锋影音一区二区| 国产男女无遮挡| 一区二区久久久| av电影在线播放高清免费观看| 成人午夜影院在线观看|