大模型開發(fā)者必讀！拆解世界級AI模型的誕生，Hugging Face把4年模型訓(xùn)練經(jīng)驗(yàn)寫成了一本開源指南

2025-11-12 08:50:00

這份詳盡的指南，由12位Hugging Face的頂尖工程師團(tuán)隊(duì)打造，記錄了他們訓(xùn)練模型的全部心路歷程，可以說是一份真正意義上的手把手實(shí)戰(zhàn)指南，將Hugging Face團(tuán)隊(duì)約4年來構(gòu)建最先進(jìn)（SOTA）模型和數(shù)據(jù)集的所有經(jīng)驗(yàn)，毫無保留地公之于眾。

大模型開發(fā)者必讀！

Hugging Face發(fā)布了《The Smol Training Playbook：The Secrets to Building World-Class LLMs》模型訓(xùn)練秘訣。

官方推薦2~4天讀完。

這本手冊，讓這個(gè)過去被神秘光環(huán)籠罩的過程，變得透明、可及、高效。它適合所有對AI訓(xùn)練抱有熱忱的人，無論你是初學(xué)者、研究員，還是身處一線的工程師。

最好別訓(xùn)練模型

手冊開篇就提出了一個(gè)顛覆性的觀點(diǎn)。

在投入數(shù)百萬美元計(jì)算資源之前，必須回答一個(gè)最根本的問題：為什么需要訓(xùn)練一個(gè)新模型？

Hugging Face的經(jīng)驗(yàn)表明，99%的情況下，你根本不應(yīng)該從頭開始訓(xùn)練。

為了避免無謂的資源消耗，他們設(shè)計(jì)了一個(gè)名為訓(xùn)練指南針的決策框架。這個(gè)框架像一位經(jīng)驗(yàn)豐富的老船長，在你準(zhǔn)備揚(yáng)帆出海燒錢遠(yuǎn)航之前，冷靜地幫你審視航行的必要性。

決策的邏輯鏈條異常清晰。

你有一個(gè)需求。

這個(gè)需求能通過提示工程（Prompt Engineering）解決嗎？

如果不行，能通過檢索增強(qiáng)生成（RAG）解決嗎？

如果還不行，能通過微調(diào)（Fine-tuning）一個(gè)現(xiàn)有模型解決嗎？

如果微調(diào)也不夠，審視一下，現(xiàn)有的開源模型真的無法滿足你的要求嗎？

走完這一系列拷問，你才能觸及那僅存的1%的正當(dāng)訓(xùn)練理由。

Hugging Face將其歸納為三類。

一是前沿研究（Frontier Research）。

比如你正在探索一種全新的網(wǎng)絡(luò)架構(gòu)，試圖替代Transformer，或者發(fā)明了一種新的注意力機(jī)制。這種探索未知邊界的行為，值得開啟一次全新的訓(xùn)練。

二是特定的生產(chǎn)需求（Production Specificity）。

當(dāng)你的應(yīng)用場景極端特殊，現(xiàn)有模型無法勝任時(shí)。例如，為一種罕見方言構(gòu)建模型，或者在對延遲要求嚴(yán)苛到毫秒級的邊緣設(shè)備上部署，再或者為醫(yī)療、法律等高度專業(yè)化的領(lǐng)域打造專用模型。

三是戰(zhàn)略性開源（Strategic Open-Source）。

當(dāng)你發(fā)現(xiàn)整個(gè)開源生態(tài)系統(tǒng)中存在一個(gè)明顯的空白，需要有人去填補(bǔ)。Hugging Face自家的StarCoder模型就是如此，當(dāng)時(shí)市面上缺乏一個(gè)足夠強(qiáng)大的代碼生成開源模型。SmolLM系列同樣出于此目的，旨在探索小尺寸模型配合海量高質(zhì)量數(shù)據(jù)的性能極限，為社區(qū)提供一個(gè)能在特定規(guī)模上挑戰(zhàn)閉源模型的選項(xiàng)。

倘若你的理由不屬于這三者中的任何一種，指南針會(huì)明確指向停止的方向。如果屬于，那么恭喜你，準(zhǔn)備開啟一段昂貴但目標(biāo)明確的旅程。

確定要訓(xùn)練后，下一個(gè)問題是，訓(xùn)練一個(gè)什么樣的模型？

這并非一個(gè)越大越好的簡單游戲，而是在參數(shù)規(guī)模、數(shù)據(jù)總量、計(jì)算預(yù)算和預(yù)期性能這四個(gè)變量之間，尋找一個(gè)微妙的平衡點(diǎn)。

規(guī)模定律（Scaling Laws）是重要的參考，但絕非不可違背的圣經(jīng)。

SmolLM3團(tuán)隊(duì)的實(shí)踐發(fā)現(xiàn)，當(dāng)數(shù)據(jù)質(zhì)量達(dá)到某個(gè)閾值后，模型的性能可以突破傳統(tǒng)規(guī)模定律預(yù)測的上限。換言之，用更優(yōu)質(zhì)的數(shù)據(jù)喂養(yǎng)，一個(gè)較小的模型也能爆發(fā)出驚人的能量。

對SmolLM3而言，這個(gè)平衡點(diǎn)被定格在30億參數(shù)。這個(gè)規(guī)模不大不小，恰到好處。它足夠強(qiáng)大，足以展現(xiàn)出一些復(fù)雜能力；又足夠小巧，可以在單張消費(fèi)級顯卡上流暢運(yùn)行推理，極大地降低了部署門檻。

上下文長度則采用漸進(jìn)式策略，從4K起步，逐步擴(kuò)展至16K以上，這需要在位置編碼方式與訓(xùn)練成本之間做出權(quán)衡。多語言能力的設(shè)計(jì)從一開始就融入數(shù)據(jù)混合策略，而不是等到訓(xùn)練后期再通過微調(diào)打補(bǔ)丁。

最后是如何訓(xùn)練。

這部分構(gòu)成了手冊的主體，但在決策階段就需要確立核心哲學(xué)：先用極小的成本進(jìn)行消融實(shí)驗(yàn)，再進(jìn)行中等規(guī)模的驗(yàn)證，最后才投入全規(guī)模訓(xùn)練。每個(gè)階段都必須有可靠、可量化的評估指標(biāo)作為導(dǎo)航，同時(shí)對存儲(chǔ)、網(wǎng)絡(luò)、節(jié)點(diǎn)故障率等基礎(chǔ)設(shè)施成本有清醒的認(rèn)識。

魔鬼藏在架構(gòu)與參數(shù)的細(xì)節(jié)里

一旦進(jìn)入模型設(shè)計(jì)的深水區(qū)，每一個(gè)微小的組件選擇都可能對最終結(jié)果產(chǎn)生深遠(yuǎn)影響。Hugging Face的工程師們像鐘表匠一樣，對模型的每一個(gè)零件進(jìn)行了數(shù)十次甚至上百次的拆解、測試與重組。

這個(gè)過程的核心原則是小規(guī)模上驗(yàn)證一切。

直覺是廉價(jià)的，而GPU時(shí)間是昂貴的。

SmolLM3團(tuán)隊(duì)運(yùn)行了數(shù)百個(gè)消融實(shí)驗(yàn)，每一個(gè)實(shí)驗(yàn)都在為一個(gè)關(guān)鍵決策去風(fēng)險(xiǎn)。這些實(shí)驗(yàn)遵循黃金法則：每次只改變一個(gè)變量，用10億到100億（token）的小規(guī)模數(shù)據(jù)快速迭代，并確保評估指標(biāo)足夠敏感，能夠捕捉到不同配置間的細(xì)微差異。

以注意力機(jī)制為例，這是Transformer模型的心臟。團(tuán)隊(duì)系統(tǒng)性地評估了四種方案。

標(biāo)準(zhǔn)多頭注意力（MHA）效果最好，但它的鍵值緩存（KV Cache）在推理時(shí)會(huì)占用大量內(nèi)存，對于追求極致性能且不計(jì)較部署成本的場景是首選。

多查詢注意力（MQA）則走向另一個(gè)極端，多個(gè)查詢頭共享一個(gè)鍵值頭，內(nèi)存占用最小，推理速度最快，但會(huì)帶來2%到3%的質(zhì)量損失，更適合資源受限的邊緣設(shè)備。

分組查詢注意力（GQA）是前兩者之間的完美妥協(xié)。它將查詢頭分組，每組共享一套鍵值頭，內(nèi)存占用減半，質(zhì)量損失卻不到1%。在10億到30億參數(shù)規(guī)模的模型上，GQA是數(shù)據(jù)驅(qū)動(dòng)下得出的最佳平衡點(diǎn)。SmolLM3最終選擇了它。

還有一種新興的潛在多頭注意力（MLA），它通過低秩投影壓縮鍵值，在處理長上下文時(shí)效率極高。團(tuán)隊(duì)在小規(guī)模測試后發(fā)現(xiàn)，在30億參數(shù)的規(guī)模下，MLA帶來的收益尚不明顯，但它被作為未來版本的潛在升級選項(xiàng)保留了下來。

選擇的背后并非一帆風(fēng)順。GQA的實(shí)現(xiàn)有一個(gè)巨大的陷阱。

在進(jìn)行張量并行（Tensor Parallelism）時(shí)，如果權(quán)重劃分不當(dāng)，可能導(dǎo)致同一個(gè)張量并行組內(nèi)的不同GPU分配到錯(cuò)誤的鍵值頭，使得GQA在功能上退化為MQA。SmolLM3團(tuán)隊(duì)就曾因此遭遇過一次訓(xùn)練到1萬億（token）后被迫重啟的重大事故。

位置編碼是模型理解序列順序、處理長上下文的基石。

旋轉(zhuǎn)位置編碼（RoPE）是當(dāng)前的主流選擇。它的關(guān)鍵在于基值（base）的選擇。基值越大，模型向更長上下文外推的能力就越強(qiáng)，但訓(xùn)練的穩(wěn)定性也可能隨之下降。SmolLM3采用10萬作為基值，在4K長度上訓(xùn)練后，模型可以很好地外推到16K的上下文。

線性偏置注意力（ALiBi）是另一個(gè)選項(xiàng)，它在長文本上的泛化能力很好，實(shí)現(xiàn)也更簡單，但在短文本上的表現(xiàn)略遜于RoPE。

令人驚訝的是，無位置編碼（NoPE）在某些特定設(shè)置下竟然也行得通。但SmolLM3的消融實(shí)驗(yàn)表明，在30億參數(shù)規(guī)模上，放棄位置編碼會(huì)導(dǎo)致多任務(wù)語言理解（MMLU）評估分?jǐn)?shù)下降約2%，這個(gè)代價(jià)是無法接受的。

一個(gè)關(guān)鍵的創(chuàng)新是文檔內(nèi)掩碼（IntraDoc Masking）。傳統(tǒng)的因果掩碼在不同文檔的邊界處會(huì)阻斷注意力，使得模型無法在打包的序列中跨文檔學(xué)習(xí)。文檔內(nèi)掩碼則允許模型在保持因果性的前提下，在文檔之間建立聯(lián)系，顯著提升了模型對長篇文檔的理解能力。

嵌入層與歸一化層的設(shè)計(jì)同樣充滿了細(xì)節(jié)。

輸入和輸出嵌入層共享權(quán)重，這個(gè)看似簡單的技巧可以減少15%到20%的參數(shù)量。在30億參數(shù)規(guī)模上，SmolLM3的實(shí)驗(yàn)證明這種做法對性能沒有任何損失，因此成為必選項(xiàng)。

歸一化層的位置，前置歸一化（Pre-norm）在超過20次的消融實(shí)驗(yàn)中，因其優(yōu)越的穩(wěn)定性和收斂速度而勝出，盡管理論上它的表達(dá)能力略弱于后置歸一化（Post-norm）。

歸一化的類型，均方根層歸一化（RMSNorm）相比層歸一化（LayerNorm）計(jì)算更快、內(nèi)存占用更少，且效果相當(dāng)，因此被全程采用。

查詢鍵歸一化（QK-Norm）是在查詢和鍵進(jìn)行點(diǎn)積后增加一個(gè)歸一化步驟。這個(gè)操作至關(guān)重要，它能有效防止注意力分?jǐn)?shù)在長上下文或半精度（FP16）訓(xùn)練時(shí)發(fā)生爆炸，是穩(wěn)定訓(xùn)練的守護(hù)神。

優(yōu)化器和超參數(shù)的選擇，看似枯燥，卻往往是決定成敗的致命環(huán)節(jié)。

團(tuán)隊(duì)測試了多種優(yōu)化器，包括Adam、Lion、Sophia等。

結(jié)論清晰而明確：AdamW至今仍是大規(guī)模語言模型訓(xùn)練的黃金標(biāo)準(zhǔn)。其配置細(xì)節(jié)也經(jīng)過了微調(diào)：β1為0.9，β2為0.95（而非更常見的0.999，較低的β2更適合長序列訓(xùn)練），權(quán)重衰減為0.1。

學(xué)習(xí)率調(diào)度策略是另一個(gè)深?yuàn)W的領(lǐng)域。

最流行的余弦（Cosine）調(diào)度策略并不適合超長序列的訓(xùn)練，因?yàn)樗ǔＴ谟?xùn)練總步數(shù)的30%后就開始衰減，過早地降低了學(xué)習(xí)率。SmolLM3的測試發(fā)現(xiàn)，在訓(xùn)練了8萬億（token）后，使用余弦調(diào)度的模型性能便陷入停滯。

手冊中著重介紹了一種名為WSD（Warmup-Stable-Decay，預(yù)熱-穩(wěn)定-衰減）的調(diào)度器，這是模型能夠成功訓(xùn)練11萬億（token）的關(guān)鍵。

它先用一小部分步數(shù)預(yù)熱到峰值學(xué)習(xí)率，然后在長達(dá)70%的訓(xùn)練時(shí)間內(nèi)將學(xué)習(xí)率保持在峰值（穩(wěn)定階段），確保模型有充分的時(shí)間學(xué)習(xí)，最后再進(jìn)行線性衰減。

SmolLM3的WSD參數(shù)設(shè)置為：前1000億（token）從0預(yù)熱到3e-4的學(xué)習(xí)率；在1000億到10萬億（token）之間，學(xué)習(xí)率穩(wěn)定在3e-4；最后1萬億（token）線性衰減至3e-5。

一個(gè)創(chuàng)新性的技巧是批量大小預(yù)熱（Batch Size Warmup）。訓(xùn)練初期使用較小的批量（例如100萬token），然后逐步增大到硬件能承受的最大值（400萬token）。這種做法能有效穩(wěn)定訓(xùn)練早期的損失函數(shù)，避免發(fā)散。

數(shù)據(jù)決定了模型的上限

手冊用最醒目的方式強(qiáng)調(diào)了一個(gè)原則：數(shù)據(jù)質(zhì)量是提升模型性能最大的杠桿，沒有之一。

模型架構(gòu)的創(chuàng)新帶來的性能提升可能不到5%，而數(shù)據(jù)質(zhì)量的改善則能帶來超過20%的飛躍。

Hugging Face的數(shù)據(jù)哲學(xué)是一條嚴(yán)謹(jǐn)?shù)墓I(yè)流水線。

原始文本首先經(jīng)過嚴(yán)格的過濾，然后進(jìn)行細(xì)致的去重，接著由模型進(jìn)行質(zhì)量評分，最后按照精心設(shè)計(jì)的比例進(jìn)行混合。每一個(gè)環(huán)節(jié)都有可量化的指標(biāo)進(jìn)行監(jiān)控。

以他們開源的FineWeb數(shù)據(jù)集為例，其過濾流程包括：

使用FastText進(jìn)行語言檢測，只保留置信度超過90%的樣本。

使用一個(gè)小型語言模型對文本質(zhì)量進(jìn)行打分，淘汰低分樣本。

通過MinHashLSH算法在文檔級別進(jìn)行去重，防止模型背誦重復(fù)內(nèi)容，也避免了評估集數(shù)據(jù)的泄露。

利用Perspective API等工具過濾掉有毒或不安全的內(nèi)容。

代碼數(shù)據(jù)的處理則更為特殊。只保留在GitHub上星標(biāo)數(shù)超過10的倉庫，通過語法解析器檢查代碼的有效性，并將去重做到函數(shù)級別，以防止許可證污染。

數(shù)學(xué)數(shù)據(jù)則通過從學(xué)術(shù)論文網(wǎng)站arXiv提取LaTeX源碼并渲染成文本，再結(jié)合使用GPT-4等大模型合成新的數(shù)學(xué)問答對來進(jìn)行增強(qiáng)。

數(shù)據(jù)混合的配比，是真正的煉丹術(shù)。

SmolLM3的目標(biāo)是成為一個(gè)兼具多語言、推理和代碼能力的全能模型。團(tuán)隊(duì)的初始混合配比是50%的網(wǎng)頁文本，30%的代碼，以及20%的多語言數(shù)據(jù)。

然而，消融實(shí)驗(yàn)的結(jié)果令人意外。

將代碼比例從30%提升到40%，代碼評估基準(zhǔn)HumanEval的分?jǐn)?shù)竟提升了8%。

將多語言數(shù)據(jù)從20%提升到30%，通用知識評估MMLU的分?jǐn)?shù)不僅沒有下降，反而因跨語言知識的遷移而有所上升。

網(wǎng)頁文本的質(zhì)量遠(yuǎn)比數(shù)量重要，經(jīng)過更嚴(yán)格的過濾后，即便比例從50%降至35%，模型性能也毫無損失。

最終，SmolLM3的數(shù)據(jù)配方演變?yōu)椋?5%高質(zhì)量英語網(wǎng)頁文本，15%覆蓋20種語言的多語言文本，40%的代碼（其中Python占一半），以及10%專門用于數(shù)學(xué)和推理的數(shù)據(jù)。

課程學(xué)習(xí)（Curriculum Learning）的有效性也得到了驗(yàn)證。訓(xùn)練的前1萬億（token），模型只學(xué)習(xí)相對簡單的內(nèi)容，比如短文本和高置信度的干凈數(shù)據(jù)。隨后，長文檔、復(fù)雜代碼等高難度數(shù)據(jù)才被逐步引入。這種由易到難的學(xué)習(xí)路徑，不僅穩(wěn)定了訓(xùn)練初期的收斂過程，還為最終性能帶來了2%到3%的額外提升。

分詞策略同樣關(guān)鍵。SmolLM3的詞表大小從常見的32K擴(kuò)展到了64K，專門增補(bǔ)了大量代碼關(guān)鍵字和多語言的子詞。一個(gè)重要的警告是：訓(xùn)練中途絕對不要修改詞表，這會(huì)破壞嵌入空間的連續(xù)性，導(dǎo)致災(zāi)難性的后果。

當(dāng)理論撞上384塊GPU的現(xiàn)實(shí)

理論設(shè)計(jì)得再完美，當(dāng)它運(yùn)行在由384塊H100 GPU組成的龐大集群上時(shí)，現(xiàn)實(shí)的復(fù)雜性便會(huì)顯露無疑。

SmolLM3長達(dá)3周、消耗11萬億（token）的訓(xùn)練過程，就是一場與意外搏斗的馬拉松。

存儲(chǔ)系統(tǒng)曾因并行寫入請求超過IOPS上限而崩潰，導(dǎo)致檢查點(diǎn)（checkpoint）保存失敗。

網(wǎng)絡(luò)在夜間維護(hù)時(shí)段發(fā)生擁塞，導(dǎo)致節(jié)點(diǎn)間的AllReduce通信超時(shí)。

損失函數(shù)曲線上會(huì)隨機(jī)出現(xiàn)無法解釋的尖峰。

平均每天都有一到兩塊H100 GPU發(fā)生故障，故障率約為0.5%。

其中最驚心動(dòng)魄的，是那次發(fā)生在訓(xùn)練進(jìn)行到1萬億（token）后的重啟事件。

當(dāng)時(shí)，團(tuán)隊(duì)發(fā)現(xiàn)模型的各項(xiàng)評估指標(biāo)，如MMLU和HumanEval，都顯著低于小規(guī)模實(shí)驗(yàn)的預(yù)期。他們首先懷疑是數(shù)據(jù)混合出了問題，但反復(fù)檢查后排除了這個(gè)可能。

排查過程如同一部偵探小說。數(shù)據(jù)加載器正常，梯度同步正常，損失計(jì)算正常。最后，當(dāng)他們檢查到系統(tǒng)的隨機(jī)性時(shí)，發(fā)現(xiàn)了那個(gè)隱藏至深的Bug：在同一個(gè)張量并行組內(nèi)的所有GPU，竟然共享了同一個(gè)隨機(jī)種子。

根本原因在于，初始化GQA的鍵值頭時(shí)，代碼錯(cuò)誤地使用了全局種子而非與每個(gè)GPU綁定的本地種子。這導(dǎo)致在一個(gè)由8塊GPU組成的張量并行組內(nèi)，所有鍵值頭的初始化狀態(tài)完全相同。模型的注意力頭多樣性被人為地削減了，學(xué)習(xí)能力因此受到嚴(yán)重抑制。

雖然Bug被修復(fù)了，但已經(jīng)消耗掉的1萬億（token）的訓(xùn)練成果無法挽回。

團(tuán)隊(duì)面臨一個(gè)艱難的抉擇：是基于當(dāng)前有缺陷的模型繼續(xù)訓(xùn)練，還是壯士斷腕，從頭開始？他們選擇了后者。這個(gè)決定意味著大約15萬美元的計(jì)算成本打了水漂，但它換來的是最終模型能夠達(dá)到SOTA級別的性能。

這次事件的最大教訓(xùn)是，必須對每一個(gè)組件進(jìn)行系統(tǒng)性的單元測試。正是因?yàn)槠渌糠侄冀?jīng)過了嚴(yán)格的消融驗(yàn)證，團(tuán)隊(duì)才能在眾多可能性中迅速定位到問題根源。

吞吐量優(yōu)化是另一場戰(zhàn)斗。理論上，384塊H100能提供380 PFLOPS的算力，但實(shí)際利用率峰值只有45%左右。通過性能剖析，團(tuán)隊(duì)發(fā)現(xiàn)數(shù)據(jù)加載、通信開銷、計(jì)算內(nèi)核效率和中央處理器（CPU）瓶頸是四大性能殺手。

他們通過使用Ray Data并行化數(shù)據(jù)加載、調(diào)整AllReduce的通信桶大小、升級到最新版的CUDA和FlashAttention內(nèi)核、用Numba編譯Python預(yù)處理代碼等一系列手段，將實(shí)際吞-吐量提升到了一個(gè)可接受的水平。序列打包（Sequence Packing）和動(dòng)態(tài)批大小等技巧也被用來減少計(jì)算資源的浪費(fèi)。

損失尖峰是訓(xùn)練中常見的雜音，但SmolLM3遇到的尖峰頻率異常之高。通過細(xì)致的排查，團(tuán)隊(duì)發(fā)現(xiàn)這并非單一原因所致。

一部分尖峰是由數(shù)據(jù)引起的，代碼數(shù)據(jù)的平均長度遠(yuǎn)超文本，其梯度也更大，容易導(dǎo)致梯度爆炸。解決方案是為代碼數(shù)據(jù)設(shè)置一個(gè)更低的梯度裁剪閾值。

另一部分則源于優(yōu)化器，AdamW中β2參數(shù)設(shè)為0.999導(dǎo)致二階矩更新過慢，對梯度尖峰不夠敏感。將其調(diào)整為0.95后，尖峰的幅度顯著降低。

甚至硬件也可能是元兇。監(jiān)控系統(tǒng)發(fā)現(xiàn)，某節(jié)點(diǎn)的HBM顯存溫度一度超過95攝氏度，導(dǎo)致GPU自動(dòng)降頻。調(diào)整數(shù)據(jù)中心的空調(diào)流向后問題解決。

從一塊璞玉到一件稱手工具

預(yù)訓(xùn)練完成的基礎(chǔ)模型，本質(zhì)上只是一個(gè)高級的自動(dòng)補(bǔ)全工具。要讓它變成能與人對話、遵循指令的智能助手，還需要經(jīng)歷細(xì)致的后訓(xùn)練過程。

監(jiān)督微調(diào)（SFT）是第一步。其核心在于構(gòu)建高質(zhì)量的指令數(shù)據(jù)集。團(tuán)隊(duì)采用了拒絕采樣的方法，讓模型對同一個(gè)提示生成多個(gè)回答，然后由人工挑選出最佳答案。數(shù)據(jù)混合同樣關(guān)鍵，最終配比為50%的通用指令，30%的代碼指令和20%的對話數(shù)據(jù)。

SFT階段的超參數(shù)也充滿了驚喜。最佳學(xué)習(xí)率是預(yù)訓(xùn)練的十分之一（1e-5），并且訓(xùn)練兩個(gè)周期（epoch）效果最好，更多周期反而會(huì)導(dǎo)致過擬合。有趣的是，流行的低秩適配（LoRA）微調(diào)方法在SFT階段效果不佳，全參數(shù)微調(diào)的表現(xiàn)要好得多。

偏好優(yōu)化，如基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），并非所有模型的必需品。只有當(dāng)模型需要抑制有害內(nèi)容、對齊人類審美或強(qiáng)化特定格式遵循時(shí)，它才顯得尤為重要。

Hugging Face在SmolLM3上測試了一種更穩(wěn)定的偏好優(yōu)化算法APO（自適應(yīng)偏好優(yōu)化）。它不需要訓(xùn)練額外的價(jià)值網(wǎng)絡(luò)，簡化了架構(gòu)，在有益且無害的評估中，為模型帶來了5%的提升。

對于數(shù)學(xué)推理能力，團(tuán)隊(duì)開發(fā)了一種名為GRPO（分組相對策略優(yōu)化）的創(chuàng)新方法。

它讓模型對每個(gè)問題生成多個(gè)候選答案，然后用自動(dòng)化的規(guī)則（如代碼是否可運(yùn)行、數(shù)學(xué)答案是否正確）來篩選和排序這些答案，并據(jù)此更新模型策略。這個(gè)方法的效果是驚人的，它將模型在GSM8k數(shù)學(xué)基準(zhǔn)上的得分從62%一舉提升到了84%。關(guān)鍵在于，這個(gè)過程完全自動(dòng)化，無需昂貴的人工標(biāo)注。

最終，SmolLM3被打造成了一個(gè)雙模式推理模型。它既可以直接回答問題的快速模式，也具備先生成思考鏈條再給出答案的思考模式。這種設(shè)計(jì)是通過在SFT數(shù)據(jù)中混入思維鏈（Chain-of-Thought）樣本，并用特殊標(biāo)記來控制模式切換實(shí)現(xiàn)的。

這一切的背后，是龐大而復(fù)雜的基礎(chǔ)設(shè)施支撐。

在GPU選型上，Hugging Face的經(jīng)驗(yàn)是，對于小規(guī)模的消融實(shí)驗(yàn)（小于1000億token），使用4090消費(fèi)級顯卡集群的性價(jià)比遠(yuǎn)超昂貴的H100。他們用這種方式完成了絕大多數(shù)的早期實(shí)驗(yàn)，節(jié)省了約80%的成本。

存儲(chǔ)系統(tǒng)是另一個(gè)常被忽略的瓶頸。

一個(gè)完整的模型檢查點(diǎn)大小可達(dá)300GB，頻繁的保存會(huì)產(chǎn)生巨大的I/O壓力。解決方案包括使用NVMe固態(tài)硬盤陣列作為本地緩存、對檢查點(diǎn)進(jìn)行分片保存，以及采用Apache Arrow格式加速數(shù)據(jù)加載。

網(wǎng)絡(luò)通信是多節(jié)點(diǎn)訓(xùn)練的黑暗藝術(shù)。

PCIe與NVLink拓?fù)洳黄ヅ洹CCL緩沖區(qū)大小設(shè)置不當(dāng)、TCP與RDMA協(xié)議選擇錯(cuò)誤等問題，都可能嚴(yán)重拖慢訓(xùn)練速度。精細(xì)的配置和監(jiān)控是保障通信效率的關(guān)鍵。

最后是故障恢復(fù)。

在一個(gè)擁有數(shù)百塊GPU的集群中，節(jié)點(diǎn)故障是必然事件。一個(gè)健壯的訓(xùn)練系統(tǒng)必須具備自動(dòng)化故障恢復(fù)的能力，包括心跳檢測、故障節(jié)點(diǎn)隔離、動(dòng)態(tài)重配置集群以及從最近的檢查點(diǎn)快速回滾。PyTorch的彈性訓(xùn)練框架為此提供了強(qiáng)大的支持。

《Smol Training Playbook》最終沉淀出了兩條結(jié)晶。

第一是團(tuán)隊(duì)對迭代速度的癡迷。

頂級團(tuán)隊(duì)的標(biāo)志不是單次實(shí)驗(yàn)的規(guī)模有多大，而是單位時(shí)間內(nèi)能完成多少次實(shí)驗(yàn)。并行化實(shí)驗(yàn)、建立快速失敗機(jī)制、將一切流程自動(dòng)化，是提升迭代速度的核心。Hugging Face的內(nèi)部指標(biāo)是，每個(gè)研究員每周要進(jìn)行15到20個(gè)消融實(shí)驗(yàn)，從一個(gè)想法誕生到看到初步結(jié)果，平均只需要18小時(shí)。其中90%的實(shí)驗(yàn)會(huì)失敗，但正是這些失敗的實(shí)驗(yàn)，為最終的成功指明了方向。

第二是團(tuán)隊(duì)對高質(zhì)量數(shù)據(jù)的偏執(zhí)。

這句話被反復(fù)強(qiáng)調(diào)：架構(gòu)帶來的提升是小步快跑，而數(shù)據(jù)帶來的提升是跨越式發(fā)展。對數(shù)據(jù)多樣性、準(zhǔn)確性和信息密度的追求，應(yīng)該近乎于一種信仰。

這本手冊的終極價(jià)值，不在于提供了一份可以按圖索驥的菜譜，而是揭示了SOTA模型誕生的本質(zhì)：它是一場工程、科學(xué)與藝術(shù)的完美結(jié)合。

它不需要神來之筆，需要的是系統(tǒng)性地消除風(fēng)險(xiǎn)，是永不停歇的快速迭代，是對數(shù)據(jù)質(zhì)量的極致尊重，以及在凌晨兩點(diǎn)調(diào)試數(shù)據(jù)加載器時(shí)那份堅(jiān)韌不拔。

訓(xùn)練世界級模型沒有秘密，只有千次實(shí)驗(yàn)后的直覺，萬次失敗后的洞察，和永不妥協(xié)的質(zhì)量追求。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)