盤一盤，2017年Transformer之后，LLM領(lǐng)域的重要論文

2025-06-30 08:48:00

Karpathy 深入探討了這一變革對開發(fā)者、用戶以及軟件設(shè)計理念的深遠(yuǎn)影響。他認(rèn)為，我們不只是在使用新工具，更是在構(gòu)建一種全新的計算范式。

這兩天 Andrej Karpathy 的最新演講在 AI 社區(qū)引發(fā)了熱烈討論，他提出了「軟件 3.0」的概念，自然語言正在成為新的編程接口，而 AI 模型負(fù)責(zé)執(zhí)行具體任務(wù)。

回顧 LLM 的發(fā)展歷程：自 2017 年 Transformer 架構(gòu)問世以來，我們見證了 GPT 系列的一路高歌猛進(jìn)，以及多模態(tài)能力和端側(cè)應(yīng)用的全面開花。整個領(lǐng)域正以前所未有的速度演進(jìn)。

要深入理解這場變革的本質(zhì)，我們需要回到技術(shù)的源頭。那些奠定今天 AI 能力的關(guān)鍵論文，不僅記錄著算法的演進(jìn)軌跡，更揭示了從傳統(tǒng)編程到自然語言交互這一范式轉(zhuǎn)變的內(nèi)在邏輯。

此前我們通過 50 個核心問題回顧了 LLM 的基礎(chǔ)概念。今天，我們將梳理自 2017 年以來 LLM 領(lǐng)域的重要論文。本文從 X 用戶 Pramod Goyal 的論文盤點(diǎn)中精選了 22 篇進(jìn)行詳細(xì)介紹，其余論文將在文末列出供讀者參考。

奠基理論

Attention Is All You Need (2017)

鏈接：https://arxiv.org/pdf/1706.03762

主要內(nèi)容：提出了 Transformer 架構(gòu)，它完全摒棄了傳統(tǒng)的循環(huán)和卷積網(wǎng)絡(luò)，僅依靠自注意力機(jī)制來處理序列數(shù)據(jù)。通過并行計算和位置編碼，它能高效捕捉長距離的依賴關(guān)系，以更快的速度和更高的質(zhì)量完成機(jī)器翻譯等任務(wù)。

影響：Transformer 架構(gòu)是現(xiàn)代 AI 的基石，直接催生了 GPT 和 BERT 等 LLM，并引發(fā)了當(dāng)前的 AI 熱潮。它的高效和通用性使其不僅徹底改變了自然語言處理，還被成功應(yīng)用于計算機(jī)視覺等多個領(lǐng)域，成為一項革命性的技術(shù)。

Language Models are Few-Shot Learners (2020)

論文地址：https://arxiv.org/abs/2005.14165

主要內(nèi)容：介紹并驗證了擁有 1750 億參數(shù)的自回歸語言模型 GPT-3 的強(qiáng)大能力。研究表明，與以往需要針對特定任務(wù)進(jìn)行大量數(shù)據(jù)微調(diào)的模型不同，GPT-3 無需更新權(quán)重，僅通過在輸入時提供任務(wù)描述和少量示例（即「少樣本學(xué)習(xí)」或「上下文學(xué)習(xí)」），就能在翻譯、問答、文本生成乃至代碼編寫等大量不同的自然語言處理任務(wù)上取得極具競爭力的表現(xiàn)，且模型性能隨著參數(shù)規(guī)模的增長和示例數(shù)量的增加而穩(wěn)定提升。

影響：確立了「大模型 + 大數(shù)據(jù)」的縮放定律 (Scaling Law) 是通往更通用人工智能的有效路徑，直接引領(lǐng)了全球范圍內(nèi)的 LLM 軍備競賽。同時，它開創(chuàng)了以「提示工程」為核心的新型 AI 應(yīng)用范式，極大地降低了 AI 技術(shù)的開發(fā)門檻，并催生了后續(xù)以 ChatGPT 為代表的生成式 AI 浪潮，深刻地改變了科技產(chǎn)業(yè)的格局和未來走向。

Deep Reinforcement Learning from Human Preferences (2017)

論文地址：https://arxiv.org/abs/1706.03741

主要內(nèi)容：該論文開創(chuàng)性地提出，不再手動設(shè)計復(fù)雜的獎勵函數(shù)，而是直接從人類的偏好中學(xué)習(xí)。其核心方法是：收集人類對 AI 行為片段的成對比較（「哪個更好？」），用這些數(shù)據(jù)訓(xùn)練一個「獎勵模型」來模仿人類的判斷標(biāo)準(zhǔn)，最后用這個模型作為獎勵信號，通過強(qiáng)化學(xué)習(xí)來訓(xùn)練 AI。該方法被證明僅需少量人類反饋即可高效解決復(fù)雜任務(wù)。

影響：這篇論文是「基于人類反饋的強(qiáng)化學(xué)習(xí)」(RLHF) 領(lǐng)域的奠基之作。RLHF 后來成為對齊和微調(diào) ChatGPT 等 LLM 的關(guān)鍵技術(shù)，通過學(xué)習(xí)人類偏好，使 AI 的輸出更有用、更符合人類價值觀。它將「AI 對齊」從抽象理論變?yōu)榭尚械墓こ虒?shí)踐，為確保 AI 系統(tǒng)與人類意圖一致提供了可擴(kuò)展的解決方案，是現(xiàn)代對話式 AI 發(fā)展的基石。

Training language models to follow instructions with human feedback (2022)

論文地址：https://arxiv.org/abs/2203.02155

主要內(nèi)容：該論文提出了一種結(jié)合人類反饋的強(qiáng)化學(xué)習(xí)方法 (RLHF) 來訓(xùn)練語言模型，使其更好地遵循用戶的指令。具體步驟包括：首先，使用少量人工編寫的示例對預(yù)訓(xùn)練的 GPT-3 進(jìn)行微調(diào)；然后，收集人類對模型不同輸出的偏好排序數(shù)據(jù)，并用這些數(shù)據(jù)訓(xùn)練一個「獎勵模型」；最后，利用這個獎勵模型作為強(qiáng)化學(xué)習(xí)的信號，進(jìn)一步優(yōu)化語言模型。通過這種方式，即使模型參數(shù)比 GPT-3 小得多，InstructGPT 在遵循指令方面也表現(xiàn)得更出色、更真實(shí)，且有害內(nèi)容生成更少。

影響：催生了現(xiàn)象級產(chǎn)品 ChatGPT，并為 LLM 的發(fā)展確立了新的技術(shù)路線。它證明了通過人類反饋進(jìn)行對齊 (Alignment) 是解決大型模型「說胡話」、不聽指令問題的有效途徑。此后，RLHF 成為訓(xùn)練主流對話式 AI 和服務(wù)型大模型的行業(yè)標(biāo)準(zhǔn)，深刻改變了 AI 的研發(fā)范式，將研究重點(diǎn)從單純追求模型規(guī)模轉(zhuǎn)向了如何讓模型更好地與人類意圖對齊。這一方法論的成功，是推動生成式 AI 從純粹的技術(shù)展示走向大規(guī)模實(shí)際應(yīng)用的關(guān)鍵一步。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2019)

論文地址：https://aclanthology.org/N19-1423/

主要內(nèi)容：該論文提出了 BERT，一個基于 Transformer 的語言表示模型。其核心創(chuàng)新是真正的雙向上下文理解，通過創(chuàng)新的「掩碼語言模型」(MLM) 預(yù)訓(xùn)練任務(wù)，讓模型能同時利用一個詞左右兩側(cè)的全部語境。這克服了以往單向模型的局限性。BERT 通過在海量文本上預(yù)訓(xùn)練，再針對具體任務(wù)微調(diào)的范式，極大地提升了語言理解能力。

影響：BERT 的發(fā)布是 NLP 領(lǐng)域的革命，它在 11 項主流任務(wù)上刷新了最高分紀(jì)錄，確立了「預(yù)訓(xùn)練 + 微調(diào)」作為行業(yè)標(biāo)準(zhǔn)范式。它極大地簡化了為特定任務(wù)構(gòu)建高性能模型的流程，減少了對復(fù)雜定制架構(gòu)的需求。BERT 開啟了現(xiàn)代 LLM 的新紀(jì)元，成為后續(xù)無數(shù)模型的基礎(chǔ)。

Training Compute-Optimal Large Language Models (2022)

論文地址：https://arxiv.org/abs/2203.15556

主要內(nèi)容：這篇由 DeepMind 發(fā)表的論文（通常被稱為「Chinchilla 論文」）挑戰(zhàn)了當(dāng)時「模型越大越好」的普遍認(rèn)知。通過對超過 400 個模型的系統(tǒng)性訓(xùn)練和分析，研究者發(fā)現(xiàn)，現(xiàn)有的 LLM 普遍處于「訓(xùn)練不足」的狀態(tài)。為了在給定的計算預(yù)算下達(dá)到最佳性能，模型的大小和訓(xùn)練數(shù)據(jù)的規(guī)模應(yīng)該同步增長。具體來說，模型參數(shù)每增加一倍，訓(xùn)練數(shù)據(jù)的量也應(yīng)相應(yīng)增加一倍。這揭示了一個新的、更高效的「計算最優(yōu)」縮放法則，顛覆了以往只側(cè)重于增加模型參數(shù)的策略。

影響：改變了之后 LLM 的研發(fā)方向和資源分配策略。它提出的「計算最優(yōu)」縮放法則，成為了業(yè)界訓(xùn)練新模型時遵循的黃金準(zhǔn)則。在此之前，各大機(jī)構(gòu)競相追求更大的模型規(guī)模，而「Chinchilla」證明了在同等計算成本下，一個參數(shù)量更小但用更多數(shù)據(jù)訓(xùn)練的模型（如其 700 億參數(shù)的 Chinchilla 模型）可以優(yōu)于參數(shù)量更大的模型（如 GPT-3）。這促使整個領(lǐng)域從單純追求「大」轉(zhuǎn)向追求「大與多的平衡」，對后續(xù)如 LLaMA 等高效模型的誕生起到了關(guān)鍵的指導(dǎo)作用。

里程碑突破

GPT-4 Technical Report (2023)

論文地址：https://arxiv.org/abs/2303.08774

主要內(nèi)容：詳細(xì)介紹了一個大規(guī)模、多模態(tài)的語言模型——GPT-4。其核心在于展示了該模型在各類專業(yè)和學(xué)術(shù)基準(zhǔn)測試中展現(xiàn)出的「人類水平」的性能。與前代不同，GPT-4 不僅能處理文本，還能接收圖像輸入并進(jìn)行理解和推理。報告重點(diǎn)闡述了其深度學(xué)習(xí)系統(tǒng)的構(gòu)建、訓(xùn)練方法、安全考量以及通過可預(yù)測的「縮放法則」來準(zhǔn)確預(yù)測最終性能的工程實(shí)踐。同時，報告也坦誠地指出了模型在事實(shí)準(zhǔn)確性、幻覺和偏見等方面的局限性。

影響：進(jìn)一步鞏固了大規(guī)模基礎(chǔ)模型作為通往更強(qiáng)人工智能關(guān)鍵路徑的行業(yè)共識。GPT-4 所展示的卓越性能，特別是其多模態(tài)能力和在復(fù)雜推理任務(wù)上的突破，迅速成為 AI 技術(shù)的新標(biāo)桿，極大地推動了 AI 在各行業(yè)的應(yīng)用深度和廣度。它不僅催生了更多強(qiáng)大的 AI 應(yīng)用，也促使全球科技界、學(xué)術(shù)界和政策制定者更加嚴(yán)肅地審視 AI 安全、對齊和倫理挑戰(zhàn)，加速了相關(guān)防護(hù)措施和治理框架的研究與部署。

LLaMA：Open and Efficient Foundation Language Models (2023)

論文地址：https://arxiv.org/abs/2302.13971

主要內(nèi)容：發(fā)布了一系列參數(shù)規(guī)模從 70 億到 650 億不等的語言模型集合——LLaMA。其核心發(fā)現(xiàn)是，通過在海量的公開數(shù)據(jù)集上進(jìn)行更長時間的訓(xùn)練，一個規(guī)模相對較小的模型（如 130 億參數(shù)的 LLaMA 模型）其性能可以超越參數(shù)量更大的模型（如 GPT-3）。論文證明了訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量對于模型性能的決定性作用，并為業(yè)界提供了一條在有限算力下訓(xùn)練出高效能模型的全新路徑。

影響：LLaMA 的發(fā)布對 AI 領(lǐng)域產(chǎn)生了顛覆性的影響。盡管最初其權(quán)重并非完全開源，但很快被社區(qū)泄露，并催生了 Alpaca、Vicuna 等大量開源微調(diào)模型的井噴式發(fā)展，極大地推動了 LLM 研究的民主化進(jìn)程。它讓學(xué)術(shù)界和中小型企業(yè)也能參與到大模型的研發(fā)與應(yīng)用中，打破了少數(shù)科技巨頭的技術(shù)壟斷，引爆了整個開源 AI 生態(tài)的活力與創(chuàng)新。

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness (2022)

論文地址：https://arxiv.org/abs/2205.14135

主要內(nèi)容：提出了一種快速且節(jié)省內(nèi)存的精確注意力算法。它通過融合計算內(nèi)核、重排計算順序以及利用 GPU 內(nèi)存層級（IO 感知）等技術(shù)，有效減少了在計算注意力時對高帶寬內(nèi)存 (HBM) 的讀寫次數(shù)。這使得模型在處理長序列時，既能大幅提升計算速度，又能顯著降低內(nèi)存占用，且計算結(jié)果與標(biāo)準(zhǔn)注意力完全一致。

影響：FlashAttention 已成為訓(xùn)練和部署 LLM 的行業(yè)標(biāo)準(zhǔn)。該技術(shù)使得用更少的硬件訓(xùn)練更大、更長的模型成為可能，直接推動了長上下文窗口模型的發(fā)展。因其顯著的加速和優(yōu)化效果，它被迅速集成到 PyTorch、Hugging Face 等主流深度學(xué)習(xí)框架和庫中，極大地促進(jìn)了整個 AI 領(lǐng)域的進(jìn)步。

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022)

論文地址：https://arxiv.org/abs/2201.11903

主要內(nèi)容：該論文發(fā)現(xiàn)，在處理復(fù)雜的推理任務(wù)（如數(shù)學(xué)題）時，若引導(dǎo) LLM 模仿人類的思維過程，先輸出一步步的推理「思路鏈」(Chain-of-Thought)，再給出最終答案，其準(zhǔn)確率會大幅提升。這種簡單的提示技巧，有效激發(fā)了模型隱藏的邏輯推理能力。

影響：這項工作開創(chuàng)了「思維鏈」(CoT) 提示技術(shù)，成為提升大模型推理能力最重要和基礎(chǔ)的方法之一。它深刻地影響了后續(xù)提示工程的發(fā)展，并啟發(fā)了一系列更高級的推理技術(shù)，是理解和應(yīng)用現(xiàn)代 LLM 的基石性研究。

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (2023)

主要內(nèi)容：提出了一種名為「直接偏好優(yōu)化」(DPO) 的新方法，用于對齊語言模型。它不再需要像傳統(tǒng) RLHF 方法那樣，先訓(xùn)練一個獨(dú)立的獎勵模型，再通過強(qiáng)化學(xué)習(xí)去優(yōu)化。DPO 直接利用人類偏好數(shù)據(jù)，通過一個簡單的分類目標(biāo)，就能高效地調(diào)整語言模型，使其更符合人類期望。這種方法將復(fù)雜的對齊過程簡化成了一步式的微調(diào)。

影響：DPO 因其簡潔性和高效性迅速產(chǎn)生了巨大影響。它大大簡化了從人類偏好中學(xué)習(xí)的訓(xùn)練流程，降低了計算成本和技術(shù)門檻，使得更多研究者和開發(fā)者能夠有效地對齊自己的模型。目前，該方法已被業(yè)界廣泛采納，成為許多領(lǐng)先開源模型（如 Zephyr、Tulu 2）進(jìn)行對齊時所采用的主流技術(shù)之一。

Scaling Laws for Neural Language Models (2020)

論文地址：https://arxiv.org/abs/2001.08361

主要內(nèi)容：系統(tǒng)地研究了神經(jīng)語言模型的性能與其規(guī)模之間的關(guān)系。研究發(fā)現(xiàn)，模型性能與模型參數(shù)量、數(shù)據(jù)集大小和用于訓(xùn)練的計算量之間存在著平滑的、可預(yù)測的冪律關(guān)系 (Power Law)。這意味著，當(dāng)我們在計算資源受限的情況下，可以根據(jù)這些「縮放法則」來最優(yōu)地分配資源，以達(dá)到最佳的模型性能，而無需進(jìn)行昂貴的試錯。

影響：為之后的 LLM 研發(fā)提供了理論基石和路線圖。它明確指出，持續(xù)、可預(yù)測的性能提升可以通過同步擴(kuò)大模型、數(shù)據(jù)和計算量來實(shí)現(xiàn)。這直接指導(dǎo)了像 GPT-3、PaLM 等后續(xù)超大規(guī)模模型的誕生，確立了「暴力縮放」(Scaling) 作為通往更強(qiáng) AI 能力的核心策略，深刻塑造了當(dāng)前 AI 領(lǐng)域的軍備競賽格局。

Proximal Policy Optimization Algorithms (2017)

論文地址：https://arxiv.org/abs/1707.06347

主要內(nèi)容：該論文提出 PPO 算法，一種旨在解決強(qiáng)化學(xué)習(xí)中策略更新不穩(wěn)定的新方法。其核心創(chuàng)新是「裁剪代理目標(biāo)函數(shù)」，通過將新舊策略的概率比率限制在一個小范圍內(nèi)，來防止過大的、破壞性的策略更新。這種簡潔的一階優(yōu)化方法在保證訓(xùn)練穩(wěn)定性的同時，顯著提升了數(shù)據(jù)利用效率，且比 TRPO 等先前算法更易于實(shí)現(xiàn)。

影響：PPO 憑借其穩(wěn)定性、性能和實(shí)現(xiàn)簡單的完美平衡，已成為強(qiáng)化學(xué)習(xí)領(lǐng)域的「默認(rèn)」算法。其最深遠(yuǎn)的影響是作為核心技術(shù)，驅(qū)動了「基于人類反饋的強(qiáng)化學(xué)習(xí)」(RLHF)，這使得對齊 ChatGPT 等 LLM 成為可能，確保 AI 更有用、更無害。此外，它在機(jī)器人等領(lǐng)域應(yīng)用廣泛，并成為衡量新算法的重要基準(zhǔn)。

核心架構(gòu)與方法

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (2023)

論文地址：https://arxiv.org/abs/2312.00752

主要內(nèi)容：Mamba 是一種新型的序列建模架構(gòu)，它通過引入一種選擇性機(jī)制來改進(jìn)狀態(tài)空間模型 (SSM)。這使其能根據(jù)輸入內(nèi)容動態(tài)地壓縮和傳遞信息，從而以與序列長度成線性關(guān)系的時間復(fù)雜度高效處理超長序列，并在性能上媲美甚至超越了傳統(tǒng)的 Transformer 架構(gòu)。

影響：Mamba 為長序列建模提供了一個區(qū)別于 Transformer 的強(qiáng)大新選擇，其高效性能迅速激發(fā)了學(xué)界對狀態(tài)空間模型的研究熱潮。它被視為下一代基礎(chǔ)模型架構(gòu)的有力競爭者，正推動語言模型、基因組學(xué)、多模態(tài)等領(lǐng)域的底層架構(gòu)革新，展現(xiàn)出巨大的應(yīng)用潛力。

QLoRA: Efficient Finetuning of Quantized LLMs (2023)

論文地址：https://arxiv.org/abs/2305.14314

主要內(nèi)容：提出了一種高效微調(diào)量化 LLM 的方法。它通過引入一種新的 4 位數(shù)據(jù)類型 (4-bit NormalFloat)、雙重量化和分頁優(yōu)化器技術(shù)，極大地降低了微調(diào)大模型所需的顯存，僅用一塊消費(fèi)級 GPU 即可微調(diào)數(shù)十億參數(shù)的模型。這種方法在大幅節(jié)省資源的同時，幾乎不損失模型性能，能達(dá)到與 16 位全量微調(diào)相當(dāng)?shù)男Ч?/span>

影響：極大地降低了參與 LLM 研發(fā)的門檻，使得個人開發(fā)者和小型研究團(tuán)隊也能在消費(fèi)級硬件上微調(diào)強(qiáng)大的模型。它迅速成為最主流和最受歡迎的高效微調(diào)技術(shù)之一，推動了開源社區(qū)的繁榮和 AI 應(yīng)用的創(chuàng)新。QLoRA 的技術(shù)思想也啟發(fā)了后續(xù)更多關(guān)于模型量化和效率優(yōu)化的研究工作。

PagedAttention: Efficient Memory Management for LLM Serving (2023)

論文地址：https://arxiv.org/abs/2309.06180

主要內(nèi)容：提出了一種名為「分頁注意力」(PagedAttention) 的新型注意力機(jī)制算法。它借鑒了操作系統(tǒng)中虛擬內(nèi)存和分頁的思想，將 LLM 的鍵 (Key) 和值 (Value) 緩存分割成非連續(xù)的固定大小「塊」進(jìn)行管理。這解決了因注意力緩存 (KV Cache) 導(dǎo)致的嚴(yán)重內(nèi)存碎片和冗余問題，使得在處理長序列或并行處理多個請求時，內(nèi)存利用率大幅提升。

影響：作為核心技術(shù)被集成到業(yè)界領(lǐng)先的推理服務(wù)框架 vLLM 中，將 LLM 的吞吐量提升了數(shù)倍，并顯著降低了顯存占用。這使得在相同硬件上服務(wù)更多用戶、運(yùn)行更大模型成為可能，極大地降低了 LLM 的部署成本和延遲，已成為當(dāng)前高性能大模型服務(wù) (LLM Serving) 領(lǐng)域的行業(yè)標(biāo)準(zhǔn)方案。

Mistral 7B (2023)

論文地址：https://arxiv.org/abs/2310.06825

主要內(nèi)容：Mistral 7B 論文介紹了一款高效的 70 億參數(shù)語言模型。它通過分組查詢注意力 (GQA) 和滑動窗口注意力 (SWA) 等創(chuàng)新架構(gòu)，在顯著降低計算成本和推理延遲的同時，實(shí)現(xiàn)了卓越性能。該模型在眾多基準(zhǔn)測試中，其表現(xiàn)不僅超越了同等規(guī)模的模型，甚至優(yōu)于 Llama 2 13B 等參數(shù)量更大的模型，展現(xiàn)了小尺寸模型實(shí)現(xiàn)高水平推理與處理長序列的能力。

影響：Mistral 7B 的發(fā)布對開源 AI 社區(qū)產(chǎn)生了巨大影響，迅速成為高效能小型模型的標(biāo)桿。它證明了小模型通過精巧設(shè)計足以媲美大模型，激發(fā)了社區(qū)在模型優(yōu)化上的創(chuàng)新熱情。該模型不僅被廣泛用作各種下游任務(wù)微調(diào)的基礎(chǔ)模型，還推動了 AI 技術(shù)在更低資源設(shè)備上的普及與應(yīng)用，確立了 Mistral AI 在開源領(lǐng)域的領(lǐng)先地位。

LAION-5B: An open, large-scale dataset for training next generation image-text models (2022)

論文地址：https://arxiv.org/abs/2210.08402

主要內(nèi)容：LAION-5B 論文介紹了一個公開發(fā)布的、至今規(guī)模最大的圖文對數(shù)據(jù)集。它包含從互聯(lián)網(wǎng)抓取的 58.5 億個 CLIP 過濾后的圖像-文本對，并根據(jù)語言、分辨率、水印概率等進(jìn)行了分類。該數(shù)據(jù)集的構(gòu)建旨在民主化多模態(tài)大模型的訓(xùn)練，為研究社區(qū)提供了一個前所未有的、可替代私有數(shù)據(jù)集的大規(guī)模、開放資源。

影響：極大地推動了多模態(tài)人工智能的發(fā)展，尤其是在文本到圖像生成領(lǐng)域。它成為了許多著名模型（如 Stable Diffusion）的基礎(chǔ)訓(xùn)練數(shù)據(jù)，顯著降低了頂尖 AI 模型的研發(fā)門檻。該數(shù)據(jù)集的開放性促進(jìn)了全球范圍內(nèi)的研究創(chuàng)新與復(fù)現(xiàn)，深刻影響了此后生成式 AI 模型的技術(shù)路線和開源生態(tài)格局。

Tree of Thoughts: Deliberate Problem Solving with LLMs (2023)

論文地址：https://arxiv.org/abs/2305.10601

主要內(nèi)容：提出了一種名為「思想樹」(Tree of Thoughts, ToT) 的新框架，旨在增強(qiáng) LLM 解決復(fù)雜問題的能力。不同于傳統(tǒng)的一次性生成答案，ToT 允許模型探索多個不同的推理路徑，像人類一樣進(jìn)行深思熟慮。它通過自我評估和前瞻性規(guī)劃來評估中間步驟的價值，并選擇最有希望的路徑繼續(xù)探索，從而顯著提升了在數(shù)學(xué)、邏輯推理等任務(wù)上的表現(xiàn)。

影響：為提升 LLM 的推理能力提供了全新且有效的途徑，引發(fā)了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。它啟發(fā)了一系列后續(xù)研究，探索如何讓模型具備更強(qiáng)的規(guī)劃和自主思考能力，推動了從簡單「生成」到復(fù)雜「推理」的技術(shù)演進(jìn)。ToT 框架已成為優(yōu)化提示工程 (Prompt Engineering) 和構(gòu)建更強(qiáng)大 AI 智能體 (Agent) 的重要思想之一。

Emergent Abilities of Large Language Models (2022)

論文地址：https://arxiv.org/abs/2206.07682

主要內(nèi)容：這篇論文的核心觀點(diǎn)是，LLM 的能力并非隨著規(guī)模增大而平滑提升，而是會「涌現(xiàn)」出一些小模型完全不具備的新能力。研究者發(fā)現(xiàn)，在多步推理、指令遵循等復(fù)雜任務(wù)上，只有當(dāng)模型規(guī)模跨越某個關(guān)鍵閾值后，其性能才會從接近隨機(jī)猜測的水平躍升至遠(yuǎn)超隨機(jī)的水平。這種現(xiàn)象是不可預(yù)測的，只能通過實(shí)際測試更大規(guī)模的模型來發(fā)現(xiàn)。

影響：該論文為「大力出奇跡」的模型縮放路線 (Scaling Law) 提供了更深層次的理論解釋和預(yù)期。它激發(fā)了業(yè)界對探索和理解大模型「涌現(xiàn)」能力的濃厚興趣，推動了對模型能力邊界的研究。同時，「涌現(xiàn)」這一概念也成為了解釋為何更大模型（如 GPT-4）能處理更復(fù)雜、更精細(xì)任務(wù)的理論基石，深刻影響了后續(xù)模型的研發(fā)方向和評估標(biāo)準(zhǔn)。

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism (2019)

論文地址：https://arxiv.org/abs/1909.08053

主要內(nèi)容：該論文旨在解決單個 GPU 內(nèi)存無法容納巨型模型的核心工程難題。它提出了「張量并行」（即層內(nèi)模型并行）技術(shù)，將 Transformer 層內(nèi)部的巨大權(quán)重矩陣切分到多個 GPU 上，每個 GPU 僅計算一部分，再通過高效通信聚合結(jié)果。這種方法實(shí)現(xiàn)簡單，且能與其他并行策略結(jié)合。研究者用該技術(shù)成功訓(xùn)練了當(dāng)時前所未有的 83 億參數(shù)模型，證明了其可行性。

影響：這項工作是 AI 基礎(chǔ)設(shè)施的里程碑，它提供的張量并行技術(shù)是打破單 GPU 內(nèi)存瓶頸的關(guān)鍵。它為訓(xùn)練擁有數(shù)千億甚至萬億參數(shù)的模型鋪平了道路，并與數(shù)據(jù)、流水線并行共同構(gòu)成了現(xiàn)代大規(guī)模分布式訓(xùn)練的基石。Megatron-LM 開源庫迅速成為行業(yè)標(biāo)準(zhǔn)，為學(xué)界和業(yè)界提供了實(shí)現(xiàn)超大規(guī)模 AI 的工程藍(lán)圖，將「規(guī)模化」理論變?yōu)榱丝刹僮鞯默F(xiàn)實(shí)。

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models (2019)

主要內(nèi)容：該論文提出了一種名為 ZeRO (零冗余優(yōu)化器) 的顯存優(yōu)化技術(shù)。它通過在數(shù)據(jù)并行訓(xùn)練的各個 GPU 之間巧妙地分割和分配模型狀態(tài)（優(yōu)化器狀態(tài)、梯度和參數(shù)），消除了顯存冗余，從而能在現(xiàn)有硬件上訓(xùn)練遠(yuǎn)超以往規(guī)模的巨型模型，為萬億參數(shù)模型的實(shí)現(xiàn)鋪平了道路。

影響：ZeRO 技術(shù)被整合進(jìn)微軟 DeepSpeed 等主流深度學(xué)習(xí)框架并獲廣泛采用。該技術(shù)極大降低了訓(xùn)練超大模型的硬件門檻，直接推動了后續(xù) GPT 系列、BLOOM 等千億乃至萬億參數(shù)模型的成功訓(xùn)練，是支撐當(dāng)前大模型發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施技術(shù)之一。

OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER (2017)

論文地址：https://arxiv.org/abs/1701.06538

主要內(nèi)容：該論文引入了稀疏門控專家混合層 (MoE) 架構(gòu)，通過條件計算解決了模型容量與計算成本的矛盾。該架構(gòu)包含成千上萬個「專家」子網(wǎng)絡(luò)，由一個門控網(wǎng)絡(luò)為每個輸入僅激活少數(shù)幾個專家進(jìn)行處理。這使得模型參數(shù)可增加超 1000 倍，而計算成本僅有微小增加，從而在不犧牲效率的情況下，極大地提升了模型的知識吸收能力。

影響：這項工作首次在實(shí)踐中大規(guī)模證明了條件計算的可行性，為構(gòu)建擁有數(shù)千億甚至萬億參數(shù)的巨型模型鋪平了道路。MoE 已成為現(xiàn)代頂尖 LLM (如 Mixtral) 的核心技術(shù)之一，它通過讓專家網(wǎng)絡(luò)實(shí)現(xiàn)功能分化，在提升模型性能的同時保持了計算效率，對整個 AI 領(lǐng)域的大模型發(fā)展產(chǎn)生了深遠(yuǎn)影響。

重要優(yōu)化與應(yīng)用

Improving Language Understanding by Generative Pre-Training (2018)

地址: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Deep contextualized word representations (2018)

地址: https://aclanthology.org/N18-1202/

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (2020)

地址: https://arxiv.org/abs/2005.11401

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2020)

地址: https://arxiv.org/abs/1910.10683

RoBERTa: A Robustly Optimized BERT Pretraining Approach (2019)

地址: https://arxiv.org/abs/1907.11692

Holistic Evaluation of Language Models (HELM) (2022)

地址: https://arxiv.org/abs/2211.09110

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference (2024)

地址: https://arxiv.org/abs/2403.04132

LIMA: Less Is More for Alignment (2023)

地址: https://arxiv.org/abs/2305.11206

Grouped-query attention (2023)

地址: https://arxiv.org/abs/2305.13245

Fast Inference from Transformers via Speculative Decoding (2022)

地址: https://arxiv.org/abs/2211.17192

GPTQ: Accurate Post-Training Quantization for Generative Language Models (2022)

地址: https://arxiv.org/abs/2210.17323

LLaVA: Visual Instruction Tuning (2023)

地址: https://arxiv.org/abs/2304.08485

PaLM 2 / BLOOM / Qwen (Series) (2022-2023)

PaLM 2 地址: https://ai.google/static/documents/palm2techreport.pdf

BLOOM 地址: https://arxiv.org/abs/2211.05100

Qwen 地址: https://arxiv.org/abs/2309.16609

Universal and Transferable Adversarial Attacks on Aligned Language Models (2023)

地址: https://arxiv.org/abs/2307.15043

DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training (2023)

地址: https://arxiv.org/abs/2308.01320

前沿探索與新趨勢

Language Models are Unsupervised Multitask Learners (2019)

地址: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

DistilBERT, a distilled version of BERT (2019)

地址: https://arxiv.org/abs/1910.01108

Efficient Transformers (Sparse / Longformer / Reformer / Performers) (2019-2020)

Sparse Transformers 地址: https://arxiv.org/abs/1904.10509

Longformer 地址: https://arxiv.org/abs/2004.05150

Reformer 地址: https://arxiv.org/abs/2001.04451

Performers 地址: https://arxiv.org/abs/2009.14794

SentencePiece: A simple and language independent subword tokenizer (2018)

地址: https://arxiv.org/abs/1808.06226

Generative Agents: Interactive Simulacra of Human Behavior (2023)

地址: https://arxiv.org/abs/2304.03442

Voyager: An Open-Ended Embodied Agent with Large Language Models (2023)

地址: https://arxiv.org/abs/2305.16291

Textbooks Are All You Need (Phi Series) (2023)

地址: https://arxiv.org/abs/2306.11644 (phi-1)

Jamba: A Hybrid Transformer-Mamba Language Model (2024)

地址: https://arxiv.org/abs/2403.19887

WizardLM: Empowering Large Language Models to Follow Complex Instructions (2023)

地址: https://arxiv.org/abs/2304.12244

TinyLlama: An Open-Source Small Language Model (2024)

地址: https://arxiv.org/abs/2401.02385

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (2025)

地址: https://arxiv.org/abs/2501.12948

Train Short, Test Long: Attention with Linear Biases (ALiBi) (2021)

地址: https://arxiv.org/abs/2108.12409

AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (2023)

地址: https://arxiv.org/abs/2306.00978

Red Teaming Language Models with Language Models (2022)

地址: https://arxiv.org/abs/2202.03286

Universal Language Model Fine-tuning for Text Classification (ULMFiT) (2018)

地址: https://arxiv.org/abs/1801.06146

XLNet: Generalized Autoregressive Pretraining for Language Understanding (2019)

地址: https://arxiv.org/abs/1906.08237

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation... (2020)

地址: https://aclanthology.org/2020.acl-main.703/

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (2020)

地址: https://arxiv.org/abs/2003.10555

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (2020)

地址: https://arxiv.org/abs/2006.16668

MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING (MMLU) (2020)

地址: https://arxiv.org/abs/2009.03300

Beyond the Imitation Game: Quantifying and extrapolating... (BIG-bench) (2022)

地址: https://arxiv.org/abs/2206.04615

Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models... (2023)

地址: https://arxiv.org/abs/2312.12148

DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale (2022)

地址: https://arxiv.org/abs/2207.00032

責(zé)任編輯：張燕妮來源：機(jī)器之心

LLM 模型 AI