AM-Thinking-v1：解鎖 32B 模型推理潛力的密碼

作者：肆零柒 2025-06-18 02:30:00

AM-Thinking-v1 以 32B 的規模，通過 post train 的方式，結合 SFT 和 RL，讓模型突破了推理能力的邊界。在數學推理和代碼生成等領域展現驚人實力，挑戰了大家對模型規模與性能的傳統認知。

大家好，我是肆〇柒。本篇想和大家分享一個后訓練的模型案例 ——AM-Thinking-v1 模型。這個模型是由貝殼（Ke.com）公司旗下的 a-m-team 團隊開發的，他們一直致力于探索 AGI 技術。AM-Thinking-v1 憑借其精心設計的后訓練框架，在數學和代碼推理等任務上展現出卓越性能，為中等規模模型的發展探索了很好的可能性。它不僅在效率與性能間取得平衡，更向我們揭示了模型規模之外，創新訓練方法對推理能力提升的無限可能。下面一起來看看這篇論文對 32B 模型 Post train 的介紹，這個團隊分享的實踐過程，對于我們私有化模型落地很有實操的借鑒意義。

模型開發背景

a-m-team 與 Qwen2.5-32B 基礎模型

a-m-team 是貝殼（Ke.com）公司旗下專注于探索 AGI 技術的團隊。他們開發 AM-Thinking-v1 所使用的 Qwen2.5-32B 基礎模型是完全開源的。團隊選擇這一基礎模型，是因為其在性能和穩定性上具有顯著優勢。Qwen2.5-32B 模型在預訓練階段已經學習了海量的文本知識，具備了良好的語言理解和生成能力，這為后續的推理能力優化提供了堅實的基礎。此外，a-m-team 團隊對開源社區的貢獻和依賴，促進了整個研究領域的快速發展。開源模型使得更多的研究者和開發者能夠參與到模型的改進和優化中來，加速了技術的迭代和創新。

規模抉擇：32B 模型的優勢與應用考量

選擇 32B 規模的模型進行開發，是基于實際應用的多方面考慮。與大型 MoE 架構模型相比，32B 模型在效率、可部署性與推理性能之間實現了良好的平衡。大型 MoE 架構模型雖然在推理性能上表現出色，但它們需要海量的計算資源來進行訓練和推理，訓練成本高昂，對硬件設施要求嚴苛，且部署復雜度大。這些因素使得大多數企業難以承擔。而 32B 模型則不同，它能夠在中小企業的實際業務需求中找到應用場景，同時也能滿足多數實際場景的推理任務要求。例如，在推理速度方面，32B 模型能夠在相對較短的時間內給出響應，滿足實時性要求較高的應用場景；在資源消耗方面，它對硬件資源的需求相對較低，降低了部署成本；在硬件要求方面，普通的服務器配置即可滿足其運行需求，無需配備專門的高性能計算集群。

數據處理方法

數據收集與來源

AM-Thinking-v1 的訓練數據來自多個公開的數據集，涵蓋了數學推理、代碼生成、科學推理、指令遵循和通用聊天等任務領域。

在數學推理領域，使用了如 OpenR1-Math-220k 數據集，該數據集包含大量的數學問題及解答，涵蓋了從基礎數學到高等數學的各個知識點；Big-Math-RL-Verified 數據集則側重于通過強化學習驗證的數學問題，確保了數學問題解答的準確性和可靠性。此外，還有 data_ablation_full59K、NuminaMath、MetaMathQA、2023_amc_data、DeepMath-103K 和 AIME_1983_2024 等數據集，這些數據集從不同角度和難度層次為模型提供了豐富的數學推理訓練素材。

在代碼生成領域，PRIME 數據集涵蓋了多種編程語言的代碼示例，包括 Python、C++、Java 等常見編程語言，為模型學習不同編程語言的語法和編程范式提供了基礎；DeepCoder 數據集聚焦于代碼生成和修復任務，包含了大量具有代表性的代碼問題和解決方案，有助于模型提高代碼生成的準確性和魯棒性。其他如 KodCode、liveincode_generation、codeforces_cots、verifiable_coding、opencoder 和 AceCode-87K 等數據集，也從不同方面豐富了代碼生成任務的訓練數據。

科學推理領域包括了 task_mmmlu 數據集，該數據集涉及多個學科的科學問題，如物理、化學、生物等，以多項選擇題的形式呈現，每個問題都配有可靠的真值答案；chemistryQA 數據集則專注于化學領域的問答，涵蓋了化學物質的性質、化學反應的原理等知識點。此外，Llama-NemotronPost-Training-Dataset-v1、LOGIC-701、ncert 系列數據集和 logicLM 等也從不同學科和題型角度為科學推理任務提供了數據支持。

指令遵循領域選用了 Llama-Nemotron-PostTraining-Dataset 和 tulu-3-sft-mixture 兩個數據集，這些數據集包含了各種指令類型的樣本，如文本編輯指令、信息檢索指令等，幫助模型更好地理解和執行用戶的指令。

通用聊天領域則包括了 evol、InfinityInstruct、open_orca、tulu-3-sft-mixture、natural_reasoning、flan、ultra_chat 和 OpenHermes-2.5 等數據集，涵蓋了開放性問題、一般知識問答和日常推理等多種類型的任務，支持單輪和多輪對話交互，使模型能夠在通用聊天場景中表現出自然、流暢的對話能力。

查詢過濾策略

對收集到的數據進行預處理是確保訓練數據質量的關鍵步驟。首先，進行去重操作，去除重復的查詢，避免模型在訓練過程中對重復數據的過度擬合。然后，刪除低質量查詢，包括那些描述不清楚、信息不完整或存在明顯錯誤的查詢。此外，去除包含 URL 和圖像引用的查詢也至關重要。由于模型在訓練時無法訪問外部鏈接，包含 URL 的查詢可能會導致模型產生幻覺或誤導性輸出；而模型是純文本基于的，無法感知或處理視覺信息，因此包含圖像引用的查詢也被排除在外。

特別地，數學查詢的過濾尤為重要。在實際操作中，利用 LLM 對數學問題進行分析，過濾掉描述不清晰或不完整的查詢。

例如，對于一個原始描述為 “求一個三角形的面積，已知三條邊長分別為 3、4、5” 的問題，通過 LLM 分析后，可以重新表述為 “已知一個三角形的三條邊長分別為 3 厘米、4 厘米、5 厘米，求該三角形的面積”，使問題更加清晰準確，便于模型理解和解答。

同時，采用 DeepSeek-R1 生成多個響應來驗證原始答案的正確性。若發現問題，則借助 o4-mini 重新確定答案并修正原始真實值。具體流程是，設置合適的提示詞讓 DeepSeek-R1 生成多個回答，然后使用 math_verify 工具判斷這些回答與原始答案是否一致。如果不一致，則由 o4-mini 生成新的答案，并再次通過 math_verify 判斷 o4-mini 的答案與 DeepSeek-R1 的常見回答是否等價。若等價，則認為原始真實值可能錯誤，將其修正為 o4-mini 的答案。

例如，在一個關于二次方程求解的問題中，原始答案標注為 “x = 3”，但通過 DeepSeek-R1 生成的多個響應中出現頻率最高的答案是 “x = 2”，經 math_verify 判斷與 o4-mini 生成的答案 “x = 2” 等價，于是將原始答案修正為 “x = 2”。此外，對于數學證明題和多子問題查詢直接過濾掉；對于多項選擇題，由于其數量眾多，將其改寫為填空題，例如將 “下列哪個選項是勾股數？A.3、4、5 B.5、6、7 C.6、7、8” 改寫為 “請填寫勾股數：3、4、___”。

在代碼查詢方面，采用了方法調用和標準輸入輸出測試用例來驗證模型的代碼生成能力。例如，對于需要實現特定方法或函數的查詢，定義了特定的函數名、輸入值及其對應的預期輸出值。在驗證過程中，這些測試用例被自動轉換為斷言語句，并在安全的代碼沙盒環境中執行。下圖展示了方法調用和標準輸入輸出測試用例的具體形式：

方法調用以及標準輸入/輸出測試用例示例

對于指令遵循查詢，使用了 IFEval 驗證器來進行驗證。驗證器接收指令標識符（instruction_id_list）及其參數（kwargs），并為每個指令返回一個布爾結果（True/False），表示指令是否被成功遵循。此處采用的是 IFEval 驗證器的嚴格模式，僅評估原始響應。下圖展示了驗證器輸入的具體格式和內容：

驗證器輸入示例

通過這些詳細的驗證步驟和示例，可以確保訓練數據的高質量，為模型的后續訓練和推理能力提升奠定了堅實的基礎。

質量把控：合成響應的三次過濾法

在生成模型響應后，采用三種方法來過濾低質量的響應。基于困惑度（Perplexity）的方法是利用之前訓練的 32B 模型計算每個模型生成響應的困惑度，設定一個困惑度閾值，超過該閾值的響應將被丟棄。通常，困惑度較低的響應表示模型對生成的文本更具確定性，質量也相對較高。例如，設定困惑度閾值為 100，對于困惑度超過 100 的響應，認為其質量較低，應予以過濾。N-gram 基于的方法是丟棄包含一定最小長度重復短語的模型響應。例如，如果一個響應中連續出現兩次以上的相同短語，長度超過 3 個詞，則認為該響應可能存在重復冗余，質量較低，應予以過濾。結構基于的方法則是針對多輪對話，確保最后的輪次是助手的響應，并且每個模型生成的回復都包含完整思考和回答的組件。如果一個對話輪次的結構不完整，如缺少思考過程或回答部分，則認為該響應質量不高，需要過濾掉。例如，對于一個多輪對話，如果模型生成的回復只有思考過程而沒有最終答案，或者只有答案而沒有思考過程，則該響應將被過濾掉。

Post-train 框架

監督微調（SFT）：初始雕琢

SFT 使用約 284 萬樣本，涵蓋數學、代碼、科學、指令遵循和通用聊天五個主要類別。在訓練過程中，對于樣本數量較少的指令遵循類別，通過重復數據來增加其在訓練中的占比，確保模型在各個任務上的學習平衡。例如，在訓練初期，指令遵循類別的樣本數量相對較少，可能只占總樣本數的 5% 左右。為了提升模型對這類任務的學習效果，將指令遵循類別的數據重復多次加入到訓練集中，使其占比提升至 10% 左右。同時，生成多樣本合成的響應來增強模型對復雜指令的理解能力。例如，對于一個復雜的指令 “請生成一篇關于人工智能在醫療領域應用的報告，要求包括當前應用現狀、面臨挑戰和未來發展趨勢三個部分”，模型會生成多個不同的響應，這些響應從不同角度和側重點來回答該指令，從而豐富了模型的學習素材，提高了其對復雜指令的理解和執行能力。

基于 Qwen2.5-32B 基礎模型的 SFT 訓練配置如下：學習率設置為 8e-5，較大的學習率有助于模型在長形式推理任務中更好地擬合數據；最大序列長度設置為 32k，并采用序列打包技術，在提高計算效率的同時，確保模型能夠處理較長的推理文本；全局批量大小設置為 64，較大的批量大小可以充分利用計算資源，加快訓練速度；模型訓練 2 個周期，確保模型能夠充分學習到訓練數據中的知識；采用余弦熱身策略，熱身步設置為總訓練步的 5%，學習率先線性增長到最大值，然后隨著訓練進程逐步衰減，這有助于模型在訓練初期快速收斂，同時避免后期學習率過高導致的模型參數震蕩；對于多輪對話數據，只使用包含推理過程的最后響應作為訓練目標，并將其作為損失函數的計算依據，使模型能夠專注于學習推理部分的模式和結構。

在SFT（Supervised Fine-Tuning，監督式微調）過程中，左側是實例級分布（Instance Level Distribution），右側是 token 級分布（Token Level Distribution）

上圖展示了監督微調階段的數據分布情況，從實例層面和token層面直觀呈現了不同任務類別在訓練集中的占比和分布，反映了訓練數據的多樣性和豐富性，確保模型能夠接觸到足夠多類型的樣本，從而在多個任務上實現均衡有效的學習。

同時，監督微調階段的訓練損失曲線如下所示：

監督微調（SFT）訓練loss曲線

上面曲線顯示了模型在訓練過程中的損失變化情況。可以看到，隨著訓練的進行，損失逐漸下降，表明模型在不斷學習和擬合訓練數據。在訓練初期，損失下降較為迅速，說明模型能夠快速捕捉到數據中的主要模式和特征；隨著訓練的深入，損失下降速度逐漸放緩，趨于平穩，這表明模型逐漸收斂，學習到了更細致的知識和復雜的推理模式。通過合理設置學習率和批量大小等超參數，確保了模型在長形式推理任務中的穩定訓練和有效學習，為后續強化學習階段的進一步優化奠定了良好的基礎。

此外，在監督微調過程中，我們還可以觀察到平均生成長度和平均停止比例的動態變化：

平均代長（上）和平均停止比例（下）的變化

上圖顯示，在訓練早期，模型傾向于生成過長的輸出，平均生成長度較大，而平均停止比例較低。這主要是由于基礎模型的預訓練語料庫以純文本為主，且推理示例的長度顯著長于標準指令數據。隨著訓練的進行，模型逐漸學習到推理提示的結構和語義模式，平均生成長度呈現下降趨勢，而平均停止比例則穩步上升。這表明模型在不斷調整自身的生成行為，逐步向更連貫、更符合任務要求的推理模式靠攏，體現了監督微調方法對模型推理能力的有效引導。

強化學習（RL）：能力進階雙階段提升

在 RL 階段，選擇適當難度的訓練查詢對于確保性能穩定提升至關重要。根據 SFT 模型的通過率來篩選數學和代碼查詢。具體操作是，統計 SFT 模型在各個查詢上的通過率，即模型正確回答查詢的次數占總嘗試次數的比例。然后，設定一個閾值范圍，例如只保留通過率在 0 到 1 之間的查詢，即那些模型既不能完全正確回答，也不是完全錯誤的查詢。最終確定用于訓練的數學查詢數量為 32k，代碼查詢數量為 22k。

RL 分為兩個階段。在第一階段，當模型性能趨于平穩后，進入第二階段。在第二階段，移除模型在第一階段已完全正確回答的查詢，同時補充 15k 通用聊天和 5k 指令遵循數據，以增強模型的泛化能力。采用 GRPO 作為訓練算法，原因在于其簡化和輕量化的特性，盡管是 PPO 的變體，但在本項目中表現出良好的訓練穩定性和有效的性能提升。GRPO 算法通過計算優勢函數來評估策略的好壞，并根據優勢函數更新策略模型。優勢函數計算公式為：A(s,a) = Q(s,a) - V(s)，其中 Q(s,a) 是狀態 - 動作價值函數，V(s) 是狀態價值函數。在具體配置方面，去除 KL 約束，允許模型進行更大幅度的策略更新；對于過長的響應，將其優勢設置為零，防止其影響參數更新；采用嚴格的 on-policy 訓練方式，每個訓練批次包含 256 個查詢，每個查詢采樣 16 次探索，每次探索后只更新一次策略模型；分階段調整生成和學習率，第一階段最大響應長度限制為 24K，學習率相對較高，為 4 × 10?6，以加快模型收斂速度；第二階段最大響應長度增加到 32K，學習率降低至 1 × 10?6，以精細化調整模型參數，提高訓練精度。例如，在 RL 訓練過程中，如果發現模型在某個查詢上的性能表現較差，可以通過調整學習率和批量大小等超參數來優化訓練策略。可以適當降低學習率，減小批量大小，增加訓練步數，使模型能夠更細致地學習該查詢的特征和模式，從而逐步提高性能。

為了提高強化學習階段的訓練效率，對 rollout 速度進行了優化。傳統的在線 GRPO 訓練由于需要在每一步生成策略模型樣本，導致訓練周期較長。通過解耦 rollout 工作者與推理引擎，并引入自定義負載均衡器，實現了動態實例分配。這種優化設計使得訓練系統能夠根據實時系統指標靈活調度推理任務，有效緩解了長序列處理導致的長尾效應和負載不均衡問題，提高了整體訓練效率。

流式負載均衡架構下的解耦式部署與升級

上圖展示了優化后的 rollout 架構，通過將 rollout 邏輯與推理引擎分離，并結合流式負載均衡技術，模型能夠在大規模 GPU 集群上實現高效的強化學習訓練。這種架構改進加快了訓練速度，還為未來支持更復雜的智能體和工具使用場景提供了技術基礎。

實驗與評估

評估基準與方法

AM-Thinking-v1 模型的評估基準包括美國數學邀請賽（AIME）2024 和 2025、LiveCodeBench 以及 Arena-Hard 等。

模型在推理基準測試中的性能比較

AIME2024 和 AIME2025 是具有挑戰性的數學推理競賽數據集，各包含 30 個整數答案問題。這些問題設計巧妙，主要是考察學生對數學知識的深入理解和靈活運用能力，如代數、幾何、組合數學等各個分支的知識點。LiveCodeBench 是一個綜合性的、無污染的編程基準測試，持續從 LeetCode、AtCoder 和 Codeforces 等平臺收集新的編程挑戰。這些編程挑戰涵蓋了多種編程語言和不同的難度層次，能夠全面評估模型的代碼生成能力。Arena-Hard 則是從 Chatbot Arena 的實時數據中構建高質量基準測試，通過 GPT-4 Turbo 進行成對比較判斷模型的性能。

在評估過程中，保持標準化的評估條件。最大生成長度設置為 49,152 token，確保模型能夠生成足夠長的文本以完整表達其答案；對于需要隨機采樣的基準測試，統一采用溫度為 0.6 和 top-p 值為 0.95 的參數設置。對于 AIME2024 和 AIME2025，每個查詢生成 64 個響應，以計算 pass@1 精度；對于 LiveCodeBench，每個查詢生成 16 個響應來估計 pass@1；對于 Arena-Hard，每個查詢生成一個響應，并使用 GPT-4 Turbo（1106）進行評估。

此外，采用一致的系統提示來引導模型的響應格式，如 “You are a helpful assistant. To answer the user’s question, you first think about the reasoning process and then provide the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively...”。

根據不同的基準測試，適當調整用戶提示，例如在 AIME 2024 和 2025 中，附加指令 “Let’s think step by step and output the final answer within \box{}”；在 LiveCodeBench 和 Arena-Hard 中，則使用基準測試默認的用戶提示。

實驗結果與分析

AM-Thinking-v1 模型在各個基準測試中的性能表現如下表所示：

跨推理基準測試的比較

從上表中數據可以看出，在數學任務方面，AM-Thinking-v1 在 AIME2024 中取得了 85.3 分，在 AIME2025 中取得了 74.4 分，超過了 DeepSeek-R1（AIME2024 為 79.8 分，AIME2025 為 70.0 分）等模型，并且與 Qwen3-235B-A22B（AIME2024 為 85.7 分，AIME2025 為 81.5 分）等大型 MoE 模型的性能相當。這表明 AM-Thinking-v1 在數學推理任務上具有顯著優勢，可能得益于其在數學推理訓練中采用的特定數據集和訓練方法，如對數學問題答案的嚴格驗證和篩選，以及精心設計的后訓練框架，使模型能夠深入學習數學問題的解題思路和方法。在代碼生成任務中，AM-Thinking-v1 在 LiveCodeBench 上取得了 70.3 分，大幅超越了 DeepSeek-R1（64.3 分）、Qwen3-32B（65.7 分）和 NemotronUltra-253B（68.1 分）等模型，顯示出其在代碼理解與生成方面的強大能力。

這可能是因為模型在訓練過程中接觸了大量的代碼數據，并通過后訓練框架不斷優化了代碼生成的準確性和邏輯性。在通用聊天任務中，AM-Thinking-v1 在 Arena-Hard 上獲得了 92.5 分，與一些專有模型如 OpenAI-o1（92.1 分）和 o3-mini（89.0 分）具有競爭力，但在與 Qwen3-235B-A22B（95.6 分）相比存在一定差距。這可能是由于在通用聊天任務的訓練中，32B 模型在處理復雜的對話上下文時，相對于大型 MoE 模型，存在一定的局限性，如對長對話歷史的記憶和理解能力相對較弱，導致在某些復雜對話場景中表現不如大型 MoE 模型。

AIME2024（上方）和LiveCodeBench（下方）的性能與模型規模對比

上圖直觀展示了模型規模與性能之間的關系。AM-Thinking-v1 在 32B 規模密集模型中處于領先地位，其性能接近甚至超過了一些更大規模的 MoE 模型。這表明模型規模并非決定推理性能的唯一因素，合理的模型設計和訓練方法同樣能夠顯著提升模型的推理表現。AM-Thinking-v1 的后訓練框架通過優化數據處理和訓練策略，充分發揮了 32B 模型的潛力，在不增加模型規模的情況下，使其推理能力得到了顯著提升。例如，通過精心設計的查詢過濾和響應過濾方法，確保了訓練數據的高質量，提高了模型學習效率；采用難度適中的查詢選擇和分階段訓練策略，在強化學習階段逐步提升模型的推理能力，同時保證了訓練的穩定性和效率。這些創新的訓練方法和策略，使得 AM-Thinking-v1 能夠在中等規模模型中實現卓越的推理性能，為模型規模與性能關系的研究提供了新的視角和思路。

該圖直觀展示了模型規模與性能之間的關系。AM-Thinking-v1 在 32B 規模密集模型中處于領先地位，其性能接近甚至超過了一些更大規模的 MoE 模型。這表明模型規模并非決定推理性能的唯一因素，合理的模型設計和訓練方法同樣能夠顯著提升模型的推理表現。AM-Thinking-v1 的后訓練框架通過優化數據處理和訓練策略，充分發揮了 32B 模型的潛力，在不增加模型規模的情況下，使其推理能力得到了顯著提升。例如，通過精心設計的查詢過濾和響應過濾方法，確保了訓練數據的高質量，提高了模型學習效率；采用難度適中的查詢選擇和分階段訓練策略，在強化學習階段逐步提升模型的推理能力，同時保證了訓練的穩定性和效率。這些創新的訓練方法和策略，使得 AM-Thinking-v1 能夠在中等規模模型中實現卓越的推理性能，為模型規模與性能關系的研究提供了新的視角和思路。

規模之辯：性能與模型大小的關聯

繪制模型規模與性能之間的關系圖，以 AIME2024 和 LiveCodeBench 基準測試為例，可以清晰地看到 AM-Thinking-v1 在與其他模型相比時，在性能和規模上的相對位置。AM-Thinking-v1 在 32B 規模密集模型中處于領先地位，其性能接近甚至超過了一些更大規模的 MoE 模型。這表明模型規模并非決定推理性能的唯一因素，合理的模型設計和訓練方法同樣能夠顯著提升模型的推理表現。AM-Thinking-v1 的后訓練框架通過優化數據處理和訓練策略，充分發揮了 32B 模型的潛力，在不增加模型規模的情況下，使其推理能力得到了顯著提升。例如，通過精心設計的查詢過濾和響應過濾方法，確保了訓練數據的高質量，提高了模型學習效率；采用難度適中的查詢選擇和分階段訓練策略，在強化學習階段逐步提升模型的推理能力，同時保證了訓練的穩定性和效率。這些創新的訓練方法和策略，使得 AM-Thinking-v1 能夠在中等規模模型中實現卓越的推理性能，為模型規模與性能關系的研究提供了新的視角和思路。

技術創新與優勢

訓練革新：后訓練框架的創新融合

AM-Thinking-v1 的后訓練框架創新性地結合了監督微調和強化學習的優勢。在 SFT 階段，通過精心設計的訓練數據和提示詞，引導模型學習推理任務的結構和模式，例如在數學推理任務中，使用包含詳細解題步驟和答案的訓練數據，以及引導模型逐步思考的提示詞，使模型能夠學習到解決數學問題的一般方法和邏輯流程。這為 RL 階段的進一步優化奠定了堅實的基礎。在 RL 階段，通過難度適中的查詢選擇和分階段訓練策略，逐步提升模型的推理能力。例如，在 RL 第一階段，使用具有一定難度的數學和代碼查詢，讓模型在不斷嘗試和反饋中學習更復雜的推理技巧；當模型性能趨于穩定后，進入第二階段，移除已掌握的查詢，加入其他類型的通用聊天和指令遵循數據，使模型能夠適應更多樣化的任務場景，增強其泛化能力。這種創新的后訓練框架，為中等規模模型的推理能力提升提供了新的思路和方法，證明了在不依賴大規模 MoE 架構和私有數據的情況下，依然能夠挖掘出密集模型的推理潛力，實現與大型 MoE 模型相媲美的推理性能。

數據精修：全方位的數據處理優勢

系統化的數據預處理、驗證和篩選流程是 AM-Thinking-v1 的另一大優勢。在數學問題答案驗證方面，通過 DeepSeek-R1 生成多個響應并進行一致性比較，結合 o4-mini 的輔助判斷，能夠準確地發現并修正原始數據集中的錯誤答案。例如，在某個數學數據集中，一道關于二次方程求解的問題，原始答案標注為 “x = 3”，但通過 DeepSeek-R1 生成的多個響應中出現頻率最高的答案是 “x = 2”，經 math_verify 判斷與 o4-mini 生成的答案 “x = 2” 等價，于是將原始答案修正為 “x = 2”。這一過程有效地提高了訓練數據的準確性，為模型學習正確的數學知識提供了保障。在查詢過濾方面，利用 LLM 分析并過濾掉描述不清晰或不完整的查詢，使得訓練數據更加清晰、準確，便于模型理解和學習。同時，對低質量響應的過濾方法，如基于困惑度、N-gram 和結構的篩選，進一步確保了訓練數據的質量，提高了模型學習效率和推理能力的提升效果。

模型可部署性優勢

AM-Thinking-v1 作為 32B 規模的模型，在保持強大推理能力的同時，具有顯著的可部署性優勢。與大型 MoE 架構模型相比，其在服務器成本方面更具競爭力。32B 模型對硬件資源的需求相對較低，普通的服務器配置即可滿足其運行需求，無需配備專門的高性能計算集群，降低了部署成本。在推理延遲方面，32B 模型能夠在相對較短的時間內給出響應，滿足實時性要求較高的應用場景。例如，在處理用戶請求時，32B 模型的平均推理延遲可能在幾百毫秒到幾秒之間，而大型 MoE 模型由于其復雜的架構和龐大的參數量，推理延遲可能達到數十秒甚至更長，這大大影響了用戶體驗。在能源消耗方面，32B 模型的能耗相對較低，在長期運行過程中，能夠節省大量的能源成本。此外，通過模型優化技術，如量化、剪枝等，還可以進一步提高其可部署性。例如，對模型進行量化處理，將模型參數從 32 位浮點數降至 16 位或 8 位，能夠減少模型的存儲空間和計算量，提高模型的運行效率。同時，也可以采用知識蒸餾技術，將 32B 模型的知識蒸餾到更小規模的模型中，進一步降低部署門檻，使其能夠在資源受限的設備上運行，如移動設備、嵌入式設備等，從而將高性能的推理模型更廣泛地應用于各個領域和場景。

總結

通過對AM-Thinking-v1 的 Post train 過程的了解，我們可以對中等規模模型在推理領域的發展有一個全新的認識。它以 32B 的規模，在數學推理和代碼生成等任務上展現出媲美甚至超越部分大型 MoE 模型的能力，這可以認識到模型規模并非決定推理性能的唯一關鍵因素。合理的訓練方法、精細的數據處理流程以及創新的后訓練框架設計，同樣能夠極大地挖掘模型的推理潛力，使中等規模模型在實際應用中取得良好的收益比。對這一點，對標我去年 32B 模型項目的實戰，這是有共鳴的。

論文中數據處理方法的詳盡闡述給我留下了深刻印象。從數據收集的廣泛性與多樣性，涵蓋數學、代碼、科學等多個領域的數據集，到查詢過濾的嚴謹性，如去除低質量查詢、驗證數學問題答案正確性等操作，再到合成響應過濾的科學性，基于困惑度、N-gram 和結構的篩選方法，處處體現出研究者們對數據質量的高度重視。這讓我明白，高質量的數據是模型推理能力提升的基石，只有在純凈、準確、相關性強的數據基礎上，模型才能更好地學習知識、掌握推理技巧，進而生成高質量的推理結果。

同時，后訓練框架的詳細介紹也讓我受益匪淺。監督微調階段的采樣策略、訓練配置參數的選擇依據，以及強化學習階段的難度適中查詢篩選、分階段訓練策略等，環環相扣。研究者們通過精心設計的后訓練流程，將監督微調和強化學習的優勢充分發揮并有機結合，使模型在推理能力上實現了質的飛躍。這種創新的后訓練框架不僅為 AM-Thinking-v1 的成功奠定了基礎，也為其他中等規模模型的開發，提供了極具價值的范例，這非常具有中等參數量模型在實際私有化落地的參考意義。要感謝這個團隊的分享。

在實驗與評估部分，研究團隊通過詳細的性能數據對比和深入的結果分析，直觀地展示了 AM-Thinking-v1 的優勢與不足。看到 AM-Thinking-v1 在 AIME2024、AIME2025 和 LiveCodeBench 等基準測試中的出色表現，我不禁為其在數學推理和代碼生成任務上的強大能力感到欣喜。而它在 Arena-Hard 通用聊天任務中與頂級模型的差距，又讓我對模型的局限性有了清晰的認識。這啟發我在今后的項目中，既要關注模型的優勢發揮，還要深入分析其不足之處，從多個角度去優化模型性能，使其在各類任務中都能有更均衡、更出色的表現。

盡管 AM-Thinking-v1 在 benchmark 中取得了顯著的成果，但它仍存在一些局限性。首先，模型對結構化函數調用、工具使用等支持不足。其次，安全對齊工作尚處于初步階段，需要進一步的紅隊測試和改進。模型可能會產生一些不符合倫理道德或存在安全隱患的回答，如在回答涉及隱私、暴力等問題時，可能給出不當的建議。最后，在低資源語言和特定領域任務中的性能可能有所變化。對于一些數據稀缺的語言或領域，模型的推理能力可能不如在高資源語言和通用領域中表現得那么出色。例如，在處理一些少數民族語言的文本推理任務時，由于訓練數據中缺乏足夠的該語言樣本，模型可能無法準確理解和生成相應的文本。

總之，這個關于 AM-Thinking-v1 的研究讓我對中等規模模型在推理領域的發展有了全面、深入且清晰的認識與共鳴。

責任編輯：龐桂玉來源：覺察流

推理能力強化學習大語言模型 LLM