精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AM-Thinking-v1:解鎖 32B 模型推理潛力的密碼

人工智能
AM-Thinking-v1 以 32B 的規模,通過 post train 的方式,結合 SFT 和 RL,讓模型突破了推理能力的邊界。在數學推理和代碼生成等領域展現驚人實力,挑戰了大家對模型規模與性能的傳統認知。

大家好,我是肆〇柒。本篇想和大家分享一個后訓練的模型案例 ——AM-Thinking-v1 模型。這個模型是由貝殼(Ke.com)公司旗下的 a-m-team 團隊開發的,他們一直致力于探索 AGI 技術。AM-Thinking-v1 憑借其精心設計的后訓練框架,在數學和代碼推理等任務上展現出卓越性能,為中等規模模型的發展探索了很好的可能性。它不僅在效率與性能間取得平衡,更向我們揭示了模型規模之外,創新訓練方法對推理能力提升的無限可能。下面一起來看看這篇論文對 32B 模型 Post train 的介紹,這個團隊分享的實踐過程,對于我們私有化模型落地很有實操的借鑒意義。

模型開發背景

a-m-team 與 Qwen2.5-32B 基礎模型

a-m-team 是貝殼(Ke.com)公司旗下專注于探索 AGI 技術的團隊。他們開發 AM-Thinking-v1 所使用的 Qwen2.5-32B 基礎模型是完全開源的。團隊選擇這一基礎模型,是因為其在性能和穩定性上具有顯著優勢。Qwen2.5-32B 模型在預訓練階段已經學習了海量的文本知識,具備了良好的語言理解和生成能力,這為后續的推理能力優化提供了堅實的基礎。此外,a-m-team 團隊對開源社區的貢獻和依賴,促進了整個研究領域的快速發展。開源模型使得更多的研究者和開發者能夠參與到模型的改進和優化中來,加速了技術的迭代和創新。

規模抉擇:32B 模型的優勢與應用考量

選擇 32B 規模的模型進行開發,是基于實際應用的多方面考慮。與大型 MoE 架構模型相比,32B 模型在效率、可部署性與推理性能之間實現了良好的平衡。大型 MoE 架構模型雖然在推理性能上表現出色,但它們需要海量的計算資源來進行訓練和推理,訓練成本高昂,對硬件設施要求嚴苛,且部署復雜度大。這些因素使得大多數企業難以承擔。而 32B 模型則不同,它能夠在中小企業的實際業務需求中找到應用場景,同時也能滿足多數實際場景的推理任務要求。例如,在推理速度方面,32B 模型能夠在相對較短的時間內給出響應,滿足實時性要求較高的應用場景;在資源消耗方面,它對硬件資源的需求相對較低,降低了部署成本;在硬件要求方面,普通的服務器配置即可滿足其運行需求,無需配備專門的高性能計算集群。

數據處理方法

數據收集與來源

AM-Thinking-v1 的訓練數據來自多個公開的數據集,涵蓋了數學推理、代碼生成、科學推理、指令遵循和通用聊天等任務領域。

在數學推理領域,使用了如 OpenR1-Math-220k 數據集,該數據集包含大量的數學問題及解答,涵蓋了從基礎數學到高等數學的各個知識點;Big-Math-RL-Verified 數據集則側重于通過強化學習驗證的數學問題,確保了數學問題解答的準確性和可靠性。此外,還有 data_ablation_full59K、NuminaMath、MetaMathQA、2023_amc_data、DeepMath-103K 和 AIME_1983_2024 等數據集,這些數據集從不同角度和難度層次為模型提供了豐富的數學推理訓練素材。

在代碼生成領域,PRIME 數據集涵蓋了多種編程語言的代碼示例,包括 Python、C++、Java 等常見編程語言,為模型學習不同編程語言的語法和編程范式提供了基礎;DeepCoder 數據集聚焦于代碼生成和修復任務,包含了大量具有代表性的代碼問題和解決方案,有助于模型提高代碼生成的準確性和魯棒性。其他如 KodCode、liveincode_generation、codeforces_cots、verifiable_coding、opencoder 和 AceCode-87K 等數據集,也從不同方面豐富了代碼生成任務的訓練數據。

科學推理領域包括了 task_mmmlu 數據集,該數據集涉及多個學科的科學問題,如物理、化學、生物等,以多項選擇題的形式呈現,每個問題都配有可靠的真值答案;chemistryQA 數據集則專注于化學領域的問答,涵蓋了化學物質的性質、化學反應的原理等知識點。此外,Llama-NemotronPost-Training-Dataset-v1、LOGIC-701、ncert 系列數據集和 logicLM 等也從不同學科和題型角度為科學推理任務提供了數據支持。

指令遵循領域選用了 Llama-Nemotron-PostTraining-Dataset 和 tulu-3-sft-mixture 兩個數據集,這些數據集包含了各種指令類型的樣本,如文本編輯指令、信息檢索指令等,幫助模型更好地理解和執行用戶的指令。

通用聊天領域則包括了 evol、InfinityInstruct、open_orca、tulu-3-sft-mixture、natural_reasoning、flan、ultra_chat 和 OpenHermes-2.5 等數據集,涵蓋了開放性問題、一般知識問答和日常推理等多種類型的任務,支持單輪和多輪對話交互,使模型能夠在通用聊天場景中表現出自然、流暢的對話能力。

查詢過濾策略

對收集到的數據進行預處理是確保訓練數據質量的關鍵步驟。首先,進行去重操作,去除重復的查詢,避免模型在訓練過程中對重復數據的過度擬合。然后,刪除低質量查詢,包括那些描述不清楚、信息不完整或存在明顯錯誤的查詢。此外,去除包含 URL 和圖像引用的查詢也至關重要。由于模型在訓練時無法訪問外部鏈接,包含 URL 的查詢可能會導致模型產生幻覺或誤導性輸出;而模型是純文本基于的,無法感知或處理視覺信息,因此包含圖像引用的查詢也被排除在外。

特別地,數學查詢的過濾尤為重要。在實際操作中,利用 LLM 對數學問題進行分析,過濾掉描述不清晰或不完整的查詢。

例如,對于一個原始描述為 “求一個三角形的面積,已知三條邊長分別為 3、4、5” 的問題,通過 LLM 分析后,可以重新表述為 “已知一個三角形的三條邊長分別為 3 厘米、4 厘米、5 厘米,求該三角形的面積”,使問題更加清晰準確,便于模型理解和解答。

同時,采用 DeepSeek-R1 生成多個響應來驗證原始答案的正確性。若發現問題,則借助 o4-mini 重新確定答案并修正原始真實值。具體流程是,設置合適的提示詞讓 DeepSeek-R1 生成多個回答,然后使用 math_verify 工具判斷這些回答與原始答案是否一致。如果不一致,則由 o4-mini 生成新的答案,并再次通過 math_verify 判斷 o4-mini 的答案與 DeepSeek-R1 的常見回答是否等價。若等價,則認為原始真實值可能錯誤,將其修正為 o4-mini 的答案。

例如,在一個關于二次方程求解的問題中,原始答案標注為 “x = 3”,但通過 DeepSeek-R1 生成的多個響應中出現頻率最高的答案是 “x = 2”,經 math_verify 判斷與 o4-mini 生成的答案 “x = 2” 等價,于是將原始答案修正為 “x = 2”。此外,對于數學證明題和多子問題查詢直接過濾掉;對于多項選擇題,由于其數量眾多,將其改寫為填空題,例如將 “下列哪個選項是勾股數?A.3、4、5 B.5、6、7 C.6、7、8” 改寫為 “請填寫勾股數:3、4、___”。

在代碼查詢方面,采用了方法調用和標準輸入輸出測試用例來驗證模型的代碼生成能力。例如,對于需要實現特定方法或函數的查詢,定義了特定的函數名、輸入值及其對應的預期輸出值。在驗證過程中,這些測試用例被自動轉換為斷言語句,并在安全的代碼沙盒環境中執行。下圖展示了方法調用和標準輸入輸出測試用例的具體形式:

方法調用以及標準輸入/輸出測試用例示例

對于指令遵循查詢,使用了 IFEval 驗證器來進行驗證。驗證器接收指令標識符(instruction_id_list)及其參數(kwargs),并為每個指令返回一個布爾結果(True/False),表示指令是否被成功遵循。此處采用的是 IFEval 驗證器的嚴格模式,僅評估原始響應。下圖展示了驗證器輸入的具體格式和內容:

驗證器輸入示例

通過這些詳細的驗證步驟和示例,可以確保訓練數據的高質量,為模型的后續訓練和推理能力提升奠定了堅實的基礎。

質量把控:合成響應的三次過濾法

在生成模型響應后,采用三種方法來過濾低質量的響應。基于困惑度(Perplexity)的方法是利用之前訓練的 32B 模型計算每個模型生成響應的困惑度,設定一個困惑度閾值,超過該閾值的響應將被丟棄。通常,困惑度較低的響應表示模型對生成的文本更具確定性,質量也相對較高。例如,設定困惑度閾值為 100,對于困惑度超過 100 的響應,認為其質量較低,應予以過濾。N-gram 基于的方法是丟棄包含一定最小長度重復短語的模型響應。例如,如果一個響應中連續出現兩次以上的相同短語,長度超過 3 個詞,則認為該響應可能存在重復冗余,質量較低,應予以過濾。結構基于的方法則是針對多輪對話,確保最后的輪次是助手的響應,并且每個模型生成的回復都包含完整思考和回答的組件。如果一個對話輪次的結構不完整,如缺少思考過程或回答部分,則認為該響應質量不高,需要過濾掉。例如,對于一個多輪對話,如果模型生成的回復只有思考過程而沒有最終答案,或者只有答案而沒有思考過程,則該響應將被過濾掉。

Post-train 框架

監督微調(SFT):初始雕琢

SFT 使用約 284 萬樣本,涵蓋數學、代碼、科學、指令遵循和通用聊天五個主要類別。在訓練過程中,對于樣本數量較少的指令遵循類別,通過重復數據來增加其在訓練中的占比,確保模型在各個任務上的學習平衡。例如,在訓練初期,指令遵循類別的樣本數量相對較少,可能只占總樣本數的 5% 左右。為了提升模型對這類任務的學習效果,將指令遵循類別的數據重復多次加入到訓練集中,使其占比提升至 10% 左右。同時,生成多樣本合成的響應來增強模型對復雜指令的理解能力。例如,對于一個復雜的指令 “請生成一篇關于人工智能在醫療領域應用的報告,要求包括當前應用現狀、面臨挑戰和未來發展趨勢三個部分”,模型會生成多個不同的響應,這些響應從不同角度和側重點來回答該指令,從而豐富了模型的學習素材,提高了其對復雜指令的理解和執行能力。

基于 Qwen2.5-32B 基礎模型的 SFT 訓練配置如下:學習率設置為 8e-5,較大的學習率有助于模型在長形式推理任務中更好地擬合數據;最大序列長度設置為 32k,并采用序列打包技術,在提高計算效率的同時,確保模型能夠處理較長的推理文本;全局批量大小設置為 64,較大的批量大小可以充分利用計算資源,加快訓練速度;模型訓練 2 個周期,確保模型能夠充分學習到訓練數據中的知識;采用余弦熱身策略,熱身步設置為總訓練步的 5%,學習率先線性增長到最大值,然后隨著訓練進程逐步衰減,這有助于模型在訓練初期快速收斂,同時避免后期學習率過高導致的模型參數震蕩;對于多輪對話數據,只使用包含推理過程的最后響應作為訓練目標,并將其作為損失函數的計算依據,使模型能夠專注于學習推理部分的模式和結構。

在SFT(Supervised Fine-Tuning,監督式微調)過程中,左側是實例級分布(Instance Level Distribution),右側是 token 級分布(Token Level Distribution)

上圖展示了監督微調階段的數據分布情況,從實例層面和token層面直觀呈現了不同任務類別在訓練集中的占比和分布,反映了訓練數據的多樣性和豐富性,確保模型能夠接觸到足夠多類型的樣本,從而在多個任務上實現均衡有效的學習。

同時,監督微調階段的訓練損失曲線如下所示:

監督微調(SFT)訓練loss曲線

上面曲線顯示了模型在訓練過程中的損失變化情況。可以看到,隨著訓練的進行,損失逐漸下降,表明模型在不斷學習和擬合訓練數據。在訓練初期,損失下降較為迅速,說明模型能夠快速捕捉到數據中的主要模式和特征;隨著訓練的深入,損失下降速度逐漸放緩,趨于平穩,這表明模型逐漸收斂,學習到了更細致的知識和復雜的推理模式。通過合理設置學習率和批量大小等超參數,確保了模型在長形式推理任務中的穩定訓練和有效學習,為后續強化學習階段的進一步優化奠定了良好的基礎。

此外,在監督微調過程中,我們還可以觀察到平均生成長度和平均停止比例的動態變化:


平均代長(上)和平均停止比例(下)的變化

上圖顯示,在訓練早期,模型傾向于生成過長的輸出,平均生成長度較大,而平均停止比例較低。這主要是由于基礎模型的預訓練語料庫以純文本為主,且推理示例的長度顯著長于標準指令數據。隨著訓練的進行,模型逐漸學習到推理提示的結構和語義模式,平均生成長度呈現下降趨勢,而平均停止比例則穩步上升。這表明模型在不斷調整自身的生成行為,逐步向更連貫、更符合任務要求的推理模式靠攏,體現了監督微調方法對模型推理能力的有效引導。

強化學習(RL):能力進階雙階段提升

在 RL 階段,選擇適當難度的訓練查詢對于確保性能穩定提升至關重要。根據 SFT 模型的通過率來篩選數學和代碼查詢。具體操作是,統計 SFT 模型在各個查詢上的通過率,即模型正確回答查詢的次數占總嘗試次數的比例。然后,設定一個閾值范圍,例如只保留通過率在 0 到 1 之間的查詢,即那些模型既不能完全正確回答,也不是完全錯誤的查詢。最終確定用于訓練的數學查詢數量為 32k,代碼查詢數量為 22k。

RL 分為兩個階段。在第一階段,當模型性能趨于平穩后,進入第二階段。在第二階段,移除模型在第一階段已完全正確回答的查詢,同時補充 15k 通用聊天和 5k 指令遵循數據,以增強模型的泛化能力。采用 GRPO 作為訓練算法,原因在于其簡化和輕量化的特性,盡管是 PPO 的變體,但在本項目中表現出良好的訓練穩定性和有效的性能提升。GRPO 算法通過計算優勢函數來評估策略的好壞,并根據優勢函數更新策略模型。優勢函數計算公式為:A(s,a) = Q(s,a) - V(s),其中 Q(s,a) 是狀態 - 動作價值函數,V(s) 是狀態價值函數。在具體配置方面,去除 KL 約束,允許模型進行更大幅度的策略更新;對于過長的響應,將其優勢設置為零,防止其影響參數更新;采用嚴格的 on-policy 訓練方式,每個訓練批次包含 256 個查詢,每個查詢采樣 16 次探索,每次探索后只更新一次策略模型;分階段調整生成和學習率,第一階段最大響應長度限制為 24K,學習率相對較高,為 4 × 10?6,以加快模型收斂速度;第二階段最大響應長度增加到 32K,學習率降低至 1 × 10?6,以精細化調整模型參數,提高訓練精度。例如,在 RL 訓練過程中,如果發現模型在某個查詢上的性能表現較差,可以通過調整學習率和批量大小等超參數來優化訓練策略。可以適當降低學習率,減小批量大小,增加訓練步數,使模型能夠更細致地學習該查詢的特征和模式,從而逐步提高性能。

為了提高強化學習階段的訓練效率,對 rollout 速度進行了優化。傳統的在線 GRPO 訓練由于需要在每一步生成策略模型樣本,導致訓練周期較長。通過解耦 rollout 工作者與推理引擎,并引入自定義負載均衡器,實現了動態實例分配。這種優化設計使得訓練系統能夠根據實時系統指標靈活調度推理任務,有效緩解了長序列處理導致的長尾效應和負載不均衡問題,提高了整體訓練效率。

流式負載均衡架構下的解耦式部署與升級

上圖展示了優化后的 rollout 架構,通過將 rollout 邏輯與推理引擎分離,并結合流式負載均衡技術,模型能夠在大規模 GPU 集群上實現高效的強化學習訓練。這種架構改進加快了訓練速度,還為未來支持更復雜的智能體和工具使用場景提供了技術基礎。

實驗與評估

評估基準與方法

AM-Thinking-v1 模型的評估基準包括美國數學邀請賽(AIME)2024 和 2025、LiveCodeBench 以及 Arena-Hard 等。

模型在推理基準測試中的性能比較

AIME2024 和 AIME2025 是具有挑戰性的數學推理競賽數據集,各包含 30 個整數答案問題。這些問題設計巧妙,主要是考察學生對數學知識的深入理解和靈活運用能力,如代數、幾何、組合數學等各個分支的知識點。LiveCodeBench 是一個綜合性的、無污染的編程基準測試,持續從 LeetCode、AtCoder 和 Codeforces 等平臺收集新的編程挑戰。這些編程挑戰涵蓋了多種編程語言和不同的難度層次,能夠全面評估模型的代碼生成能力。Arena-Hard 則是從 Chatbot Arena 的實時數據中構建高質量基準測試,通過 GPT-4 Turbo 進行成對比較判斷模型的性能。

在評估過程中,保持標準化的評估條件。最大生成長度設置為 49,152 token,確保模型能夠生成足夠長的文本以完整表達其答案;對于需要隨機采樣的基準測試,統一采用溫度為 0.6 和 top-p 值為 0.95 的參數設置。對于 AIME2024 和 AIME2025,每個查詢生成 64 個響應,以計算 pass@1 精度;對于 LiveCodeBench,每個查詢生成 16 個響應來估計 pass@1;對于 Arena-Hard,每個查詢生成一個響應,并使用 GPT-4 Turbo(1106)進行評估。

此外,采用一致的系統提示來引導模型的響應格式,如 “You are a helpful assistant. To answer the user’s question, you first think about the reasoning process and then provide the user with the answer. The reasoning process and answer are enclosed within <think> </think> and <answer> </answer> tags, respectively...”。

根據不同的基準測試,適當調整用戶提示,例如在 AIME 2024 和 2025 中,附加指令 “Let’s think step by step and output the final answer within \box{}”;在 LiveCodeBench 和 Arena-Hard 中,則使用基準測試默認的用戶提示。

實驗結果與分析

AM-Thinking-v1 模型在各個基準測試中的性能表現如下表所示:

跨推理基準測試的比較

從上表中數據可以看出,在數學任務方面,AM-Thinking-v1 在 AIME2024 中取得了 85.3 分,在 AIME2025 中取得了 74.4 分,超過了 DeepSeek-R1(AIME2024 為 79.8 分,AIME2025 為 70.0 分)等模型,并且與 Qwen3-235B-A22B(AIME2024 為 85.7 分,AIME2025 為 81.5 分)等大型 MoE 模型的性能相當。這表明 AM-Thinking-v1 在數學推理任務上具有顯著優勢,可能得益于其在數學推理訓練中采用的特定數據集和訓練方法,如對數學問題答案的嚴格驗證和篩選,以及精心設計的后訓練框架,使模型能夠深入學習數學問題的解題思路和方法。在代碼生成任務中,AM-Thinking-v1 在 LiveCodeBench 上取得了 70.3 分,大幅超越了 DeepSeek-R1(64.3 分)、Qwen3-32B(65.7 分)和 NemotronUltra-253B(68.1 分)等模型,顯示出其在代碼理解與生成方面的強大能力。

這可能是因為模型在訓練過程中接觸了大量的代碼數據,并通過后訓練框架不斷優化了代碼生成的準確性和邏輯性。在通用聊天任務中,AM-Thinking-v1 在 Arena-Hard 上獲得了 92.5 分,與一些專有模型如 OpenAI-o1(92.1 分)和 o3-mini(89.0 分)具有競爭力,但在與 Qwen3-235B-A22B(95.6 分)相比存在一定差距。這可能是由于在通用聊天任務的訓練中,32B 模型在處理復雜的對話上下文時,相對于大型 MoE 模型,存在一定的局限性,如對長對話歷史的記憶和理解能力相對較弱,導致在某些復雜對話場景中表現不如大型 MoE 模型。

AIME2024(上方)和LiveCodeBench(下方)的性能與模型規模對比

上圖直觀展示了模型規模與性能之間的關系。AM-Thinking-v1 在 32B 規模密集模型中處于領先地位,其性能接近甚至超過了一些更大規模的 MoE 模型。這表明模型規模并非決定推理性能的唯一因素,合理的模型設計和訓練方法同樣能夠顯著提升模型的推理表現。AM-Thinking-v1 的后訓練框架通過優化數據處理和訓練策略,充分發揮了 32B 模型的潛力,在不增加模型規模的情況下,使其推理能力得到了顯著提升。例如,通過精心設計的查詢過濾和響應過濾方法,確保了訓練數據的高質量,提高了模型學習效率;采用難度適中的查詢選擇和分階段訓練策略,在強化學習階段逐步提升模型的推理能力,同時保證了訓練的穩定性和效率。這些創新的訓練方法和策略,使得 AM-Thinking-v1 能夠在中等規模模型中實現卓越的推理性能,為模型規模與性能關系的研究提供了新的視角和思路。

 該圖直觀展示了模型規模與性能之間的關系。AM-Thinking-v1 在 32B 規模密集模型中處于領先地位,其性能接近甚至超過了一些更大規模的 MoE 模型。這表明模型規模并非決定推理性能的唯一因素,合理的模型設計和訓練方法同樣能夠顯著提升模型的推理表現。AM-Thinking-v1 的后訓練框架通過優化數據處理和訓練策略,充分發揮了 32B 模型的潛力,在不增加模型規模的情況下,使其推理能力得到了顯著提升。例如,通過精心設計的查詢過濾和響應過濾方法,確保了訓練數據的高質量,提高了模型學習效率;采用難度適中的查詢選擇和分階段訓練策略,在強化學習階段逐步提升模型的推理能力,同時保證了訓練的穩定性和效率。這些創新的訓練方法和策略,使得 AM-Thinking-v1 能夠在中等規模模型中實現卓越的推理性能,為模型規模與性能關系的研究提供了新的視角和思路。

規模之辯:性能與模型大小的關聯

繪制模型規模與性能之間的關系圖,以 AIME2024 和 LiveCodeBench 基準測試為例,可以清晰地看到 AM-Thinking-v1 在與其他模型相比時,在性能和規模上的相對位置。AM-Thinking-v1 在 32B 規模密集模型中處于領先地位,其性能接近甚至超過了一些更大規模的 MoE 模型。這表明模型規模并非決定推理性能的唯一因素,合理的模型設計和訓練方法同樣能夠顯著提升模型的推理表現。AM-Thinking-v1 的后訓練框架通過優化數據處理和訓練策略,充分發揮了 32B 模型的潛力,在不增加模型規模的情況下,使其推理能力得到了顯著提升。例如,通過精心設計的查詢過濾和響應過濾方法,確保了訓練數據的高質量,提高了模型學習效率;采用難度適中的查詢選擇和分階段訓練策略,在強化學習階段逐步提升模型的推理能力,同時保證了訓練的穩定性和效率。這些創新的訓練方法和策略,使得 AM-Thinking-v1 能夠在中等規模模型中實現卓越的推理性能,為模型規模與性能關系的研究提供了新的視角和思路。

技術創新與優勢

訓練革新:后訓練框架的創新融合

AM-Thinking-v1 的后訓練框架創新性地結合了監督微調和強化學習的優勢。在 SFT 階段,通過精心設計的訓練數據和提示詞,引導模型學習推理任務的結構和模式,例如在數學推理任務中,使用包含詳細解題步驟和答案的訓練數據,以及引導模型逐步思考的提示詞,使模型能夠學習到解決數學問題的一般方法和邏輯流程。這為 RL 階段的進一步優化奠定了堅實的基礎。在 RL 階段,通過難度適中的查詢選擇和分階段訓練策略,逐步提升模型的推理能力。例如,在 RL 第一階段,使用具有一定難度的數學和代碼查詢,讓模型在不斷嘗試和反饋中學習更復雜的推理技巧;當模型性能趨于穩定后,進入第二階段,移除已掌握的查詢,加入其他類型的通用聊天和指令遵循數據,使模型能夠適應更多樣化的任務場景,增強其泛化能力。這種創新的后訓練框架,為中等規模模型的推理能力提升提供了新的思路和方法,證明了在不依賴大規模 MoE 架構和私有數據的情況下,依然能夠挖掘出密集模型的推理潛力,實現與大型 MoE 模型相媲美的推理性能。

數據精修:全方位的數據處理優勢

系統化的數據預處理、驗證和篩選流程是 AM-Thinking-v1 的另一大優勢。在數學問題答案驗證方面,通過 DeepSeek-R1 生成多個響應并進行一致性比較,結合 o4-mini 的輔助判斷,能夠準確地發現并修正原始數據集中的錯誤答案。例如,在某個數學數據集中,一道關于二次方程求解的問題,原始答案標注為 “x = 3”,但通過 DeepSeek-R1 生成的多個響應中出現頻率最高的答案是 “x = 2”,經 math_verify 判斷與 o4-mini 生成的答案 “x = 2” 等價,于是將原始答案修正為 “x = 2”。這一過程有效地提高了訓練數據的準確性,為模型學習正確的數學知識提供了保障。在查詢過濾方面,利用 LLM 分析并過濾掉描述不清晰或不完整的查詢,使得訓練數據更加清晰、準確,便于模型理解和學習。同時,對低質量響應的過濾方法,如基于困惑度、N-gram 和結構的篩選,進一步確保了訓練數據的質量,提高了模型學習效率和推理能力的提升效果。

模型可部署性優勢

AM-Thinking-v1 作為 32B 規模的模型,在保持強大推理能力的同時,具有顯著的可部署性優勢。與大型 MoE 架構模型相比,其在服務器成本方面更具競爭力。32B 模型對硬件資源的需求相對較低,普通的服務器配置即可滿足其運行需求,無需配備專門的高性能計算集群,降低了部署成本。在推理延遲方面,32B 模型能夠在相對較短的時間內給出響應,滿足實時性要求較高的應用場景。例如,在處理用戶請求時,32B 模型的平均推理延遲可能在幾百毫秒到幾秒之間,而大型 MoE 模型由于其復雜的架構和龐大的參數量,推理延遲可能達到數十秒甚至更長,這大大影響了用戶體驗。在能源消耗方面,32B 模型的能耗相對較低,在長期運行過程中,能夠節省大量的能源成本。此外,通過模型優化技術,如量化、剪枝等,還可以進一步提高其可部署性。例如,對模型進行量化處理,將模型參數從 32 位浮點數降至 16 位或 8 位,能夠減少模型的存儲空間和計算量,提高模型的運行效率。同時,也可以采用知識蒸餾技術,將 32B 模型的知識蒸餾到更小規模的模型中,進一步降低部署門檻,使其能夠在資源受限的設備上運行,如移動設備、嵌入式設備等,從而將高性能的推理模型更廣泛地應用于各個領域和場景。

總結

通過對AM-Thinking-v1 的 Post train 過程的了解,我們可以對中等規模模型在推理領域的發展有一個全新的認識。它以 32B 的規模,在數學推理和代碼生成等任務上展現出媲美甚至超越部分大型 MoE 模型的能力,這可以認識到模型規模并非決定推理性能的唯一關鍵因素。合理的訓練方法、精細的數據處理流程以及創新的后訓練框架設計,同樣能夠極大地挖掘模型的推理潛力,使中等規模模型在實際應用中取得良好的收益比。對這一點,對標我去年 32B 模型項目的實戰,這是有共鳴的。

論文中數據處理方法的詳盡闡述給我留下了深刻印象。從數據收集的廣泛性與多樣性,涵蓋數學、代碼、科學等多個領域的數據集,到查詢過濾的嚴謹性,如去除低質量查詢、驗證數學問題答案正確性等操作,再到合成響應過濾的科學性,基于困惑度、N-gram 和結構的篩選方法,處處體現出研究者們對數據質量的高度重視。這讓我明白,高質量的數據是模型推理能力提升的基石,只有在純凈、準確、相關性強的數據基礎上,模型才能更好地學習知識、掌握推理技巧,進而生成高質量的推理結果。

同時,后訓練框架的詳細介紹也讓我受益匪淺。監督微調階段的采樣策略、訓練配置參數的選擇依據,以及強化學習階段的難度適中查詢篩選、分階段訓練策略等,環環相扣。研究者們通過精心設計的后訓練流程,將監督微調和強化學習的優勢充分發揮并有機結合,使模型在推理能力上實現了質的飛躍。這種創新的后訓練框架不僅為 AM-Thinking-v1 的成功奠定了基礎,也為其他中等規模模型的開發,提供了極具價值的范例,這非常具有中等參數量模型在實際私有化落地的參考意義。要感謝這個團隊的分享。

在實驗與評估部分,研究團隊通過詳細的性能數據對比和深入的結果分析,直觀地展示了 AM-Thinking-v1 的優勢與不足。看到 AM-Thinking-v1 在 AIME2024、AIME2025 和 LiveCodeBench 等基準測試中的出色表現,我不禁為其在數學推理和代碼生成任務上的強大能力感到欣喜。而它在 Arena-Hard 通用聊天任務中與頂級模型的差距,又讓我對模型的局限性有了清晰的認識。這啟發我在今后的項目中,既要關注模型的優勢發揮,還要深入分析其不足之處,從多個角度去優化模型性能,使其在各類任務中都能有更均衡、更出色的表現。

盡管 AM-Thinking-v1 在 benchmark 中取得了顯著的成果,但它仍存在一些局限性。首先,模型對結構化函數調用、工具使用等支持不足。其次,安全對齊工作尚處于初步階段,需要進一步的紅隊測試和改進。模型可能會產生一些不符合倫理道德或存在安全隱患的回答,如在回答涉及隱私、暴力等問題時,可能給出不當的建議。最后,在低資源語言和特定領域任務中的性能可能有所變化。對于一些數據稀缺的語言或領域,模型的推理能力可能不如在高資源語言和通用領域中表現得那么出色。例如,在處理一些少數民族語言的文本推理任務時,由于訓練數據中缺乏足夠的該語言樣本,模型可能無法準確理解和生成相應的文本。

總之,這個關于 AM-Thinking-v1 的研究讓我對中等規模模型在推理領域的發展有了全面、深入且清晰的認識與共鳴。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2024-04-10 08:15:17

模型語言模型GPT

2025-03-07 08:50:03

2025-06-12 09:48:27

2025-03-25 09:24:05

2025-04-11 12:04:58

2025-02-12 12:04:54

2025-03-06 08:11:25

2025-09-19 11:09:40

2025-04-14 09:27:00

2024-04-08 08:05:00

大模型人工智能開源

2025-04-27 09:19:00

強化學習模型AI

2025-01-13 00:00:00

訓練數據模型

2025-07-14 08:30:00

2025-02-25 14:50:16

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-06-12 08:46:00

2025-03-25 12:11:08

2025-03-07 08:30:00

2025-02-13 08:30:00

點贊
收藏

51CTO技術棧公眾號

国产精品成人一区二区三区| 亚洲国产古装精品网站| 亚洲成人av动漫| 日韩 国产 在线| 欧美日韩精品一区二区三区在线观看| 亚洲自拍与偷拍| 久草精品电影| 在线播放一级片| 欧美88av| 日韩精品欧美国产精品忘忧草 | 日本三级免费观看| jizz亚洲| 国产不卡视频在线播放| 68精品国产免费久久久久久婷婷| 亚洲精品午夜视频| 电影91久久久| 色综合天天综合狠狠| 亚洲精品在线观看免费| 国内精品国产成人国产三级| 亚洲在线日韩| 久久精品99久久香蕉国产色戒| 成人区人妻精品一区二| 影视一区二区三区| 亚洲精品中文在线影院| 免费一区二区三区| 国产精品无码白浆高潮| 一本久道久久综合婷婷鲸鱼| 在线成人中文字幕| 私密视频在线观看| 欧美日韩免费电影| 精品久久久国产精品999| 亚洲免费精品视频| 天天舔天天干天天操| 美腿丝袜亚洲一区| 欧美一区第一页| 午夜爱爱毛片xxxx视频免费看| 亚洲综合福利| 欧美另类变人与禽xxxxx| 一区二区传媒有限公司| 超碰在线caoporn| 国产亚洲综合性久久久影院| 国产91精品入口17c| 一级特黄aaa大片| 99精品视频网| 久久夜色精品国产| 亚洲欧洲久久久| 女一区二区三区| 日韩视频永久免费| jizz欧美性11| 欧美aaa视频| 精品国产乱码久久久久久天美| 欧美aaa在线观看| 天天色综合久久| 大尺度一区二区| 亚洲一区二区三区四区视频| 国产精品sm调教免费专区| 99pao成人国产永久免费视频| 久久久999精品视频| 欧美一区二区三区粗大| 三级精品视频| 精品国产一区二区三区av性色 | 91视频青青草| 日韩欧美大片| 伊人亚洲福利一区二区三区| jizz日本免费| 香蕉视频一区| 亚洲人成人99网站| 爱爱免费小视频| 台湾色综合娱乐中文网| 日韩一区二区三区免费看| 一本色道久久亚洲综合精品蜜桃| 免费在线观看一区| 欧美亚洲一区二区三区四区| 成人亚洲视频在线观看| jizz久久久久久| 欧美色中文字幕| 午夜免费福利在线| 日本在线一区二区| 日韩一区二区三区四区五区六区 | 国产在线拍揄自揄拍视频| 亚洲欧美福利一区二区| 日韩亚洲欧美一区二区| 日韩欧美一起| 亚洲国产aⅴ天堂久久| 欧美日韩不卡在线视频| 在线黄色网页| 午夜电影久久久| 熟妇人妻无乱码中文字幕真矢织江| 成人性生交大片免费网站| 欧美性生活久久| 手机av在线免费| 久久久久九九精品影院| 精品国产免费人成在线观看| 亚洲国产精品自拍视频| 欧美禁忌电影| 中文字幕亚洲图片| 欧美成人精品一区二区免费看片| 亚洲精品影视| 国产精品7m视频| 91午夜交换视频| 国产91丝袜在线播放九色| 狠狠综合久久av| 成年人免费在线视频| 亚洲婷婷综合久久一本伊一区 | 在线播放一区| **欧美日韩vr在线| 中文字幕日韩第一页| 国产福利91精品一区二区三区| 国产精品.com| 国产在线91| 亚洲免费在线播放| 少妇高潮喷水久久久久久久久久| 一区二区视频免费完整版观看| 欧美日韩不卡一区二区| 精人妻一区二区三区| 国产伦乱精品| 永久免费看mv网站入口亚洲| 天天干中文字幕| 亚洲精选一区| 成人福利在线观看| 日本在线一二三| 亚洲欧美偷拍另类a∨色屁股| 久久久久久久中文| 国产精品成人3p一区二区三区| 亚洲国产小视频在线观看| 国产一区在线观看免费| 国产精品入口66mio| 成人在线国产精品| 国产福利在线视频| 午夜亚洲福利老司机| 免费在线观看污网站| 天海翼精品一区二区三区| 中文字幕日本精品| 五月婷婷中文字幕| 国产精品一区不卡| 一区二区三区四区| 欧美粗大gay| 亚洲第一精品电影| 中国女人特级毛片| 宅男噜噜噜66一区二区| 成人精品一二区| 日本在线免费| 欧洲精品在线观看| a视频免费观看| 精品1区2区3区4区| 91香蕉亚洲精品| 日本中文字幕在线2020| 在线国产电影不卡| 日韩网站在线播放| 亚洲精品美女| 国产精品伊人日日| 欧美三级电影一区二区三区| 色综合久久88色综合天天免费| 高清中文字幕mv的电影| 正在播放日韩欧美一页| 91丝袜美腿美女视频网站| a中文在线播放| 色999日韩国产欧美一区二区| 免费日本黄色网址| 亚洲看片免费| 久久久精品国产一区二区三区| 日本在线视频网址| 日韩欧美资源站| 九九热最新地址| 韩国一区二区三区| 欧美做受777cos| 4438全国亚洲精品观看视频| 66m—66摸成人免费视频| 国产在线小视频| 91精品国产综合久久香蕉麻豆| 劲爆欧美第一页| 久国产精品韩国三级视频| 神马影院一区二区三区| 日本国产欧美| 中文字幕一区二区精品| 亚洲一区在线观| 日韩美女久久久| 丰满人妻一区二区三区53视频| 亚洲精品极品少妇16p| 亚洲一区二区三区毛片| 欧美人与禽性xxxxx杂性| 999精品一区| 日韩欧美国产视频| 无码人妻丰满熟妇啪啪欧美| 三级欧美韩日大片在线看| 欧美日韩综合网| 成人免费一区| 中文国产成人精品| 在线免费av网| 一区二区三区欧美| 国产精品久久久久久亚洲色| 久久国产99| 在线观看亚洲视频啊啊啊啊| 性欧美hd调教| 久久精品视频网站| 俄罗斯嫩小性bbwbbw| 亚洲3atv精品一区二区三区| 亚洲一级中文字幕| 麻豆91在线播放免费| 一级黄色片播放| 2023国产精华国产精品| 欧洲美女7788成人免费视频| 欧美成人性生活视频| 日韩美一区二区三区| 男女视频免费看| 国产精品丝袜在线| 无码国产精品一区二区高潮| 中文字幕乱码人妻二区三区| 在线亚洲欧美| 日韩精品一区二区三区丰满| 国产电影一区| 欧美亚洲国产日本| 国产在线高清视频| 日韩不卡在线观看| 国产精品久久久久久久久久久久久久久久 | 亚洲天堂av高清| 国产精品羞羞答答在线| 婷婷亚洲久悠悠色悠在线播放| av在线播放中文字幕| 成人精品亚洲人成在线| 日韩av片网站| 亚洲三级电影在线观看| 日韩精彩视频| 欧美理伦片在线播放| 91精品国产综合久久男男 | 最新国产一区| 亚洲影视中文字幕| 中文字幕在线1| 欧美黄视频在线观看| 97在线视频一区| 国产精品剧情一区二区在线观看 | 亚洲一区二区在线视频观看| 伊人久久久大香线蕉综合直播 | 国产aaa一级片| 一区二区三区国产精华| 欧美日韩国产三区| 51社区在线成人免费视频| 国产精品久久久久免费a∨大胸 | 欧美系列电影免费观看| 国产乱码精品一区二区三区日韩精品| 福利一区二区三区视频在线观看 | 天天操天天摸天天舔| 99国产一区二区三精品乱码| 制服下的诱惑暮生| 久久国产婷婷国产香蕉| 精品视频无码一区二区三区| 99国产精品自拍| 欧美视频在线第一页| 99久久综合| 一区二区三区在线视频看| 亚洲黄色录像| 久久免费看av| 日韩三区视频| 精品一区二区三区国产| 久久夜色电影| 国产精品麻豆免费版| 免费看日产一区二区三区 | 国内精品国产三级国产a久久 | а√天堂资源官网在线资源| 美女av一区二区| 日本视频在线免费观看| 日韩午夜在线视频| 免费看a在线观看| 中文字幕亚洲一区二区三区五十路 | 欧美日韩色综合| 日韩国产成人在线| 91国产精品成人| 69av视频在线观看| 色噜噜狠狠色综合中国| 中文字幕在线观看视频免费| 在线观看视频91| 国产又粗又猛又黄又爽无遮挡 | 深夜福利视频在线观看| 亚洲三级免费看| 免费黄色在线观看| 久久久久久午夜| 亚洲欧洲美洲av| 国产精品中文字幕久久久| 精品国产一区二区三区性色av| 国产精品视频免费观看| 国产成人ay| 国产激情在线看| 久久精品午夜| 香蕉视频xxxx| 久久久久久久久久看片| 男人的午夜天堂| 黑丝美女久久久| 国产乱码精品一区二区| 亚洲精品美女久久 | 69av视频在线播放| 国产第一亚洲| 国产区欧美区日韩区| 成人无号精品一区二区三区| 黄色三级中文字幕| 免费成人av资源网| 在线视频 日韩| 亚洲视频一区二区在线观看| 日本韩国欧美中文字幕| 日韩一区二区三区四区| 北条麻妃在线| 午夜精品久久久久久99热软件| 精品裸体bbb| 精品乱色一区二区中文字幕| 在线成人激情| 日本久久久久久久久久久久| 成人丝袜高跟foot| 亚洲熟女少妇一区二区| 一本大道久久精品懂色aⅴ| 国产av一区二区三区| 国产一区二区三区在线看| 国产乱妇乱子在线播视频播放网站| 国产精品视频午夜| 亚洲国产精品嫩草影院久久av| 日韩久久久久久久久久久久| 久久国产精品一区二区| 中文字幕在线观看一区二区三区| av网站在线免费播放| 两个人的视频www国产精品| 日韩毛片免费观看| 国产在线观看一区| 一区二区在线| wwwwwxxxx日本| 久久久99精品久久| 国产成人在线免费视频| 亚洲第一精品电影| 欧美韩日亚洲| av一区观看| 午夜精品电影| 99日在线视频| 中文字幕一区日韩精品欧美| 中文字幕一区二区人妻视频| 亚洲嫩模很污视频| 天堂中文av在线资源库| 韩国精品一区二区三区六区色诱| 欧美淫片网站| 永久av免费在线观看| 成人免费一区二区三区视频| 91久久精品国产91性色69| 正在播放欧美视频| 69堂精品视频在线播放| 日韩妆和欧美的一区二区| 久久精品一区二区三区中文字幕| 黄色录像a级片| 五月天一区二区| 西西人体44www大胆无码| 91成人国产在线观看| 美女呻吟一区| 麻豆av免费在线| 国产日产欧产精品推荐色| 波多野结衣黄色| 中文国产亚洲喷潮| 日韩深夜福利网站| 蜜桃网站在线观看| 丰满少妇久久久久久久| 国产无遮挡又黄又爽又色| 亚洲国产精品成人av| 香蕉伊大人中文在线观看| 久久偷看各类wc女厕嘘嘘偷窃| 久久激情一区| 亚洲综合图片一区| 欧美一级爆毛片| gogo高清在线播放免费| 免费一区二区三区在在线视频| 日韩二区三区在线观看| 少妇视频一区二区| 日韩免费性生活视频播放| 国产精品论坛| 亚洲日本精品国产第一区| 精品午夜一区二区三区在线观看| 久久婷婷一区二区| 国产视频丨精品|在线观看| 日本美女久久| 小泽玛利亚av在线| 91视频精品在这里| 亚洲最大成人av| 久久久久久久久久久成人| 精品在线手机视频| www.com久久久| 五月婷婷久久丁香| 9色在线观看| 国产精品一区二区三区免费| 日韩激情中文字幕| 久久久久97国产| 亚洲欧洲在线观看| 国产一区二区久久久久| 日本网站免费在线观看| 国产精品久久久久一区二区三区 | 久久亚洲精品国产| 亚洲视频免费一区| 免费一区二区三区在线视频| 国产成人黄色片| 亚洲另类一区二区| 精品美女视频在线观看免费软件 | 精品国产av一区二区| 欧美在线一区二区视频| 91精品久久久久久久久久不卡| 成年人在线观看av| 日韩精品一区二区三区在线观看| 欧美xxx视频| 国产成人亚洲综合无码|