突破性進(jìn)展：NVIDIA推出Nemotron-Research-Tool-N1，強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o

發(fā)布于 2025-5-27 07:00

瀏覽

0收藏

引言：重新定義工具使用型語言模型的訓(xùn)練范式

大型語言模型(LLM)的工具使用能力已成為擴(kuò)展其功能邊界的關(guān)鍵戰(zhàn)略。傳統(tǒng)方法通常依賴監(jiān)督微調(diào)(SFT)來確保工具調(diào)用的正確性，或從更強(qiáng)大的模型中提煉推理軌跡。然而，這些方法各有局限：要么完全忽略推理過程，要么產(chǎn)生僅能模仿表面模式的偽推理，限制了模型的泛化能力。

近日，NVIDIA研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性成果——Nemotron-Research-Tool-N1（簡(jiǎn)稱Tool-N1），這是一系列基于強(qiáng)化學(xué)習(xí)訓(xùn)練的工具使用型語言模型。該研究受到DeepSeek-R1通過規(guī)則基礎(chǔ)的強(qiáng)化學(xué)習(xí)成功引出推理能力的啟發(fā)，采用類似的訓(xùn)練范式，通過二元獎(jiǎng)勵(lì)機(jī)制來評(píng)估工具調(diào)用的結(jié)構(gòu)有效性和功能正確性，而無需標(biāo)注的推理軌跡。

這種輕量級(jí)的監(jiān)督方式使模型能夠自主內(nèi)化推理策略，在BFCL和API-Bank基準(zhǔn)測(cè)試中，基于Qwen-2.5-7B/14B-Instruct構(gòu)建的Tool-N1-7B和Tool-N1-14B取得了令人矚目的成果，超越了包括GPT-4o在內(nèi)的多個(gè)強(qiáng)大基線模型。

突破性進(jìn)展：NVIDIA推出Nemotron-Research-Tool-N1，強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

工具學(xué)習(xí)的問題定義

在正式介紹Tool-N1之前，我們首先明確工具學(xué)習(xí)的問題定義。考慮一個(gè)大型語言模型(LLM)和一組外部工具集合??={zi}，模型可以訪問這些工具。每個(gè)工具zi可以表示為一個(gè)三元組(ni,di,ki)，包含工具使用的基本信息：ni表示工具的名稱，di提供工具的自然語言描述，ki指定工具的輸入?yún)?shù)說明。

模型的目標(biāo)是根據(jù)策略π響應(yīng)用戶查詢。為實(shí)現(xiàn)這一目標(biāo)，LLM可能在交互過程中發(fā)出多個(gè)帶有適當(dāng)參數(shù)的工具調(diào)用。在任何決策步驟t，LLM接收兩種類型的輸入：(1)歷史上下文ct，由所有前面的工具調(diào)用和觀察對(duì)組成；(2)當(dāng)前可用的工具集??。然后，LLM必須決定下一步行動(dòng)。

形式上，決策過程定義為：

π(ct,??~)→at, s.t. at???

其中at表示在步驟t選擇的操作，對(duì)應(yīng)從可訪問工具子集??~中抽取的一個(gè)或多個(gè)工具調(diào)用。ct表示歷史上下文。具體來說：

{ at={z0(p0),…,zm(pm)}, ct=(a0,o0,…,at,ot) }

其中每個(gè)zm表示調(diào)用的第m個(gè)工具，pm是其對(duì)應(yīng)的參數(shù)。m的值表示在時(shí)間t進(jìn)行的工具調(diào)用數(shù)量。ot表示采取操作at后的觀察結(jié)果。工具學(xué)習(xí)的最終目標(biāo)是使LLM具備一個(gè)泛化策略π，通過產(chǎn)生一系列連貫的操作-觀察對(duì)(at,ot)來有效解決用戶查詢。

Nemotron-Research-Tool-N1的創(chuàng)新方法

Nemotron-Research-Tool-N1是一個(gè)基于R1風(fēng)格強(qiáng)化學(xué)習(xí)框架設(shè)計(jì)的通用工具使用型語言模型。Tool-N1構(gòu)建于GRPO強(qiáng)化學(xué)習(xí)算法之上，旨在提高模型在復(fù)雜場(chǎng)景中的工具調(diào)用能力，特別是在LLM需要使用一組可訪問工具解決查詢的情況下。

形式上，給定歷史上下文ct和當(dāng)前可用工具集??，模型生成一組候選響應(yīng)[O1,O2,...,O?]。每個(gè)響應(yīng)包含(1)文本推理和(2)相關(guān)聯(lián)的操作an。這些響應(yīng)使用獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)估，產(chǎn)生一個(gè)獎(jiǎng)勵(lì)集{r?,r?,...,r?}。然后使用GRPO算法估計(jì)優(yōu)勢(shì)并更新策略模型，受KL散度約束。第i個(gè)響應(yīng)的相對(duì)優(yōu)勢(shì)Ai計(jì)算如下：

Ai = (ri - mean({r?,r?,...,r?})) / std({r?,r?,...,r?})

其中mean和std分別表示獎(jiǎng)勵(lì)的均值和標(biāo)準(zhǔn)差。

數(shù)據(jù)準(zhǔn)備

許多先前的工作集中于收集大規(guī)模工具調(diào)用軌跡，然后通過監(jiān)督微調(diào)(SFT)來提高LLM的工具使用能力。這些數(shù)據(jù)集通常由自然語言用戶查詢Q和一系列地面真實(shí)工具調(diào)用步驟(a?,o?,...,a?,o?)組成。然后訓(xùn)練模型根據(jù)觀察到的軌跡預(yù)測(cè)每個(gè)后續(xù)操作at。然而，SFT往往表現(xiàn)出有限的泛化能力，因?yàn)槟Ｐ蛢A向于記憶訓(xùn)練軌跡，而不是發(fā)展穩(wěn)健的內(nèi)在推理能力。

為充分利用社區(qū)中可用的SFT數(shù)據(jù)，研究團(tuán)隊(duì)統(tǒng)一并預(yù)處理了來自xLAM和ToolACE子集的數(shù)據(jù)，這些數(shù)據(jù)提供了單輪和多輪合成工具調(diào)用軌跡。由于這些數(shù)據(jù)集是由潛在不穩(wěn)定的LLM生成的，它們通常包含不一致性和不適合GRPO訓(xùn)練的非結(jié)構(gòu)化格式。研究團(tuán)隊(duì)通過過濾掉包含無效工具調(diào)用的樣本來標(biāo)準(zhǔn)化數(shù)據(jù)集，特別是那些涉及候選工具列表中不存在的工具的樣本。

可用工具從系統(tǒng)提示中提取，候選工具和地面真實(shí)工具調(diào)用都解析為結(jié)構(gòu)化字典格式。丟棄了JSON解析失敗或包含格式不一致的實(shí)例。這種預(yù)處理產(chǎn)生了適合強(qiáng)化學(xué)習(xí)的干凈一致的數(shù)據(jù)集。對(duì)于來自ToolACE子集的多輪數(shù)據(jù)，研究團(tuán)隊(duì)進(jìn)一步將每個(gè)軌跡分割成多個(gè)單步預(yù)測(cè)實(shí)例，其中每個(gè)實(shí)例包含一個(gè)目標(biāo)工具調(diào)用，前面的步驟被視為上下文。使用R1風(fēng)格的GRPO訓(xùn)練LLM，根據(jù)這些上下文信息和提供的工具預(yù)測(cè)每個(gè)工具調(diào)用步驟。

思考模板

遵循Guo等人(2025)的方法，研究團(tuán)隊(duì)采用了一個(gè)輕量級(jí)提示模板來引出LLM的工具調(diào)用。該提示明確指示模型在<think>...</think>標(biāo)簽內(nèi)生成中間推理，然后在<tool_call>...</tool_call>標(biāo)簽內(nèi)封裝工具調(diào)用。

突破性進(jìn)展：NVIDIA推出Nemotron-Research-Tool-N1，強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

這個(gè)模板背后的設(shè)計(jì)理念是最小化對(duì)過于僵化格式規(guī)則的依賴，這可以降低過擬合特定提示模式的風(fēng)險(xiǎn)。通過允許模型在表達(dá)其推理方面有更大的靈活性，目標(biāo)是促進(jìn)跨多樣化工具使用場(chǎng)景的更強(qiáng)泛化能力。此外，在訓(xùn)練期間使用這種輕量級(jí)提示設(shè)計(jì)使得生成的模型能夠更容易與更復(fù)雜的提示策略集成。

獎(jiǎng)勵(lì)建模

按照數(shù)據(jù)準(zhǔn)備中描述的方法，研究團(tuán)隊(duì)構(gòu)建了一個(gè)訓(xùn)練數(shù)據(jù)集，其中每個(gè)地面真實(shí)工具調(diào)用表示為結(jié)構(gòu)化字典。這種格式使得在強(qiáng)化學(xué)習(xí)過程中能夠可靠地驗(yàn)證工具名稱和參數(shù)-值對(duì)，而不僅僅是簡(jiǎn)單的字符串匹配。利用這種結(jié)構(gòu)，研究團(tuán)隊(duì)定義了一個(gè)R1風(fēng)格的二元獎(jiǎng)勵(lì)函數(shù)，共同評(píng)估推理格式的正確性和工具調(diào)用的準(zhǔn)確性，包括其名稱和參數(shù)。

格式檢查：遵循先前的工作，研究團(tuán)隊(duì)在訓(xùn)練期間納入格式檢查，以驗(yàn)證模型的輸出是否符合預(yù)期的結(jié)構(gòu)約定——具體來說，推理是否封裝在<think>...</think>標(biāo)簽內(nèi)，工具調(diào)用是否正確放置在<tool_call>...</tool_call>標(biāo)簽內(nèi)。這種結(jié)構(gòu)約束鼓勵(lì)模型在工具調(diào)用之前進(jìn)行明確的推理，而不是直接跳到最終答案。通過強(qiáng)制格式遵守，目標(biāo)是培養(yǎng)模型的內(nèi)在推理能力，這可能潛在地有助于改善泛化——特別是對(duì)于分布外輸入。

工具調(diào)用檢查：研究團(tuán)隊(duì)還檢查工具調(diào)用本身的正確性。工具調(diào)用輸出被解析為字典，使得能夠與地面真實(shí)調(diào)用進(jìn)行精確匹配。這涉及檢查預(yù)測(cè)的工具名稱是否與地面真實(shí)相匹配，以及所有必需的參數(shù)是否存在且值正確。這種嚴(yán)格的匹配標(biāo)準(zhǔn)確保模型學(xué)習(xí)生成功能精確且可執(zhí)行的工具調(diào)用。與SFT中的下一個(gè)標(biāo)記預(yù)測(cè)邏輯相比，這種基于字典的匹配引入了更大的靈活性。它允許參數(shù)順序變化而不受懲罰，鼓勵(lì)模型關(guān)注工具調(diào)用的底層語義，而不是表面級(jí)記憶。這種設(shè)計(jì)促進(jìn)了對(duì)工具使用的更深入理解，并支持更好的泛化。

二元獎(jiǎng)勵(lì)定義：給定上下文ct和預(yù)測(cè)操作at，研究團(tuán)隊(duì)定義了一個(gè)二元獎(jiǎng)勵(lì)函數(shù)r(ct,at)∈{0,1}，當(dāng)滿足以下兩個(gè)條件時(shí)，分配獎(jiǎng)勵(lì)1：(1)格式正確性：模型輸出符合結(jié)構(gòu)格式，即包含<think>...</think>和<tool_call>...</tool_call>標(biāo)簽；(2)工具調(diào)用正確性：預(yù)測(cè)的工具調(diào)用at在工具名稱和所有參數(shù)鍵值對(duì)方面與地面真實(shí)調(diào)用at*完全匹配。

r(ct,at) = { 1, 如果 FormatCorrect(at) ∧ ToolCallMatch(at,at*) 0, 否則 }

其中FormatCorrect(at)在輸出正確包裝在兩個(gè)所需標(biāo)簽中時(shí)返回true，ToolCallMatch(at,at*)在at在結(jié)構(gòu)和內(nèi)容上與地面真實(shí)工具調(diào)用at*完全匹配時(shí)返回true。

實(shí)驗(yàn)結(jié)果與分析

研究團(tuán)隊(duì)進(jìn)行了廣泛實(shí)驗(yàn)，證明了所提方法的優(yōu)越性。實(shí)驗(yàn)主要在BFCL和API-Bank兩個(gè)典型基準(zhǔn)測(cè)試上進(jìn)行評(píng)估。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集：主要使用ToolACE和xLAM的子集作為訓(xùn)練數(shù)據(jù)集。ToolACE涵蓋了廣泛的工具調(diào)用場(chǎng)景，包括具有多個(gè)候選工具和并行函數(shù)調(diào)用的示例，覆蓋了26,507個(gè)多樣化工具的池。相比之下，xLAM專注于單輪函數(shù)調(diào)用，包含通過APIGen收集的60,000個(gè)實(shí)例。

模型：除非另有說明，研究團(tuán)隊(duì)使用Qwen2.5-7B/14B-Instruct作為主要骨干模型。為評(píng)估方法的泛化能力，還對(duì)替代骨干模型進(jìn)行了評(píng)估，包括來自LLaMA家族的多個(gè)變體。實(shí)驗(yàn)中，研究團(tuán)隊(duì)與通用開源模型（如GPT系列和Gemini-2.0）以及專門的工具調(diào)用模型（包括ToolACE-8B、xLAM-2和Hammer2.1）進(jìn)行了比較。

基準(zhǔn)測(cè)試：主要評(píng)估單輪工具調(diào)用查詢的性能。在幾個(gè)代表性基準(zhǔn)測(cè)試上評(píng)估了方法，包括Berkeley Function Call Leaderboard (BFCL)和API-Bank。對(duì)于BFCL，在Non-live和Live子集上進(jìn)行了評(píng)估，分別對(duì)應(yīng)合成和真實(shí)世界數(shù)據(jù)。每個(gè)子集包括四個(gè)類別：Simple、Multiple、Parallel和Parallel Multiple。Simple和Multiple場(chǎng)景都涉及單個(gè)工具的調(diào)用，Multiple類別具有多個(gè)候選工具。相比之下，Parallel和Parallel Multiple場(chǎng)景需要同時(shí)調(diào)用多個(gè)工具。對(duì)于API-Bank，排除了多輪案例。所有基準(zhǔn)測(cè)試的性能都以準(zhǔn)確率報(bào)告。

其他實(shí)現(xiàn)細(xì)節(jié)：所有實(shí)驗(yàn)使用開源強(qiáng)化學(xué)習(xí)庫Verl進(jìn)行。訓(xùn)練使用1024的批量大小和1×10??的學(xué)習(xí)率。溫度固定在0.7。熵系數(shù)設(shè)置為0，因?yàn)橛^察到引入熵對(duì)訓(xùn)練期間的探索產(chǎn)生負(fù)面影響。KL散度損失系數(shù)在所有實(shí)驗(yàn)中設(shè)置為1×10?3。所有訓(xùn)練運(yùn)行在由4個(gè)節(jié)點(diǎn)組成的集群上執(zhí)行，每個(gè)節(jié)點(diǎn)配備8個(gè)NVIDIA H100 80GB GPU。

主要結(jié)果

BFCL基準(zhǔn)測(cè)試結(jié)果：實(shí)驗(yàn)結(jié)果清楚地表明，所有Tool-N1-7B/14B模型都取得了最佳的總體性能，超過了最先進(jìn)的閉源模型（如GPT-4o）和專門的微調(diào)模型（包括xLAM-2-70B和ToolACE-8B）。值得注意的是，訓(xùn)練的工具調(diào)用推理模型顯著優(yōu)于在相同數(shù)據(jù)源上訓(xùn)練的監(jiān)督微調(diào)基線（即ToolACE和xLAM系列）。結(jié)果證明，與標(biāo)準(zhǔn)監(jiān)督微調(diào)相比，R1風(fēng)格的強(qiáng)化學(xué)習(xí)為增強(qiáng)LLM的工具調(diào)用能力提供了更有效的范式。

突破性進(jìn)展：NVIDIA推出Nemotron-Research-Tool-N1，強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

API-Bank基準(zhǔn)測(cè)試結(jié)果：為提供更全面的評(píng)估，研究團(tuán)隊(duì)還在API-Bank基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn)。Tool-N1-7B和Tool-N1-14B模型在大多數(shù)情況下都始終優(yōu)于基線。值得注意的是，Tool-N1-7B/14B的準(zhǔn)確率分別比GPT-4o高4.12%和5.03%，清楚地證明了該方法的有效性。

深入分析

可擴(kuò)展性和泛化能力

可擴(kuò)展性：擴(kuò)展定律，它描述了模型大小和性能之間的關(guān)系，在理解訓(xùn)練方法的有效性方面起著關(guān)鍵作用。研究團(tuán)隊(duì)通過評(píng)估一系列模型大小來評(píng)估所提訓(xùn)練方法的擴(kuò)展行為，包括來自Qwen2.5-Instruct系列的0.5B、1.5B、3B、7B和14B。為進(jìn)行比較，還報(bào)告了沒有任何額外訓(xùn)練的原始指令調(diào)整模型的性能。

研究團(tuán)隊(duì)報(bào)告了BFCL基準(zhǔn)測(cè)試的Live和Non-Live類別的平均性能。如預(yù)期的那樣，較大的模型在兩種評(píng)估設(shè)置中始終優(yōu)于較小的模型。值得注意的是，對(duì)于較小的模型（0.5B和1.5B），后訓(xùn)練的性能改進(jìn)有限，而較大的模型表現(xiàn)出顯著的增益。這些發(fā)現(xiàn)表明，R1風(fēng)格的訓(xùn)練方法隨著模型大小的增加而更有效地?cái)U(kuò)展。

泛化能力：研究團(tuán)隊(duì)進(jìn)一步評(píng)估了不同骨干LLM的影響，以研究所提訓(xùn)練方法的泛化能力。除了Qwen系列，還包括使用基于LLaMA的模型的實(shí)驗(yàn)：LLaMA3-8B-Instruct和LLaMA3.1-8B-Instruct。這些評(píng)估在BFCL基準(zhǔn)測(cè)試上進(jìn)行。研究發(fā)現(xiàn)，在相同的模型規(guī)模下，Qwen2.5-Instruct顯著優(yōu)于兩種LLaMA變體。這種優(yōu)勢(shì)可能是由于Qwen固有的更強(qiáng)推理能力，正如Gandhi等人（2025）先前觀察到的那樣。因此，R1風(fēng)格的訓(xùn)練范式能夠在應(yīng)用于Qwen時(shí)引出更好的性能。

消融研究

獎(jiǎng)勵(lì)設(shè)計(jì)的消融：為評(píng)估獎(jiǎng)勵(lì)粒度如何影響模型行為，研究團(tuán)隊(duì)在兩種獎(jiǎng)勵(lì)方案下評(píng)估了Tool-N1-7B：細(xì)粒度和二元。細(xì)粒度設(shè)置提供部分獎(jiǎng)勵(lì)，即使最終函數(shù)調(diào)用不正確，正確的推理格式也提供0.2的獎(jiǎng)勵(lì)，匹配函數(shù)名稱再提供0.2的額外獎(jiǎng)勵(lì)。相比之下，二元設(shè)置僅在所有組件都正確時(shí)給予1.0的獎(jiǎng)勵(lì)，包括推理、函數(shù)名稱和參數(shù)。Tool-N1在二元獎(jiǎng)勵(lì)下始終取得更好的性能，特別是在Live子集上（80.38%對(duì)76.61%），這涉及更現(xiàn)實(shí)的輸入。

突破性進(jìn)展：NVIDIA推出Nemotron-Research-Tool-N1，強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

研究團(tuán)隊(duì)將這歸因于減少了獎(jiǎng)勵(lì)黑客行為：在細(xì)粒度方案下，模型可能過度擬合表面線索，如格式化或部分匹配，而不確保完全執(zhí)行正確性。此外，在二元設(shè)置中，觀察到移除推理格式約束顯著損害了性能（從80.38%下降到76.24%）。這突顯了結(jié)構(gòu)化推理在引導(dǎo)Tool-N1-7B實(shí)現(xiàn)可靠和可泛化工具使用方面的關(guān)鍵作用，特別是在復(fù)雜的真實(shí)世界場(chǎng)景中。

訓(xùn)練數(shù)據(jù)組成的消融：研究團(tuán)隊(duì)還調(diào)查了不同數(shù)據(jù)組成策略如何影響B(tài)FCL基準(zhǔn)測(cè)試的性能。實(shí)驗(yàn)使用Tool-N1-7B模型進(jìn)行。主要發(fā)現(xiàn)如下：(1)與原始模型（Qwen2.5-7B-Instruct）相比，R1風(fēng)格的訓(xùn)練顯著增強(qiáng)了工具調(diào)用能力；(2)ToolACE數(shù)據(jù)在實(shí)時(shí)設(shè)置中產(chǎn)生了特別強(qiáng)的改進(jìn)；(3)與使用相同數(shù)據(jù)進(jìn)行SFT訓(xùn)練的模型相比，R1風(fēng)格的訓(xùn)練始終產(chǎn)生更好的性能。具體來說，僅在xLAM數(shù)據(jù)上訓(xùn)練的Tool-N1-7B模型比xLAM-8B SFT模型表現(xiàn)好6.36%，僅在ToolACE子集上訓(xùn)練的Tool-N1-7B模型比ToolACE-8B SFT模型表現(xiàn)好1.62%，盡管只使用了數(shù)據(jù)的一個(gè)子集。

突破性進(jìn)展：NVIDIA推出Nemotron-Research-Tool-N1，強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

SFT還是RL？：研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)系統(tǒng)研究，比較了純RL、監(jiān)督微調(diào)(SFT)和常用的SFT-then-RL流程。使用5,518個(gè)提煉的推理軌跡進(jìn)行分析，發(fā)現(xiàn)：(1)盡管在許多領(lǐng)域，對(duì)推理軌跡進(jìn)行SFT然后進(jìn)行RL的組合通常被認(rèn)為是最佳實(shí)踐，但在相等的數(shù)據(jù)預(yù)算下，在工具調(diào)用設(shè)置中沒有觀察到性能改進(jìn)；(2)在相等的數(shù)據(jù)預(yù)算下，純RL優(yōu)于Reason-SFT和No-Reason SFT；(3)有趣的是，No-Reason SFT的表現(xiàn)僅比Reason-SFT略差，表明在SFT期間提供推理軌跡提供的額外好處有限。

突破性進(jìn)展：NVIDIA推出Nemotron-Research-Tool-N1，強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

結(jié)論與未來展望

Nemotron-Research-Tool-N1引入了一系列使用基于規(guī)則的強(qiáng)化學(xué)習(xí)訓(xùn)練的工具使用型語言模型。與依賴監(jiān)督微調(diào)的先前方法不同，Nemotron-Research-Tool-N1利用僅監(jiān)督最終答案和推理結(jié)構(gòu)格式的獎(jiǎng)勵(lì)函數(shù)。這使模型能夠在不需要注釋推理軌跡的情況下學(xué)習(xí)有效的推理策略。

實(shí)驗(yàn)結(jié)果表明，Nemotron-Research-Tool-N1在多個(gè)基準(zhǔn)測(cè)試中始終優(yōu)于現(xiàn)有基線，包括BFCL和API-Bank。此外，當(dāng)在相同數(shù)據(jù)上訓(xùn)練時(shí)，使用R1風(fēng)格強(qiáng)化學(xué)習(xí)的模型比其SFT訓(xùn)練的對(duì)應(yīng)物實(shí)現(xiàn)了更優(yōu)越的性能，肯定了基于強(qiáng)化的訓(xùn)練相對(duì)于SFT的好處。

這項(xiàng)研究為工具使用型語言模型的訓(xùn)練提供了一個(gè)新的范式，強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)在培養(yǎng)模型推理能力方面的潛力。未來的研究方向可能包括探索更復(fù)雜的獎(jiǎng)勵(lì)函數(shù)、集成多模態(tài)工具和擴(kuò)展到更廣泛的應(yīng)用領(lǐng)域。

論文：???https://arxiv.org/abs/2505.00024v1???

GitHub：???https://github.com/NVlabs/Tool-N1??

本文轉(zhuǎn)載自???頓數(shù)AI???，作者：蔥蔥

標(biāo)簽

NVIDIA

GPT-4o

語言模型

贊

回復(fù)