精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o

發(fā)布于 2025-5-27 07:00
瀏覽
0收藏

引言:重新定義工具使用型語言模型的訓(xùn)練范式

大型語言模型(LLM)的工具使用能力已成為擴(kuò)展其功能邊界的關(guān)鍵戰(zhàn)略。傳統(tǒng)方法通常依賴監(jiān)督微調(diào)(SFT)來確保工具調(diào)用的正確性,或從更強(qiáng)大的模型中提煉推理軌跡。然而,這些方法各有局限:要么完全忽略推理過程,要么產(chǎn)生僅能模仿表面模式的偽推理,限制了模型的泛化能力。

近日,NVIDIA研究團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性成果——Nemotron-Research-Tool-N1(簡(jiǎn)稱Tool-N1),這是一系列基于強(qiáng)化學(xué)習(xí)訓(xùn)練的工具使用型語言模型。該研究受到DeepSeek-R1通過規(guī)則基礎(chǔ)的強(qiáng)化學(xué)習(xí)成功引出推理能力的啟發(fā),采用類似的訓(xùn)練范式,通過二元獎(jiǎng)勵(lì)機(jī)制來評(píng)估工具調(diào)用的結(jié)構(gòu)有效性和功能正確性,而無需標(biāo)注的推理軌跡。

這種輕量級(jí)的監(jiān)督方式使模型能夠自主內(nèi)化推理策略,在BFCL和API-Bank基準(zhǔn)測(cè)試中,基于Qwen-2.5-7B/14B-Instruct構(gòu)建的Tool-N1-7B和Tool-N1-14B取得了令人矚目的成果,超越了包括GPT-4o在內(nèi)的多個(gè)強(qiáng)大基線模型。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

工具學(xué)習(xí)的問題定義

在正式介紹Tool-N1之前,我們首先明確工具學(xué)習(xí)的問題定義。考慮一個(gè)大型語言模型(LLM)和一組外部工具集合??={zi},模型可以訪問這些工具。每個(gè)工具zi可以表示為一個(gè)三元組(ni,di,ki),包含工具使用的基本信息:ni表示工具的名稱,di提供工具的自然語言描述,ki指定工具的輸入?yún)?shù)說明。

模型的目標(biāo)是根據(jù)策略π響應(yīng)用戶查詢。為實(shí)現(xiàn)這一目標(biāo),LLM可能在交互過程中發(fā)出多個(gè)帶有適當(dāng)參數(shù)的工具調(diào)用。在任何決策步驟t,LLM接收兩種類型的輸入:(1)歷史上下文ct,由所有前面的工具調(diào)用和觀察對(duì)組成;(2)當(dāng)前可用的工具集??。然后,LLM必須決定下一步行動(dòng)。

形式上,決策過程定義為:

π(ct,??~)→at, s.t. at???

其中at表示在步驟t選擇的操作,對(duì)應(yīng)從可訪問工具子集??~中抽取的一個(gè)或多個(gè)工具調(diào)用。ct表示歷史上下文。具體來說:

{ at={z0(p0),…,zm(pm)}, ct=(a0,o0,…,at,ot) }

其中每個(gè)zm表示調(diào)用的第m個(gè)工具,pm是其對(duì)應(yīng)的參數(shù)。m的值表示在時(shí)間t進(jìn)行的工具調(diào)用數(shù)量。ot表示采取操作at后的觀察結(jié)果。工具學(xué)習(xí)的最終目標(biāo)是使LLM具備一個(gè)泛化策略π,通過產(chǎn)生一系列連貫的操作-觀察對(duì)(at,ot)來有效解決用戶查詢。

Nemotron-Research-Tool-N1的創(chuàng)新方法

Nemotron-Research-Tool-N1是一個(gè)基于R1風(fēng)格強(qiáng)化學(xué)習(xí)框架設(shè)計(jì)的通用工具使用型語言模型。Tool-N1構(gòu)建于GRPO強(qiáng)化學(xué)習(xí)算法之上,旨在提高模型在復(fù)雜場(chǎng)景中的工具調(diào)用能力,特別是在LLM需要使用一組可訪問工具解決查詢的情況下。

形式上,給定歷史上下文ct和當(dāng)前可用工具集??,模型生成一組候選響應(yīng)[O1,O2,...,O?]。每個(gè)響應(yīng)包含(1)文本推理和(2)相關(guān)聯(lián)的操作an。這些響應(yīng)使用獎(jiǎng)勵(lì)函數(shù)進(jìn)行評(píng)估,產(chǎn)生一個(gè)獎(jiǎng)勵(lì)集{r?,r?,...,r?}。然后使用GRPO算法估計(jì)優(yōu)勢(shì)并更新策略模型,受KL散度約束。第i個(gè)響應(yīng)的相對(duì)優(yōu)勢(shì)Ai計(jì)算如下:

Ai = (ri - mean({r?,r?,...,r?})) / std({r?,r?,...,r?})

其中mean和std分別表示獎(jiǎng)勵(lì)的均值和標(biāo)準(zhǔn)差。

數(shù)據(jù)準(zhǔn)備

許多先前的工作集中于收集大規(guī)模工具調(diào)用軌跡,然后通過監(jiān)督微調(diào)(SFT)來提高LLM的工具使用能力。這些數(shù)據(jù)集通常由自然語言用戶查詢Q和一系列地面真實(shí)工具調(diào)用步驟(a?,o?,...,a?,o?)組成。然后訓(xùn)練模型根據(jù)觀察到的軌跡預(yù)測(cè)每個(gè)后續(xù)操作at。然而,SFT往往表現(xiàn)出有限的泛化能力,因?yàn)槟P蛢A向于記憶訓(xùn)練軌跡,而不是發(fā)展穩(wěn)健的內(nèi)在推理能力。

為充分利用社區(qū)中可用的SFT數(shù)據(jù),研究團(tuán)隊(duì)統(tǒng)一并預(yù)處理了來自xLAM和ToolACE子集的數(shù)據(jù),這些數(shù)據(jù)提供了單輪和多輪合成工具調(diào)用軌跡。由于這些數(shù)據(jù)集是由潛在不穩(wěn)定的LLM生成的,它們通常包含不一致性和不適合GRPO訓(xùn)練的非結(jié)構(gòu)化格式。研究團(tuán)隊(duì)通過過濾掉包含無效工具調(diào)用的樣本來標(biāo)準(zhǔn)化數(shù)據(jù)集,特別是那些涉及候選工具列表中不存在的工具的樣本。

可用工具從系統(tǒng)提示中提取,候選工具和地面真實(shí)工具調(diào)用都解析為結(jié)構(gòu)化字典格式。丟棄了JSON解析失敗或包含格式不一致的實(shí)例。這種預(yù)處理產(chǎn)生了適合強(qiáng)化學(xué)習(xí)的干凈一致的數(shù)據(jù)集。對(duì)于來自ToolACE子集的多輪數(shù)據(jù),研究團(tuán)隊(duì)進(jìn)一步將每個(gè)軌跡分割成多個(gè)單步預(yù)測(cè)實(shí)例,其中每個(gè)實(shí)例包含一個(gè)目標(biāo)工具調(diào)用,前面的步驟被視為上下文。使用R1風(fēng)格的GRPO訓(xùn)練LLM,根據(jù)這些上下文信息和提供的工具預(yù)測(cè)每個(gè)工具調(diào)用步驟。

思考模板

遵循Guo等人(2025)的方法,研究團(tuán)隊(duì)采用了一個(gè)輕量級(jí)提示模板來引出LLM的工具調(diào)用。該提示明確指示模型在<think>...</think>標(biāo)簽內(nèi)生成中間推理,然后在<tool_call>...</tool_call>標(biāo)簽內(nèi)封裝工具調(diào)用。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

這個(gè)模板背后的設(shè)計(jì)理念是最小化對(duì)過于僵化格式規(guī)則的依賴,這可以降低過擬合特定提示模式的風(fēng)險(xiǎn)。通過允許模型在表達(dá)其推理方面有更大的靈活性,目標(biāo)是促進(jìn)跨多樣化工具使用場(chǎng)景的更強(qiáng)泛化能力。此外,在訓(xùn)練期間使用這種輕量級(jí)提示設(shè)計(jì)使得生成的模型能夠更容易與更復(fù)雜的提示策略集成。

獎(jiǎng)勵(lì)建模

按照數(shù)據(jù)準(zhǔn)備中描述的方法,研究團(tuán)隊(duì)構(gòu)建了一個(gè)訓(xùn)練數(shù)據(jù)集,其中每個(gè)地面真實(shí)工具調(diào)用表示為結(jié)構(gòu)化字典。這種格式使得在強(qiáng)化學(xué)習(xí)過程中能夠可靠地驗(yàn)證工具名稱和參數(shù)-值對(duì),而不僅僅是簡(jiǎn)單的字符串匹配。利用這種結(jié)構(gòu),研究團(tuán)隊(duì)定義了一個(gè)R1風(fēng)格的二元獎(jiǎng)勵(lì)函數(shù),共同評(píng)估推理格式的正確性和工具調(diào)用的準(zhǔn)確性,包括其名稱和參數(shù)。

格式檢查:遵循先前的工作,研究團(tuán)隊(duì)在訓(xùn)練期間納入格式檢查,以驗(yàn)證模型的輸出是否符合預(yù)期的結(jié)構(gòu)約定——具體來說,推理是否封裝在<think>...</think>標(biāo)簽內(nèi),工具調(diào)用是否正確放置在<tool_call>...</tool_call>標(biāo)簽內(nèi)。這種結(jié)構(gòu)約束鼓勵(lì)模型在工具調(diào)用之前進(jìn)行明確的推理,而不是直接跳到最終答案。通過強(qiáng)制格式遵守,目標(biāo)是培養(yǎng)模型的內(nèi)在推理能力,這可能潛在地有助于改善泛化——特別是對(duì)于分布外輸入。

工具調(diào)用檢查:研究團(tuán)隊(duì)還檢查工具調(diào)用本身的正確性。工具調(diào)用輸出被解析為字典,使得能夠與地面真實(shí)調(diào)用進(jìn)行精確匹配。這涉及檢查預(yù)測(cè)的工具名稱是否與地面真實(shí)相匹配,以及所有必需的參數(shù)是否存在且值正確。這種嚴(yán)格的匹配標(biāo)準(zhǔn)確保模型學(xué)習(xí)生成功能精確且可執(zhí)行的工具調(diào)用。與SFT中的下一個(gè)標(biāo)記預(yù)測(cè)邏輯相比,這種基于字典的匹配引入了更大的靈活性。它允許參數(shù)順序變化而不受懲罰,鼓勵(lì)模型關(guān)注工具調(diào)用的底層語義,而不是表面級(jí)記憶。這種設(shè)計(jì)促進(jìn)了對(duì)工具使用的更深入理解,并支持更好的泛化。

二元獎(jiǎng)勵(lì)定義:給定上下文ct和預(yù)測(cè)操作at,研究團(tuán)隊(duì)定義了一個(gè)二元獎(jiǎng)勵(lì)函數(shù)r(ct,at)∈{0,1},當(dāng)滿足以下兩個(gè)條件時(shí),分配獎(jiǎng)勵(lì)1:(1)格式正確性:模型輸出符合結(jié)構(gòu)格式,即包含<think>...</think>和<tool_call>...</tool_call>標(biāo)簽;(2)工具調(diào)用正確性:預(yù)測(cè)的工具調(diào)用at在工具名稱和所有參數(shù)鍵值對(duì)方面與地面真實(shí)調(diào)用at*完全匹配。

r(ct,at) = { 1, 如果 FormatCorrect(at) ∧ ToolCallMatch(at,at*) 0, 否則 }

其中FormatCorrect(at)在輸出正確包裝在兩個(gè)所需標(biāo)簽中時(shí)返回true,ToolCallMatch(at,at*)在at在結(jié)構(gòu)和內(nèi)容上與地面真實(shí)工具調(diào)用at*完全匹配時(shí)返回true。

實(shí)驗(yàn)結(jié)果與分析

研究團(tuán)隊(duì)進(jìn)行了廣泛實(shí)驗(yàn),證明了所提方法的優(yōu)越性。實(shí)驗(yàn)主要在BFCL和API-Bank兩個(gè)典型基準(zhǔn)測(cè)試上進(jìn)行評(píng)估。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集:主要使用ToolACE和xLAM的子集作為訓(xùn)練數(shù)據(jù)集。ToolACE涵蓋了廣泛的工具調(diào)用場(chǎng)景,包括具有多個(gè)候選工具和并行函數(shù)調(diào)用的示例,覆蓋了26,507個(gè)多樣化工具的池。相比之下,xLAM專注于單輪函數(shù)調(diào)用,包含通過APIGen收集的60,000個(gè)實(shí)例。

模型:除非另有說明,研究團(tuán)隊(duì)使用Qwen2.5-7B/14B-Instruct作為主要骨干模型。為評(píng)估方法的泛化能力,還對(duì)替代骨干模型進(jìn)行了評(píng)估,包括來自LLaMA家族的多個(gè)變體。實(shí)驗(yàn)中,研究團(tuán)隊(duì)與通用開源模型(如GPT系列和Gemini-2.0)以及專門的工具調(diào)用模型(包括ToolACE-8B、xLAM-2和Hammer2.1)進(jìn)行了比較。

基準(zhǔn)測(cè)試:主要評(píng)估單輪工具調(diào)用查詢的性能。在幾個(gè)代表性基準(zhǔn)測(cè)試上評(píng)估了方法,包括Berkeley Function Call Leaderboard (BFCL)和API-Bank。對(duì)于BFCL,在Non-live和Live子集上進(jìn)行了評(píng)估,分別對(duì)應(yīng)合成和真實(shí)世界數(shù)據(jù)。每個(gè)子集包括四個(gè)類別:Simple、Multiple、Parallel和Parallel Multiple。Simple和Multiple場(chǎng)景都涉及單個(gè)工具的調(diào)用,Multiple類別具有多個(gè)候選工具。相比之下,Parallel和Parallel Multiple場(chǎng)景需要同時(shí)調(diào)用多個(gè)工具。對(duì)于API-Bank,排除了多輪案例。所有基準(zhǔn)測(cè)試的性能都以準(zhǔn)確率報(bào)告。

其他實(shí)現(xiàn)細(xì)節(jié):所有實(shí)驗(yàn)使用開源強(qiáng)化學(xué)習(xí)庫Verl進(jìn)行。訓(xùn)練使用1024的批量大小和1×10??的學(xué)習(xí)率。溫度固定在0.7。熵系數(shù)設(shè)置為0,因?yàn)橛^察到引入熵對(duì)訓(xùn)練期間的探索產(chǎn)生負(fù)面影響。KL散度損失系數(shù)在所有實(shí)驗(yàn)中設(shè)置為1×10?3。所有訓(xùn)練運(yùn)行在由4個(gè)節(jié)點(diǎn)組成的集群上執(zhí)行,每個(gè)節(jié)點(diǎn)配備8個(gè)NVIDIA H100 80GB GPU。

主要結(jié)果

BFCL基準(zhǔn)測(cè)試結(jié)果:實(shí)驗(yàn)結(jié)果清楚地表明,所有Tool-N1-7B/14B模型都取得了最佳的總體性能,超過了最先進(jìn)的閉源模型(如GPT-4o)和專門的微調(diào)模型(包括xLAM-2-70B和ToolACE-8B)。值得注意的是,訓(xùn)練的工具調(diào)用推理模型顯著優(yōu)于在相同數(shù)據(jù)源上訓(xùn)練的監(jiān)督微調(diào)基線(即ToolACE和xLAM系列)。結(jié)果證明,與標(biāo)準(zhǔn)監(jiān)督微調(diào)相比,R1風(fēng)格的強(qiáng)化學(xué)習(xí)為增強(qiáng)LLM的工具調(diào)用能力提供了更有效的范式。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

API-Bank基準(zhǔn)測(cè)試結(jié)果:為提供更全面的評(píng)估,研究團(tuán)隊(duì)還在API-Bank基準(zhǔn)測(cè)試上進(jìn)行了實(shí)驗(yàn)。Tool-N1-7B和Tool-N1-14B模型在大多數(shù)情況下都始終優(yōu)于基線。值得注意的是,Tool-N1-7B/14B的準(zhǔn)確率分別比GPT-4o高4.12%和5.03%,清楚地證明了該方法的有效性。

深入分析

可擴(kuò)展性和泛化能力

可擴(kuò)展性:擴(kuò)展定律,它描述了模型大小和性能之間的關(guān)系,在理解訓(xùn)練方法的有效性方面起著關(guān)鍵作用。研究團(tuán)隊(duì)通過評(píng)估一系列模型大小來評(píng)估所提訓(xùn)練方法的擴(kuò)展行為,包括來自Qwen2.5-Instruct系列的0.5B、1.5B、3B、7B和14B。為進(jìn)行比較,還報(bào)告了沒有任何額外訓(xùn)練的原始指令調(diào)整模型的性能。

研究團(tuán)隊(duì)報(bào)告了BFCL基準(zhǔn)測(cè)試的Live和Non-Live類別的平均性能。如預(yù)期的那樣,較大的模型在兩種評(píng)估設(shè)置中始終優(yōu)于較小的模型。值得注意的是,對(duì)于較小的模型(0.5B和1.5B),后訓(xùn)練的性能改進(jìn)有限,而較大的模型表現(xiàn)出顯著的增益。這些發(fā)現(xiàn)表明,R1風(fēng)格的訓(xùn)練方法隨著模型大小的增加而更有效地?cái)U(kuò)展。

泛化能力:研究團(tuán)隊(duì)進(jìn)一步評(píng)估了不同骨干LLM的影響,以研究所提訓(xùn)練方法的泛化能力。除了Qwen系列,還包括使用基于LLaMA的模型的實(shí)驗(yàn):LLaMA3-8B-Instruct和LLaMA3.1-8B-Instruct。這些評(píng)估在BFCL基準(zhǔn)測(cè)試上進(jìn)行。研究發(fā)現(xiàn),在相同的模型規(guī)模下,Qwen2.5-Instruct顯著優(yōu)于兩種LLaMA變體。這種優(yōu)勢(shì)可能是由于Qwen固有的更強(qiáng)推理能力,正如Gandhi等人(2025)先前觀察到的那樣。因此,R1風(fēng)格的訓(xùn)練范式能夠在應(yīng)用于Qwen時(shí)引出更好的性能。

消融研究

獎(jiǎng)勵(lì)設(shè)計(jì)的消融:為評(píng)估獎(jiǎng)勵(lì)粒度如何影響模型行為,研究團(tuán)隊(duì)在兩種獎(jiǎng)勵(lì)方案下評(píng)估了Tool-N1-7B:細(xì)粒度和二元。細(xì)粒度設(shè)置提供部分獎(jiǎng)勵(lì),即使最終函數(shù)調(diào)用不正確,正確的推理格式也提供0.2的獎(jiǎng)勵(lì),匹配函數(shù)名稱再提供0.2的額外獎(jiǎng)勵(lì)。相比之下,二元設(shè)置僅在所有組件都正確時(shí)給予1.0的獎(jiǎng)勵(lì),包括推理、函數(shù)名稱和參數(shù)。Tool-N1在二元獎(jiǎng)勵(lì)下始終取得更好的性能,特別是在Live子集上(80.38%對(duì)76.61%),這涉及更現(xiàn)實(shí)的輸入。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

研究團(tuán)隊(duì)將這歸因于減少了獎(jiǎng)勵(lì)黑客行為:在細(xì)粒度方案下,模型可能過度擬合表面線索,如格式化或部分匹配,而不確保完全執(zhí)行正確性。此外,在二元設(shè)置中,觀察到移除推理格式約束顯著損害了性能(從80.38%下降到76.24%)。這突顯了結(jié)構(gòu)化推理在引導(dǎo)Tool-N1-7B實(shí)現(xiàn)可靠和可泛化工具使用方面的關(guān)鍵作用,特別是在復(fù)雜的真實(shí)世界場(chǎng)景中。

訓(xùn)練數(shù)據(jù)組成的消融:研究團(tuán)隊(duì)還調(diào)查了不同數(shù)據(jù)組成策略如何影響B(tài)FCL基準(zhǔn)測(cè)試的性能。實(shí)驗(yàn)使用Tool-N1-7B模型進(jìn)行。主要發(fā)現(xiàn)如下:(1)與原始模型(Qwen2.5-7B-Instruct)相比,R1風(fēng)格的訓(xùn)練顯著增強(qiáng)了工具調(diào)用能力;(2)ToolACE數(shù)據(jù)在實(shí)時(shí)設(shè)置中產(chǎn)生了特別強(qiáng)的改進(jìn);(3)與使用相同數(shù)據(jù)進(jìn)行SFT訓(xùn)練的模型相比,R1風(fēng)格的訓(xùn)練始終產(chǎn)生更好的性能。具體來說,僅在xLAM數(shù)據(jù)上訓(xùn)練的Tool-N1-7B模型比xLAM-8B SFT模型表現(xiàn)好6.36%,僅在ToolACE子集上訓(xùn)練的Tool-N1-7B模型比ToolACE-8B SFT模型表現(xiàn)好1.62%,盡管只使用了數(shù)據(jù)的一個(gè)子集。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

SFT還是RL?:研究團(tuán)隊(duì)還進(jìn)行了一項(xiàng)系統(tǒng)研究,比較了純RL、監(jiān)督微調(diào)(SFT)和常用的SFT-then-RL流程。使用5,518個(gè)提煉的推理軌跡進(jìn)行分析,發(fā)現(xiàn):(1)盡管在許多領(lǐng)域,對(duì)推理軌跡進(jìn)行SFT然后進(jìn)行RL的組合通常被認(rèn)為是最佳實(shí)踐,但在相等的數(shù)據(jù)預(yù)算下,在工具調(diào)用設(shè)置中沒有觀察到性能改進(jìn);(2)在相等的數(shù)據(jù)預(yù)算下,純RL優(yōu)于Reason-SFT和No-Reason SFT;(3)有趣的是,No-Reason SFT的表現(xiàn)僅比Reason-SFT略差,表明在SFT期間提供推理軌跡提供的額外好處有限。

突破性進(jìn)展:NVIDIA推出Nemotron-Research-Tool-N1,強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的工具型語言模型超越GPT-4o-AI.x社區(qū)

結(jié)論與未來展望

Nemotron-Research-Tool-N1引入了一系列使用基于規(guī)則的強(qiáng)化學(xué)習(xí)訓(xùn)練的工具使用型語言模型。與依賴監(jiān)督微調(diào)的先前方法不同,Nemotron-Research-Tool-N1利用僅監(jiān)督最終答案和推理結(jié)構(gòu)格式的獎(jiǎng)勵(lì)函數(shù)。這使模型能夠在不需要注釋推理軌跡的情況下學(xué)習(xí)有效的推理策略。

實(shí)驗(yàn)結(jié)果表明,Nemotron-Research-Tool-N1在多個(gè)基準(zhǔn)測(cè)試中始終優(yōu)于現(xiàn)有基線,包括BFCL和API-Bank。此外,當(dāng)在相同數(shù)據(jù)上訓(xùn)練時(shí),使用R1風(fēng)格強(qiáng)化學(xué)習(xí)的模型比其SFT訓(xùn)練的對(duì)應(yīng)物實(shí)現(xiàn)了更優(yōu)越的性能,肯定了基于強(qiáng)化的訓(xùn)練相對(duì)于SFT的好處。

這項(xiàng)研究為工具使用型語言模型的訓(xùn)練提供了一個(gè)新的范式,強(qiáng)調(diào)了強(qiáng)化學(xué)習(xí)在培養(yǎng)模型推理能力方面的潛力。未來的研究方向可能包括探索更復(fù)雜的獎(jiǎng)勵(lì)函數(shù)、集成多模態(tài)工具和擴(kuò)展到更廣泛的應(yīng)用領(lǐng)域。

論文:???https://arxiv.org/abs/2505.00024v1???

GitHub:???https://github.com/NVlabs/Tool-N1??

本文轉(zhuǎn)載自???頓數(shù)AI???,作者:蔥蔥

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产精品97| www.一区| 91视频精品在这里| 成人国产精品久久久久久亚洲| 国产高潮流白浆| 欧洲精品一区| 欧美一区二区三区在线| 国产a级片网站| 在线观看完整版免费| 成人天堂资源www在线| 国产精品午夜一区二区欲梦| 国产主播在线播放| 99成人超碰| 亚洲男人天天操| 成人啪啪18免费游戏链接| 高清av一区二区三区| 亚洲国产你懂的| 五月天av影院| 番号在线播放| 久久蜜臀精品av| 国产综合18久久久久久| 国产毛片毛片毛片毛片毛片| 日韩成人一级大片| 91精品国产高清久久久久久| 国产大学生自拍| 日韩一区三区| 在线看日韩欧美| 亚洲专区区免费| 老汉色老汉首页av亚洲| 日韩一区二区三区高清免费看看| 杨幂毛片午夜性生毛片| 欧美舌奴丨vk视频| 五月天久久比比资源色| 久久久久久久久久伊人| 日本高清中文字幕在线| 久久精品视频一区二区| 国产一区免费视频| 丰满人妻妇伦又伦精品国产| 精品一区二区三区视频 | 久久久久久国产精品mv| 性一交一乱一透一a级| 久久精品国产精品亚洲精品| 国产精品欧美激情在线播放| 久久久久久久黄色片| 精品成人在线| 国内精品久久久久久中文字幕| 69av视频在线| 综合一区av| 久久综合久久美利坚合众国| 亚洲欧洲综合网| 欧美hd在线| 久久久久北条麻妃免费看| 久久精品色妇熟妇丰满人妻| 欧美综合视频| 最近的2019中文字幕免费一页| 五月天综合视频| 国产成人精品一区二区免费看京 | 在线免费观看黄| 国产精品电影一区二区| 艳色歌舞团一区二区三区| 91高清在线视频| 中文字幕日本乱码精品影院| 黄色网zhan| av在线网页| 欧美日韩美女在线观看| 国产成人精品视频ⅴa片软件竹菊| 中国色在线日|韩| 在线观看91视频| 亚洲一区二区在线视频观看| 日韩中文字幕一区二区高清99| 日韩精品中文字幕一区二区三区 | 精品精品精品| 亚洲人成在线一二| 日韩av网站在线播放| 一区二区三区四区日韩| 欧美精品18videos性欧| 日本视频免费在线| 日韩黄色小视频| 亚洲一区国产精品| 亚洲日本在线播放| 国产精品美女视频| 日本国产中文字幕| 欧美色网一区| 日韩一区二区免费在线观看| 黄色av电影网站| 精品国产一区二区三区久久久蜜臀| 神马久久久久久| 国产亚洲成人av| 日韩高清在线不卡| 97se亚洲综合在线| 免费黄网站在线观看| 亚洲天堂精品视频| 波多野结衣家庭教师在线| 成人涩涩视频| 欧美精品一区二区三区很污很色的 | 欧美日韩成人影院| 日韩免费电影一区| 免费在线观看a视频| 欧美激情成人在线| 国产精品久久久91| 国产成人自拍一区| 日韩一区欧美一区| 激情五月开心婷婷| 超碰97久久国产精品牛牛| 国产午夜精品一区二区三区| 91porn在线视频| 蜜桃av噜噜一区| 久久久久久久久久久久久9999| 麻豆传媒在线免费看| 欧美日韩亚洲天堂| 国产又粗又猛又爽又黄| 国产中文精品久高清在线不| 久久男人的天堂| 一卡二卡三卡在线| 国产欧美视频一区二区| 日本人体一区二区| 亚洲日本一区二区三区在线| 中文字幕亚洲欧美日韩2019| 五月婷婷激情网| 国产成人亚洲精品狼色在线 | 一本加勒比波多野结衣| 午夜久久免费观看| 国产精品久久久久久av| 飘雪影院手机免费高清版在线观看 | 国产 日韩 欧美大片| 正在播放91九色| 亚洲精品国产嫩草在线观看| 日韩精品视频在线免费观看| 久视频在线观看| 国产成人免费在线视频| 超碰97免费观看| 91精品国产色综合久久不卡粉嫩| 一区二区三区动漫| 久久国产乱子伦精品| 久久综合精品国产一区二区三区 | 午夜69成人做爰视频| 麻豆成人免费电影| 一区二区不卡在线观看| 韩日精品一区| 亚洲人成在线观| 无码人妻丰满熟妇精品| 久久免费看少妇高潮| 成年人免费在线播放| 网友自拍一区| 国产精品爱啪在线线免费观看| 精品视频二区| 在线观看亚洲精品视频| 成人免费视频入口| 狠狠狠色丁香婷婷综合激情| 熟妇熟女乱妇乱女网站| 精品国产三级| 欧美精品成人91久久久久久久| 亚洲精品一区二区三区不卡| 亚洲一区欧美一区| 添女人荫蒂视频| 日韩电影免费在线| 天天干天天操天天干天天操| 国产精品一区二区三区av| 美女性感视频久久久| 午夜精品久久久久久久第一页按摩| 亚洲自拍偷拍综合| 波多野结衣有码| 久久久久国产精品一区二区| 区一区二区三区中文字幕| 国产成人精品一区二区三区在线| 色婷婷久久一区二区| 国内毛片毛片毛片毛片| 亚洲国产中文字幕在线视频综合 | www.成人精品| 欧美视频在线免费看| 伊人影院综合网| 国产毛片一区二区| 日本免费不卡一区二区| 日产精品一区二区| 91青青草免费在线看| 九色porny自拍视频在线观看 | 91精品国产综合久久香蕉麻豆| 色在线观看视频| 91污片在线观看| 超碰人人草人人| 亚洲精品123区| 亚洲高清视频一区| 午夜久久av| 国产成人精品在线观看| 国产精品一区二区三区视频网站| 日韩精品影音先锋| 天天爱天天做天天爽| 亚洲免费观看高清完整 | 中文字幕一区二区三区视频| 亚洲精品无码一区二区| 丝袜a∨在线一区二区三区不卡| 欧美日韩在线免费观看视频| 日韩精品丝袜美腿| 91免费看国产| 日本高清不卡一区二区三区视频 | 国产成人精品免费在线| 国语对白做受xxxxx在线中国| 亚洲午夜精品一区 二区 三区| 九色91国产| 精品国产麻豆| 国产精品午夜视频| 国产精品av一区二区三区 | 日韩高清成人| 久久免费国产精品1| 午夜视频在线看| 亚洲精品久久久久中文字幕欢迎你 | 国产酒店精品激情| 国产精品无码一本二本三本色| 欧美成熟视频| 91免费网站视频| 欧美猛男同性videos| 国产免费一区二区三区| 国产一区二区久久久久| 国产精品电影久久久久电影网| h片在线观看下载| 欧美精品在线免费| 亚洲精品承认| 国产一区二区三区毛片| 五月婷婷六月激情| 欧美xxxx在线观看| 国产美女裸体无遮挡免费视频| 在线一区二区三区做爰视频网站| 亚洲一区欧美在线| 亚洲一区二区影院| 国产高清在线免费观看| 亚洲欧洲综合另类在线| 无码人中文字幕| 亚洲国产高清不卡| 91精品国自产在线| 久久久蜜桃精品| 中文字幕国产综合| 久久影院视频免费| 人妻熟女aⅴ一区二区三区汇编| 成年人国产精品| 四虎永久免费观看| 国产成人在线色| 亚洲美女高潮久久久| 国产福利一区二区三区视频在线| 久久精品一二三四| 国产一区二区三区四区五区入口| 亚洲欧美日韩精品一区| 美女视频免费一区| 红桃视频 国产| 国产精品影音先锋| 四虎国产精品免费| 成人av在线一区二区| 中国免费黄色片| 91麻豆视频网站| 精品无人区无码乱码毛片国产| 久久嫩草精品久久久久| 亚洲人成人无码网www国产| 国产欧美一区二区三区网站| 亚洲av毛片基地| 日韩一区有码在线| 欧美日韩国产精品一区二区三区| 一区二区三区**美女毛片| 久久这里只有精品国产| 午夜精品一区二区三区免费视频| 国产尤物在线视频| 欧美性xxxxxxxx| 国产免费黄色片| 精品欧美一区二区三区精品久久 | 欧美巨猛xxxx猛交黑人97人| 中文字幕在线观看网站| 97精品欧美一区二区三区| 亚洲www.| 亚洲一区二区三区乱码aⅴ蜜桃女| 6080成人| 日本不卡在线观看| 国产精品久久占久久| 97碰在线视频| 久久久久国产精品一区二区| 五月天av在线播放| 成人做爰69片免费看网站| 人妻在线日韩免费视频| 国产精品视频免费看| 国产日韩欧美在线观看视频| 五月天亚洲精品| 夜夜嗨av禁果av粉嫩avhd| 日韩欧美国产一区二区三区| 日韩欧美亚洲系列| 日韩亚洲欧美中文高清在线| 成人影音在线| 国产欧美久久一区二区| 在线观看视频一区二区三区| 欧美日韩免费高清| 午夜欧美视频| 免费观看成人网| 国产精品99久| 国产精品成人无码免费| 亚洲午夜三级在线| 中国黄色一级视频| 精品国产青草久久久久福利| 成人一区二区不卡免费| 久久久久久亚洲精品不卡| 成人国产网站| 九九久久99| 欧美a级片网站| 在线观看国产一级片| www.激情成人| 丝袜美腿小色网| 欧美亚洲动漫另类| 天天摸天天碰天天爽天天弄| 久久精品这里热有精品| 国产精品伦理| 精品国产一区二区三区免费 | 欧美成人第一页| 亚洲精品555| 欧美lavv| 韩日视频一区| 亚洲av无一区二区三区久久| 中文字幕 久热精品 视频在线| 国产午夜视频在线播放| 91精品国产色综合久久ai换脸 | 欧美激情综合五月色丁香小说| 久久黄色小视频| 91精品国产入口| 亚洲视频tv| 国产精品久久久久久久久久小说 | 成人自拍视频在线观看| 久久一级免费视频| 欧美中文字幕不卡| 欧美孕妇性xxxⅹ精品hd| 午夜精品一区二区三区在线播放 | 久久99热这里只有精品| 熟女少妇内射日韩亚洲| 日韩欧美aⅴ综合网站发布| 日本高清视频在线| 欧美极品美女视频网站在线观看免费| 色综合视频一区二区三区44| 亚欧精品在线| 日本人妖一区二区| 中文字幕第4页| 91福利国产成人精品照片| 青青九九免费视频在线| 欧美亚洲视频一区二区| 青青草久久爱| 欧美成人一区二区在线观看| www.亚洲国产| 久久中文字幕免费| 亚洲日本成人网| 日韩av一级| 亚洲成人一区二区三区| 喷水一区二区三区| www.黄色com| 91麻豆精品国产91| 秋霞在线午夜| 国产欧美日韩综合一区在线观看 | 精品亚洲视频在线| 中文字幕日韩精品一区| 99热这里只有精品1| 欧美精品做受xxx性少妇| 涩爱av色老久久精品偷偷鲁| av网站大全免费| 91麻豆免费视频| 中国女人一级一次看片| 色七七影院综合| 亚洲专区**| 99999精品视频| 国产精品天干天干在观线| 国产精品女同一区二区| 欧美国产日韩精品| 台湾色综合娱乐中文网| 成人免费毛片播放| 亚洲三级在线免费观看| 人妻精品无码一区二区| 人人澡人人澡人人看欧美| 日本一区二区免费高清| 免费在线观看日韩av| 欧美日韩黄色大片| av电影在线网| 国产不卡一区二区在线观看| 国产精品试看| 亚洲色图日韩精品| 日韩精品专区在线影院观看| 亚洲一二三四| av电影一区二区三区| thepron国产精品| 91麻豆成人精品国产免费网站| 九九热精品在线| 国产精品亚洲人成在99www| 激情久久综合网| 疯狂蹂躏欧美一区二区精品| 18视频免费网址在线观看| 国产富婆一区二区三区 | 久久久男人的天堂| 91极品美女在线| 波多野结依一区| 一本一道久久久a久久久精品91| 成人97人人超碰人人99| 国产精品久久久久精| 欧美诱惑福利视频| 欧美日韩国产成人精品| 69视频在线观看免费| 亚洲精品在线电影| 祥仔av免费一区二区三区四区| 精品中文字幕av| 一区二区三区国产精品| av片在线免费观看| 久久久久久欧美精品色一二三四|