精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型不會用工具?人大Tool-Light:不存在的!

發布于 2025-10-9 07:57
瀏覽
0收藏

大語言模型(LLM)通過借助外部工具推理(TIR),能夠完成許多超越自身固有知識和能力的任務。然而,未經專門訓練的 LLM 在調用外部工具時,往往會出現許多次優行為。如何讓 LLM 高效準確地完成 TIR 任務仍是一個開放性的挑戰。為了解決這一問題,人大提出了Tool-Light,這是一個旨在鼓勵 LLMs 高效準確地執行 TIR 任務的框架。在十個具有挑戰性的數據集上的測試結果充分說明了 Tool-Light 的有效性,它能夠顯著提高模型執行 TIR 任務的效率。

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

論文標題:Towards Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning
論文鏈接:https://arxiv.org/pdf/2509.23285v2
代碼倉庫:https://github.com/asilverlight/Tool-Light
開源模型:https://huggingface.co/zhangboguodong/Tool-Light-Qwen2.5-7B-it

前置實驗:揭示工具調用和信息熵的關系

受到一些已有工作的啟發,我們首先從信息熵的角度,對 TIR 這一任務進行了初步分析。我們發現:

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

Tool-Light前置實驗

  • 當模型接收到工具調用結果時,其輸出信息熵會先上升,然后波動,并在下一次工具調用到來之前急劇下降。
  • 對于同一樣本,低熵鏈的工具調用次數往往更少,并且隨著推理的進行,這種特性變得越來越明顯。

基于這一特性,我們特別設計了數據采樣方法以及篩選方法,致力于獲得高質量的訓練數據。

Tool-Light:借助自進化的偏好學習引導模型高效完成 TIR 任務

我們提出了 Tool-Light 框架。這是一個面向檢索和代碼執行工具,從數據端和算法端兩個方面,充分優化模型執行 TIR 任務行為的框架。具體來說,我們的貢獻如下:

  • 我們首次從信息熵的角度分析了 TIR 這一范式,并基于信息熵提出了一種高效的數據采樣方法。該方法僅在推理鏈路的高熵位置進行采樣,能夠在降低推理成本的同時獲得高質量的訓練數據
  • 我們提出了一種兩階段的 TIR 訓練流程,包括SFT自進化的 DPO 訓練。其中我們將第二階段分為了預對齊的 DPO 訓練自進化的 DPO 對齊兩個部分。該方法將數據采樣和訓練過程交替進行,逐步有針對性地提升模型的能力。
  • 我們在十個具有挑戰性的數據集(包括數學推理任務和實體檢索任務)上測試了訓練后模型的性能,結果顯示在 Tool-Light 框架下訓練的模型能夠更加高效準確地完成 TIR 任務。

熵引導的采樣策略

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

熵采樣

我們設計了兩種采樣策略,一種是直接采樣,即針對某個問題從頭采樣出多條推理鏈路。另一種是熵引導的采樣策略。這種方法的流程如下:

  • 針對每個問題,執行一次 TIR 過程獲得一條推理鏈路。
  • 計算該鏈路中,每次獲取完工具執行結果后,推理部分的前10、20、30、40、50個 token 的熵值。
  • 取整條鏈路中熵值最大的k個位置,然后在這些位置上接續進行重復采樣,獲得多條推理鏈路。

這種方法能夠保證采樣的多樣性,同時能夠降低推理成本,將原來的線性級別推理成本降低為對數級別推理成本。

兩階段的 TIR 訓練流程

我們的訓練流程一共有兩個階段,包括一個 SFT 階段以及一個自進化的 DPO 訓練階段。其中自進化的 DPO 訓練階段又分為一次預對齊的 DPO 訓練以及若干輪自進化的 DPO 對齊。

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

兩階段訓練流程

首先,我們精心構造出數據源 ,并在此基礎上執行 SFT 訓練,得到訓練好的模型 。隨后進行預對齊的 DPO 訓練,我們使用 ,基于前述兩種采樣策略對  重新進行采樣,并設計了如下的準則1來篩選出 DPO 訓練數據:

  • 區分難易樣本:

困難樣本:正確軌跡數量小于等于50%的樣本

簡單樣本:正確軌跡數量大于50%的樣本

  • 區分正負樣本:

正樣本:具有最少工具調用次數和最低熵的正確軌跡

負樣本:工具調用次數多于正樣本的錯誤軌跡

使用采好的 DPO 數據再次訓練 ,得到 。隨后進行多輪自進化的 DPO 對齊。我們使用  再次采樣,并設計了如下的準則2來篩選出 DPO 對齊數據:

  • 困難樣本:

正樣本:推理鏈路最長的正確軌跡

負樣本:推理鏈路最短的錯誤軌跡

  • 簡單樣本:

負樣本:工具調用次數最多的錯誤軌跡

正樣本:工具調用次數少于負樣本且熵最低的正確軌跡

我們交替進行數據采樣和自進化 DPO 對齊,直到模型收斂,得到最終訓練好的模型 。

在困難推理任務上的實驗結果

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

實驗結果

為了充分評估 Tool-Light 框架的有效性,我們選取了十個具有挑戰性的困難推理任務,包括數學推理任務(AIME24、AIME25、AMC23、MATH、MATH500、GSM8K)和實體檢索任務(HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle)。

從實驗結果可以發現:

  • 外部工具帶來的幫助:相較于直接推理的方法,引入外部工具整體上看會給模型性能帶來較大提升,但未經訓練的模型無法很好地利用外部工具。
  • 訓練對 TIR 任務至關重要:訓練后的模型在專業領域任務上的能力得到了很大提升,但僅針對專一任務進行訓練可能會降低模型在其他任務上的泛化性。
  • 高效準確使用工具的重要性:Tool-Light 框架在提升模型的 TIR 能力之外,還教會了模型高效合理地使用工具進行推理。相較于已有 Baseline 方法,在Tool-Light 框架下訓練的模型性能又有了一個提升。

大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

實驗結果

我們還測評了 Tool-Light 方法調用工具的高效性、必要性,以及推理鏈長度分布情況:

  • 高效性:衡量模型調用工具的效率,值越高代表工具調用的效率越高
  • 必要性:衡量模型避免工具使用不足的情況,值越高代表模型越能在需要時果斷調用工具
  • 長度分布:衡量模型是否有冗余思考的現象

整體上看,Tool-Light 方法在高效性和必要性指標上都達到了最優,這表明我們設計的訓練框架相較于已有方法,很大程度上規避了 TIR 過程中的次優行為,成功讓模型學會了正確合理的工具使用以及思維方式。


大模型不會用工具?人大Tool-Light:不存在的!-AI.x社區

消融實驗

Tool-Light 框架在不同進化輪數和采樣策略下的消融實驗結果。“1/1 data ratio”代表使用兩種采樣策略得到的數據量比例為1:1,“p-r”“n-r”分別代表隨機篩選正例和隨機篩選負例

本文轉載自??PaperAgent??

已于2025-10-9 07:57:05修改
收藏
回復
舉報
回復
相關推薦
99re视频精品| 欧美成年网站| 国产欧美精品国产国产专区 | www免费在线观看| 极品少妇xxxx偷拍精品少妇| 欧美激情综合色综合啪啪五月| 日日夜夜精品视频免费观看| 欧美大片黄色| 国产片一区二区三区| 亚洲综合中文字幕68页| 亚洲永久精品在线观看| 欧美国产一级| 日韩成人在线视频网站| 亚洲精品20p| 日本午夜大片a在线观看| 国产精品国产三级国产| 国产欧美日韩一区| 在线观看色网站| 亚洲久久成人| 久久精品亚洲国产| 欧美熟妇精品黑人巨大一二三区| 涩涩涩久久久成人精品| 欧美天堂在线观看| 中文字幕在线中文| 狠狠色伊人亚洲综合网站l| 国产精品1区二区.| 国产精品色婷婷视频| 日韩福利片在线观看| 国产精品88久久久久久| 亚洲人午夜精品免费| 天天躁日日躁狠狠躁av| 四虎国产精品免费久久5151| 欧美午夜激情视频| 日韩黄色短视频| 超碰porn在线| 国产精品不卡一区| 天堂资源在线亚洲资源| 深夜福利免费在线观看| 丁香桃色午夜亚洲一区二区三区| 国产美女被下药99| 日日夜夜狠狠操| 中文一区二区| 久久久久久久一区二区三区| 中国一级片在线观看| 欧美日韩有码| 亚洲午夜精品久久久久久性色| 日韩片在线观看| 精品国产影院| 精品成人一区二区| 国产调教打屁股xxxx网站| 国产精品xnxxcom| 欧美日韩www| 手机免费av片| 日日夜夜一区| 91精品国模一区二区三区| 国产又黄又猛又粗| 亚洲日本在线观看视频| 91福利国产成人精品照片| 成人综合视频在线| 伊人久久国产| 色哟哟一区二区| 国产精品人人妻人人爽人人牛| 性国裸体高清亚洲| 狠狠色狠狠色综合日日小说| 日韩在线视频在线观看| sis001欧美| 91国偷自产一区二区使用方法| 国产一区二区三区精彩视频| 国产伦精品一区二区三区视频金莲| 亚洲成a人v欧美综合天堂下载| 国产免费一区二区视频| 99riav视频在线观看| 黄网站色欧美视频| 99热成人精品热久久66| 国模视频一区| 欧美二区三区91| 波多野结衣网页| 一区二区亚洲视频| 日韩成人av在线播放| 欧美老熟妇乱大交xxxxx| 免费精品国产的网站免费观看| 亚洲色图欧美制服丝袜另类第一页| 无码一区二区三区在线| 久久在线视频| 久久久久久久色| 中文字幕一区在线播放| 美女一区二区久久| 91九色对白| 天天操天天干天天| 国产片一区二区三区| 国产又粗又大又爽的视频| 国产丝袜精品丝袜| 91国偷自产一区二区开放时间| 不用播放器的免费av| 伊人精品综合| 亚洲一区二区精品| 九九视频在线观看| 久久久久国产精品午夜一区| 91深夜福利视频| 午夜成人免费影院| 国产精品高潮久久久久无| 成人免费a级片| 日韩不卡在线| 欧美成人综合网站| 91视频免费在观看| 欧美日韩免费观看一区=区三区| 91sa在线看| 国产视频一二三四区| 91在线观看一区二区| 中文字幕日韩一区二区三区| 免费毛片b在线观看| 欧美日韩国产综合视频在线观看 | 不卡欧美aaaaa| 午夜精品亚洲一区二区三区嫩草 | 在线观看av免费观看| 欧美深夜视频| 久久中文字幕国产| 国产在线观看黄色| 国产成人午夜99999| 日韩影院一区| 免费h视频在线观看| 日韩欧美一二区| 特级西西www444人体聚色| 韩国av一区| 国产又爽又黄的激情精品视频| 色噜噜在线播放| 一区二区三区在线观看欧美| 手机看片一级片| 免费视频国产一区| 高清视频欧美一级| av综合在线观看| 国产精品久久久久久久裸模| 97超碰青青草| 国产精品久久久久av蜜臀| 日韩三级成人av网| 中文字幕你懂的| 久久婷婷综合激情| 一女被多男玩喷潮视频| 91成人噜噜噜在线播放| 久久影院模特热| 怡春院在线视频| 欧美激情一区二区在线| 精品一卡二卡三卡| 校花撩起jk露出白色内裤国产精品| 欧美日本精品在线| 99热这里只有精品5| 中文字幕综合网| 污污视频网站在线| 99久久综合| 成人在线中文字幕| 麻豆免费在线视频| 欧美精品一卡二卡| 亚洲精品久久久久久国| 久久国产综合精品| 永久域名在线精品| 99久热在线精品视频观看| 色香阁99久久精品久久久| 做爰无遮挡三级| 国产精品久线观看视频| 在线观看岛国av| 午夜免费一区| 亚洲一区国产精品| 欧美人与动牲性行为| 精品久久人人做人人爰| 国产精品第72页| 99久久精品一区| 青青青在线播放| 国产一区网站| 国产综合视频在线观看| www在线视频| 亚洲国产精品成人va在线观看| 亚洲精品www久久久久久| 2021中文字幕一区亚洲| 男人的天堂日韩| 天天综合网网欲色| 成人三级在线| 成人性生交大片免费网站| 亚洲人成欧美中文字幕| 亚洲天堂自拍偷拍| 一区二区国产视频| 污片免费在线观看| 日韩福利电影在线| 久久视频免费在线| 欧美大片网址| 国产精品一区二区三区毛片淫片 | 国产喷水福利在线视频| 亚洲国产精品一区二区尤物区| yy1111111| 青青草97国产精品免费观看无弹窗版 | 中文字幕av资源一区| av在线免费观看不卡| 妖精视频成人观看www| 丝袜足脚交91精品| 99re8这里有精品热视频免费| 7777kkkk成人观看| 日本最黄一级片免费在线| 精品黑人一区二区三区久久 | 久久精品系列| 麻豆md0077饥渴少妇| 日本在线中文字幕一区| 国产日韩av高清| 老牛影视精品| 久久精品国产亚洲| 日本黄在线观看| 欧美一级在线免费| 国产精品乱子伦| 亚洲色图一区二区| 一二三不卡视频| 国产乱码一区二区三区| 麻豆av免费在线| 欧美性色综合| 亚洲精品视频一二三| 精品av导航| 国产在线精品自拍| 国产不卡网站| 久久久久久久成人| 免费看a在线观看| 亚洲女人初尝黑人巨大| 国产极品999| 欧美艳星brazzers| 精品成人免费视频| 一区二区三区四区激情| 在线观看天堂av| 久久亚洲捆绑美女| 欧美一级片黄色| 国产一区二区h| 9l视频白拍9色9l视频| 久久精品国语| 成人av一级片| 日韩一级免费| 欧美黑人在线观看| 亚洲免费二区| 一本—道久久a久久精品蜜桃| 成人三级视频| 日本一区二区视频| 日韩精品免费一区二区夜夜嗨| 成人欧美一区二区三区在线观看 | 久久久久久九九| 福利电影一区| 98国产高清一区| 国产乱码精品一区二区三区亚洲人 | 一本色道婷婷久久欧美| 成人羞羞网站入口| 品久久久久久久久久96高清| 欧美日韩一区二区三区不卡视频| 91在线免费网站| 午夜不卡一区| 国产精品永久免费| 福利一区二区免费视频| 国产精品三级网站| 欧美少妇激情| 91在线精品视频| 蜜桃在线一区| 99久久精品无码一区二区毛片 | 麻豆亚洲av熟女国产一区二| 亚洲欧美综合色| 国产色无码精品视频国产| 中文字幕一区二区三区在线播放 | 99久久精品国产亚洲精品 | 特级西西人体wwwww| 26uuu国产电影一区二区| 欧美精品黑人猛交高潮| 91色.com| 中文字幕伦理片| 国产精品久久99| 成人在线观看免费完整| 尤物av一区二区| 国产乡下妇女做爰视频| 精品人伦一区二区三区蜜桃网站| 久久久精品福利| 欧美在线制服丝袜| 国产又大又黑又粗| 日韩精品中午字幕| 午夜成人免费影院| 中文字幕av一区中文字幕天堂| 色欧美激情视频在线| 久久电影一区二区| sm久久捆绑调教精品一区| 日本国产一区二区三区| 色综合视频一区二区三区44| 国产91亚洲精品一区二区三区| 久久久久影视| 色一情一乱一伦一区二区三区丨| 国产精品久久久久久久久妇女| 蜜桃视频一区二区在线观看| 亚洲高清二区| 黄色国产小视频| 国产乱子伦一区二区三区国色天香| 国内精品免费视频| 国产午夜精品美女毛片视频| 一区二区三区影视| 精品magnet| 一级黄色片在线观看| 精品国产青草久久久久福利| 免费在线国产| 久热精品视频在线| 牛牛精品一区二区| 国产在线观看一区二区三区| 好吊妞国产欧美日韩免费观看网站| 欧美日韩一区综合| 你懂的国产精品永久在线| 成人在线免费观看av| 国产一区二区三区久久久| 人妻精品久久久久中文字幕| 成人免费在线播放视频| 欧美性猛交bbbbb精品| 欧美一区二区三区色| 天堂av在线免费观看| xx视频.9999.com| 三级中文字幕在线观看| 3d蒂法精品啪啪一区二区免费| 美女视频亚洲色图| 青春草在线视频免费观看| 国产精品三上| 中文字幕永久免费| 国产精品久久久久久久久久久免费看| 国内免费精品视频| 日韩欧美第一区| 97超碰人人在线| 国产91|九色| 超碰地址久久| 永久免费看av| 精品一区二区三区久久久| 精品国产av无码| 精品国产精品自拍| 性中国xxx极品hd| 久久天天躁日日躁| 国产亚洲精彩久久| 麻豆精品传媒视频| 日韩午夜电影| 国产精品成人99一区无码| 亚洲激情校园春色| 一区二区三区播放| 中文字幕精品久久| 日韩网站中文字幕| 日韩欧美亚洲在线| 久久精品三级| 免费看黄色的视频| 日韩欧美在线中文字幕| 深夜福利在线看| 国外色69视频在线观看| 成人资源在线播放| 日韩精品久久一区二区| 国产精品91一区二区| 波多野结衣亚洲色图| 制服丝袜中文字幕一区| 麻豆视频免费在线观看| 国产日本欧美在线观看| 欧美电影一区| 久久撸在线视频| 中文字幕中文在线不卡住| 中文字幕人妻精品一区| 在线观看国产成人av片| 高清在线一区| 中文精品视频一区二区在线观看| 麻豆精品在线视频| 亚洲 欧美 国产 另类| 欧美乱妇20p| 超碰免费在线播放| av激情久久| 最新国产拍偷乱拍精品| 亚洲狠狠婷婷综合久久久久图片| 欧美视频在线视频| 国产精品一区二区婷婷| 国产精品中文字幕久久久| 99久久婷婷国产综合精品电影√| 色91精品久久久久久久久| 亚洲精品第一国产综合野| 亚洲va欧美va| 2025国产精品视频| 国产真实有声精品录音| 久久国产激情视频| 亚洲男人都懂的| 日韩一卡二卡在线| 欧美最猛性xxxx| 三上亚洲一区二区| 成人在线短视频| 香蕉影视欧美成人| 你懂的在线免费观看| 国产美女久久久| 午夜性色一区二区三区免费视频| 免费黄色三级网站| 在线精品视频小说1| 超碰个人在线| 欧美一区二区高清在线观看| 久久69国产一区二区蜜臀| 久久国产精品波多野结衣| 亚洲精品白浆高清久久久久久| 欧美成人资源| 中文字幕在线中文| 国产亚洲短视频| 国产高清免费av| 日本国产一区二区三区| 亚洲精品小说| av黄色免费网站| 日韩一级高清毛片| 校园春色亚洲色图| 国产肉体ⅹxxx137大胆| 久久久久久9999| 亚洲精品一区二区三区四区|