精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

IKEA:通過強化學習提高LLM檢索規劃效率(開源)

發布于 2025-5-20 06:36
瀏覽
0收藏

1. 為什么要提出IKEA?

隨著可驗證獎勵系統的大規模強化學習(RL)技術突破,以Deepseek R1為代表的推理模型性能顯著提升。這類模型能通過推理激活預訓練知識來處理知識密集型任務,但受限于預訓練語料的局限性和世界知識的動態性,仍存在幻覺問題。

當前主流解決方案是賦予模型調用搜索引擎的能力,將其訓練為搜索智能體,使其在強化學習中逐步掌握任務分解與知識檢索能力。

然而該方法存在明顯缺陷:

其一,過度依賴LLM的工具調用功能,卻未能充分發揮其作為內置知識庫(LLM-as-KB)的潛力,導致大量冗余檢索——即便答案已編碼在模型參數中仍進行外部搜索。

其二,檢索器性能局限會引入噪聲,造成知識沖突,常見如錯誤檢索結果覆蓋正確參數知識。

其三,頻繁的搜索引擎調用會打斷生成過程,導致顯著推理延遲。這引出了核心研究命題:如何訓練能智能融合參數知識(內部)與檢索知識(外部)的高效自適應搜索智能體?

理想的搜索智能體需具備三大知識行為:

  • 知識邊界劃分:將問題拆解為原子問題并判斷各子問題是否在其知識邊界內;
  • 內部知識調用:對邊界內問題激活相關參數知識輔助解答;
  • 外部知識檢索:對邊界外問題生成精準搜索指令并獲取所需知識。

關鍵在于智能決策檢索時機——現有方法或依賴泛化性差的外部分類器,或采用復雜的數據工程實現自主決策,但尚未充分探索如何通過強化學習實現最優檢索時機的自主判斷。

為此,提出強化內外知識協同推理智能體IKEA。明確要求模型先界定知識邊界并優先調用參數知識,僅當確認知識不足時才觸發外部檢索。

2. 什么是IKEA?

自適應搜索智能體(Reinforced Internal-External Knowledge Synergistic REasoning Agent,IKEA)設計了兩大核心組件:

  • 面向知識協同的邊界感知獎勵函數
  • 精心構建的平衡訓練數據集(含等量的可內部解答與需外部檢索的問題)。

獎勵機制對參數知識充足的問題鼓勵答案正確性并抑制冗余檢索,對邊界外問題則激勵精準檢索,以此提升模型的自我認知能力。

在單跳與多跳知識推理任務上,IKEA不僅全面超越基線方法,在分布外數據也展現強大泛化能力。相比傳統強化學習方案Search-R1,IKEA能在提升性能的同時大幅降低檢索次數,充分驗證了方法的優越性。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

如上圖中部所示,典型的LLM搜索智能體會在動作標記中依次生成推理思路、搜索查詢和最終答案。

  • 頂部展示LLM智能體的多輪強化學習訓練框架(含可驗證獎勵機制)
  • 中部為Search-R1模塊
  • 底部為IKEA模塊。

Search-R1和IKEA屬于特殊類型的LLM智能體。

為規范交互動作的解析,定義了三類結構化標簽:

  • ??<THINK>[推理內容]</THINK>??用于思維過程
  • ??<SEARCH>[搜索查詢]</SEARCH>??用于檢索操作
  • ??<ANSWER>[最終答案]</ANSWER>??用于結果輸出

雖然??<THINK>??標簽內容不直接參與環境交互,但它作為模型生成的思維痕跡,仍屬于動作序列的組成部分。

智能體在每輪交互中,需先在??<THINK>???標簽內完成狀態分析,再選擇生成??<SEARCH>???或??<ANSWER>??標簽進行實際操作。

當觸發??<SEARCH>???時,模型生成的查詢語句會驅動檢索器從語料庫獲取相關知識,這些知識會被封裝在??<CONTEXT>[檢索結果]</CONTEXT>??標簽中,作為觀察信息反饋給智能體。

??<CONTEXT>???內容屬于環境反饋而非模型生成,因此在訓練時會進行屏蔽處理。當??<ANSWER>??標簽被激活時,意味著任務進入終局階段,模型輸出的答案將終結整個交互流程,我們稱此完整過程為一個"推演"。

2.1 IEKA:強化型內外知識協同推理智能體

現有搜索智能體往往過度依賴大語言模型(LLM)的任務分解能力:將查詢拆解為子問題后,反復檢索相關文檔輔助推理。這種模式既浪費了LLM本身作為知識庫的潛力,導致大量冗余檢索,又可能因錯誤外部知識覆蓋正確內部知識而產生有害沖突。

為此,需要IKEA——能智能劃定知識邊界,邊界內充分調用模型參數知識,邊界外精準啟動檢索機制。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA智能體通過三重創新實現這一目標(如上圖):

  • 智能提示模板:引導模型自主決策何時調用內部知識,何時啟動外部檢索
  • 邊界感知獎勵機制:包含答案準確性獎勵(r_ans)和知識邊界獎勵(r_kb),通過強化學習驅使模型明確認知自身能力邊界
  • 平衡訓練數據集:按1:1比例混合模型擅長的問題(Q_easy)與薄弱問題(Q_hard),避免訓練后出現"全盤檢索"或"拒絕檢索"的極端傾向

獎勵函數設計精要:

  • 格式錯誤直接扣分(R=-1)
  • 答案正確時(r_ans=1),獎勵隨檢索次數減少而線性增加,最高達r_kb+
  • 答案錯誤時(r_ans=0),零檢索得0分,啟動檢索則獲象征性獎勵r_kb-
  • 通過設定r_kb-?r_kb+,確保模型優先信任自身知識

數據構建采用上下文學習法:對每個問題采樣N次答案,至少一次正確則標記為Q_easy(模型已掌握),否則為Q_hard(需輔助)。如表1所示,這種均衡設計使Qwen2.5系列模型在保持精確匹配率(EM)的同時,顯著優化了檢索效率(RT)。

3. 效果如何

3.1 整體效果

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上圖分別呈現了實驗結果與訓練日志。簡單任務主要依賴模型已有知識,而困難任務往往需要突破知識邊界。

傳統基線方法難以協調內外知識:

  • "Direct"純靠內部知識
  • "RAG"和迭代檢索的"Iter-Retgen"則依賴外部知識

外部知識顯著提升LLM在知識密集型任務的表現,暴露出模型內部知識儲備的不足。但持續檢索會引發沖突與延遲,自適應方法IR-COT(自主決定檢索時機)和FLARE(基于低置信詞元觸發檢索)試圖解決該問題。

  • IR-COT雖提升困難任務表現,卻因知識沖突損害簡單任務;
  • FLARE因檢索次數過少,效果與"Direct"相當,證明詞元概率并非理想檢索觸發器。

關鍵結論在于:必須動態協同運用內外知識——夠用則內,不足則外。但未經調優的模型缺乏自主判斷能力。

強化學習基線成功激活了模型單獨運用內外知識的能力。僅用內部知識的R1通過強化知識表達,在簡單任務上表現突出,但對困難任務提升有限,印證外部知識的必要性。

能生成搜索查詢的Search-R1以更少檢索次數超越迭代檢索等方法,證明強化學習可增強外部知識獲取的規劃能力。但兩者都未能實現內外知識的有機融合。

IKEA實現了內外知識的自適應協同。在多輪決策中,模型可自由選擇知識來源。通過知識邊界感知獎勵機制:當內外知識均有效時,鼓勵優先使用內部知識以減少檢索;內部知識不足時,則觸發檢索獲取外部知識。

IKEA較R1性能提升超10%(主要來自困難任務),較Search-R1大幅減少檢索次數,表明模型通過自我探索學會了劃定知識邊界——邊界內充分調用參數化知識,邊界外有效利用檢索知識。這不僅規避了知識沖突,更提升了整體效率。值得注意的是,其在分布外數據集同樣表現優異,證明這種知識獲取策略具備良好泛化性。

IKEA訓練方法具有普適性。

  • 基于指令調優模型(Qwen2.5-7B-Instruct)的IKEA起點較高;
  • 從零開始的IKEA-Zero(Qwen2.5-3B-Base)雖初期獎勵較低,但最終都能達到相近水平,證實強化學習可實現無冷啟動的協同推理。

更大模型(7B vs 3B)收斂更快且效果更優。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

檢索次數與響應長度的變化曲線揭示:初期通過增加檢索探索知識邊界,后期逐步優化消除冗余。特別是IKEA-Zero的響應長度持續精簡,反映出其對無效冗余的持續優化。

3.2 消融實驗

以Qwen2.5-3B-Instruct模型為基礎開展消融實驗,全面驗證了所提方法的優越性。

3.3 獎勵機制的設計影響

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上圖展示了不同獎勵方案下的訓練數據對比,包含有效搜索量、響應長度及訓練獎勵的變化趨勢。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上表則呈現了最終測試結果。

  • 當移除知識邊界感知獎勵時,有效檢索次數和響應長度持續攀升,遠超基準模型。這是由于訓練初期,檢索行為比調用內部知識更容易獲得獎勵,梯度更新自然偏向抑制后者,最終形成"檢索至上"的決策偏好,與Search-R1策略如出一轍。
  • 在僅保留正向獎勵時,模型檢索頻率和響應長度驟減——因為獎勵機制過度鼓勵依賴內部知識,導致模型錯誤地將R1策略泛化到所有問題。

3.2 數據集難度的影響分析

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

上圖清晰呈現了不同難度訓練數據集的動態變化:有效搜索次數、響應長度和訓練獎勵的演變曲線。

IKEA:通過強化學習提高LLM檢索規劃效率(開源)-AI.x社區

通過對比簡單、混合、困難三種難度數據集的訓練過程(如上表),發現一個穩定規律:

無論是有效搜索次數還是響應長度,困難數據集的表現均優于混合數據集,而混合數據集又優于簡單數據集。

這是因為模型會智能地根據問題難度選擇知識調用方式——對熟悉領域使用參數化知識,對陌生領域則啟用檢索機制。

使用簡單數據集訓練時,模型的檢索頻率和響應長度會持續衰減,最終完全適配訓練數據的難度特征。經過難度調整的IKEA模型(無論是簡化版還是困難版),其精確匹配率都明顯遜色于原始模型。

其中簡化版的檢索頻次驟降,而困難版則檢索激增。

這一現象說明:過度依賴單一知識類型會制約模型潛能,只有讓參數化記憶與檢索知識珠聯璧合,才能實現最優的推理效果。

本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI

已于2025-5-20 09:31:40修改
收藏
回復
舉報
回復
相關推薦
国产探花视频在线| 男人插女人下面免费视频| www黄色网址| 亚洲国产裸拍裸体视频在线观看乱了中文| 精品免费国产一区二区三区四区| 草草视频在线免费观看| 日本福利在线观看| 美国av一区二区| 欧美xxxx做受欧美.88| 91porn在线| 免费福利视频一区二区三区| 国产精品午夜春色av| 亚洲精品日韩激情在线电影| 国产无遮挡又黄又爽又色| 亚洲资源网站| 91精品黄色片免费大全| 777精品久无码人妻蜜桃| 都市激情一区| 成人自拍视频在线| 国产精品男女猛烈高潮激情| 欧美日韩国产精品综合| 久久不见久久见国语| 宅男在线国产精品| 人妻精品无码一区二区三区| 老司机福利在线视频| 97se亚洲国产综合自在线观| 国产欧美精品在线| 青青国产在线观看| 欧美a级在线| 尤物九九久久国产精品的分类| 国产精品二区视频| 欧洲精品久久久久毛片完整版| 精品福利樱桃av导航| 国产免费一区二区三区四在线播放| 无码h黄肉3d动漫在线观看| 久久 天天综合| 日本中文字幕成人| 国产午夜小视频| 天天综合网91| 国产亚洲精品久久久久久牛牛| www.17c.com喷水少妇| 国产一区二区在线观| 91高清在线观看| 欧美女人性生活视频| 高清电影在线免费观看| 亚洲男人的天堂在线aⅴ视频| 日韩欧美亚洲区| 亚洲 欧美 精品| 白白色亚洲国产精品| 亚洲最大的网站| 在线免费观看一区二区| 日韩国产欧美在线观看| 性欧美长视频免费观看不卡| 亚洲综合网在线| 九九视频免费观看视频精品 | 日韩一区二区电影| 精品一卡二卡三卡| 丁香花在线观看完整版电影| 中文字幕五月欧美| 久久综合九色欧美狠狠| 丰满大乳国产精品| 国产又黄又大久久| 国产精品久久久久久网站 | 精品人妻无码一区二区三区蜜桃一| 西西裸体人体做爰大胆久久久| 欧美俄罗斯乱妇| www.毛片com| 久久精品久久久| 日韩在线视频国产| 911亚洲精选| 国产日韩中文在线中文字幕| 欧美日韩黄色一区二区| 最新中文字幕免费视频| 丰满诱人av在线播放| 亚洲高清视频在线| 日韩国产一级片| 国产三线在线| 亚洲国产成人va在线观看天堂| 丰满人妻一区二区三区53号| 成人日韩欧美| 一区二区三区蜜桃网| 国产一二三四五| 欧美另类极品| 成人欧美一区二区三区小说| 2025韩国大尺度电影| 国产精品va在线观看视色| 国产精品大尺度| 日本不卡一区二区三区四区| 日本电影在线观看网站| 亚洲三级理论片| 亚洲第一精品区| 日本动漫同人动漫在线观看| 性做久久久久久久免费看| 18禁网站免费无遮挡无码中文| 成人ssswww在线播放| 欧美性猛交xxxx乱大交极品| 黄色一级大片在线观看| 国产经典一区| 欧美高清性hdvideosex| 久久久久无码精品| 操欧美女人视频| 日韩精品在线看| 欧美人妻一区二区三区| 婷婷丁香综合| 久久久久亚洲精品成人网小说| 国产中文字字幕乱码无限| 亚洲综合激情| 茄子视频成人在线| 中文字字幕在线中文乱码| 国产精品综合av一区二区国产馆| 国产精品视频在线免费观看| 免费在线高清av| 国产精品久久福利| 国产美女永久无遮挡| 最新中文字幕在线播放| 欧美军同video69gay| 久久久精品人妻一区二区三区| 日韩精品社区| 少妇久久久久久| 国产亚洲精品码| 秋霞成人午夜伦在线观看| 亚洲一区二区中文| 欧美少妇另类| 亚洲欧美色一区| 日韩欧美猛交xxxxx无码| 手机看片久久| 日韩欧美一级二级三级久久久| 亚洲国产欧美视频| 亚洲综合中文| 国产z一区二区三区| 亚洲av无码一区二区三区dv| 久久先锋资源网| 裸体裸乳免费看| 裤袜国产欧美精品一区| 欧美电影免费提供在线观看| 人妻av无码一区二区三区| 欧美a级一区| 国产精品免费一区豆花| 亚州av在线播放| 亚洲六月丁香色婷婷综合久久| 四虎永久在线精品无码视频| 日韩色性视频| 中文字幕久久亚洲| 啦啦啦免费高清视频在线观看| 国产一区欧美一区| 午夜欧美性电影| 天堂av中文在线观看| 日韩午夜小视频| 日韩福利在线视频| 西西人体一区二区| 国产偷国产偷亚洲高清97cao| 求av网址在线观看| 欧美午夜电影在线播放| 少妇精品一区二区三区| 狠狠色丁香久久综合频道 | 亚洲天堂电影| 日韩久久精品一区| 999久久久国产| 奇米色777欧美一区二区| 国严精品久久久久久亚洲影视| 福利在线视频网站| 这里只有精品99re| www.xx日本| 日本免费新一区视频| 欧美精品久久| 国产美女高潮在线观看| 日韩风俗一区 二区| 亚欧洲精品在线视频| 粉嫩久久99精品久久久久久夜| 99精品一区二区三区的区别| 涩涩涩久久久成人精品| 在线日韩av观看| 一区二区三区麻豆| 国产农村妇女毛片精品久久麻豆| 成人在线免费播放视频| 精品一区二区三区的国产在线观看| 热99在线视频| 国产污视频在线| 在线观看一区日韩| 内射毛片内射国产夫妻| 欧美aaaaaa午夜精品| 亚洲精品一区二区毛豆| 日韩成人在线电影| 九九九久久久久久| 亚洲高清精品视频| 亚洲va韩国va欧美va| 精品人妻一区二区三区香蕉 | 日本少妇aaa| 精品在线一区二区| 成人免费在线视频播放| 欧美aaaaaaaa牛牛影院| 欧美亚洲在线观看| 自拍视频在线播放| 欧美电影一区二区| 妺妺窝人体色www婷婷| 成人性视频网站| 777久久久精品一区二区三区 | 欧美一级免费观看| 国语对白一区二区| 国产亚洲综合av| 色91精品久久久久久久久| 黄色在线一区| 欧美日韩精品免费观看| 成人在线观看免费视频| 欧美成人午夜激情| 亚洲AV第二区国产精品| 欧美日韩一区小说| 久久黄色免费视频| 久久综合九色综合欧美就去吻| 国产精品视频分类| 国产一区激情| 日韩三级电影| 久久久久久久久成人| 91av在线视频观看| 天堂а√在线资源在线| 亚洲成人在线视频播放| 亚洲男人第一av| 国产午夜精品一区二区三区视频| 在线观看免费的av| 亚洲视频www| 日本黄色播放器| 婷婷激情久久| 成人黄色在线播放| 亚洲美女炮图| 色综合色综合久久综合频道88| 久久免费看视频| 日韩精品一区在线| 伊人22222| 欧美日韩视频免费播放| 国产一区第一页| 99国产精品久久久| 日本高清免费观看| 日韩精品视频网| 男人插女人视频在线观看| 日韩欧美高清| 另类欧美小说| 超碰成人在线观看| 国产欧美一区二区三区久久人妖| 男人av在线播放| 欧美成人免费在线观看| 欧美成熟毛茸茸| 亚洲精品黄网在线观看| 国产情侣av在线| 欧美午夜宅男影院| 精品少妇一二三区| 亚洲欧美另类小说| 亚洲精品天堂网| 久久久久久久网| 国产 xxxx| 国产成人免费网站| 天天久久综合网| 久久精品99国产精品日本| 日本韩国欧美在线观看| 亚洲自拍偷拍网| 中文字幕一区二区三区四区五区人 | 亚洲女人被黑人巨大进入al| 欧美视频xxx| 欧美一区二区三区在| 这里只有精品6| 在线影院国内精品| 久久99国产综合精品免费| 亚洲福中文字幕伊人影院| 欧美卡一卡二卡三| 一区二区视频在线看| 熟女高潮一区二区三区| av一区二区三区黑人| 在线xxxxx| 成人午夜私人影院| 扒开伸进免费视频| av资源站一区| 日b视频在线观看| av不卡免费在线观看| av无码一区二区三区| 97久久超碰精品国产| 黄色性生活一级片| 99在线视频精品| 久久久久久久无码| 国产色一区二区| 战狼4完整免费观看在线播放版| 中文一区二区完整视频在线观看| 一本在线免费视频| 国产精品你懂的在线| 人人艹在线视频| 亚洲你懂的在线视频| 欧美亚洲日本在线| 亚洲超碰97人人做人人爱| 精品在线播放视频| 欧美日韩一区二区在线观看| 国产又粗又猛又色又| 日韩免费高清av| 欧美在线 | 亚洲| 日韩精品欧美国产精品忘忧草| 国产免费a∨片在线观看不卡| 中文字幕精品www乱入免费视频| 麻豆视频在线免费观看| 欧美黄网免费在线观看| 一区一区三区| 国产精品6699| 在线日韩成人| 久久久久久九九九九| 北条麻妃国产九九九精品小说| 亚洲国产精品女人| 国产日韩综合| 污污网站免费观看| 国产不卡在线视频| 蜜桃无码一区二区三区| 亚洲婷婷综合久久一本伊一区| 久久久久成人精品无码| 色老综合老女人久久久| 国产视频在线观看免费| 亚洲福利视频二区| 婷婷亚洲一区二区三区| 另类专区欧美制服同性| 亚洲欧美小说色综合小说一区| 国产原创欧美精品| 日本中文字幕在线一区| 亚洲视频欧美在线| 亚洲三级国产| 五月天av在线播放| av在线不卡网| 精品无码一区二区三区蜜臀| 五月天一区二区| 亚洲s码欧洲m码国产av| 欧美日韩亚洲综合| 五月婷婷伊人网| www.日韩系列| 亚洲人成午夜免电影费观看| 91香蕉亚洲精品| 怕怕欧美视频免费大全| 轻点好疼好大好爽视频| 精品在线一区二区| 黄色片网站免费| 天天爽夜夜爽夜夜爽精品视频| 国产伦精品一区二区三区视频痴汉| 日韩成人中文字幕在线观看| 91黄色在线| 国产精品国产亚洲伊人久久| www.国产精品一区| mm131午夜| 久久99九九99精品| 中文精品在线观看| 亚洲一区二区三区小说| 国产精品国产精品国产专区| 亚洲欧美精品伊人久久| 超级碰碰不卡在线视频| 91青青草免费观看| 91精品一区二区三区综合在线爱| 免费看国产黄色片| 中文一区在线播放| 日韩国产成人在线| 精品爽片免费看久久| av中文字幕在线看| 波多野结衣久草一区| 91精品电影| 亚洲男人天堂av在线| 久久久久国产一区二区三区四区 | 日本高清视频免费看| 久热精品视频在线免费观看| **国产精品| 综合色婷婷一区二区亚洲欧美国产| 老司机一区二区三区| 国产精品嫩草av| 亚洲国产日韩av| 国产情侣自拍小视频| 色在人av网站天堂精品| 国产美女亚洲精品7777| 中文字幕色一区二区| 久久精品国产精品青草| 日韩欧美在线视频播放| 精品婷婷伊人一区三区三| 成人h小游戏| 国产成人一区三区| 综合亚洲自拍| 92看片淫黄大片一级| 91蜜桃传媒精品久久久一区二区| 日韩欧美激情视频| 日韩经典第一页| 成人欧美大片| 欧美日韩综合另类| 久久综合亚州| 久久国产高清视频| 91精品国产免费| 日日夜夜天天综合入口| 国产高清一区视频| 日韩视频久久| 日韩人妻一区二区三区 | 日本免费一二三区| 精品一区二区三区电影| 韩日精品一区| 久久久久福利视频| 国产成+人+日韩+欧美+亚洲| 91精品国产乱码在线观看| 亚洲性生活视频在线观看| 日韩城人网站| 日韩成人三级视频| 久久久亚洲精品石原莉奈 | 亚洲国产国产亚洲一二三| 最近日本中文字幕| 在线精品视频免费观看| 中文字幕中文字幕在线十八区 |