精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌DeepMind:大模型也很任性,知道最優路徑偏要撞南墻

人工智能 新聞
該研究對 LLM 常見的失敗模式貪婪性、頻率偏差和知 - 行差距,進行了深入研究。

大語言模型(LLMs)的成功激發了人們對各種智能體的興趣。將 LLM 用于智能體的一個關鍵假設是,LLMs 利用常識和思維鏈(Chain-of-Thought, CoT)進行推理,從而智能體可以有效地探索并高效地解決復雜領域的問題。

然而,LLM 智能體存在次優探索和知 - 行差距(knowing-doing gap)的問題,即無法有效地將模型中的知識轉化為行動。

本文,來自谷歌 DeepMind 的研究者系統地研究了為什么 LLM 在決策場景中表現次優的原因。特別是,本文深入研究了三種常見的失敗模式:貪婪性、頻率偏差和知 - 行差距。

在此基礎上,本文提出通過強化學習對自動生成的 CoT 推理過程進行微調,以緩解這些不足。實驗表明 RL 微調能有效提升 LLMs 的決策能力 —— 既增強了智能體探索性行為,又縮小了知 - 行差距。

圖片

  • 論文標題: LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities 
  • 論文地址:https://www.alphaxiv.org/abs/2504.16078

方法介紹

本文系統性地分析了中小規模 LLMs 存在的三種典型缺陷:貪婪性策略、頻率偏差以及知行差距。分析表明,由于 LLMs 過早陷入貪婪動作選擇策略,導致動作覆蓋率停滯(最高達 55% 未探索),最終性能持續低于最優水平。

具體而言,本文發現小規模 LLMs(2B)傾向于機械復制上下文中的高頻動作(無視其獎勵差異),這種現象被定義為頻率偏差。

相比之下,大規模 LLMs(27B)雖能顯著減弱頻率偏差,但依舊維持貪婪行為。

同樣值得注意的是,本文通過量化知 - 行差距發現:LLMs 雖能正確理解任務要求,卻因執著于貪婪動作而無法有效執行所知方案。

為克服這些缺陷,本文提出在自動生成思維鏈(CoT)推理的基礎上進行強化學習微調方法(RLFT)。

RLFT 方法依賴于從環境交互中獲得的獎勵,對自生成的 CoT 原理進行微調。在 RLFT 過程中,模型會學習迭代地優化其推理過程,從而傾向于選擇能夠帶來更高獎勵的 CoT 模式和動作(參見圖 1)。本文方法更專注于決策場景。

圖片

上下文表示:在步驟 t 時,輸入 Token 包括輸入指令圖片,輸出指令圖片和最近的交互歷史圖片。歷史表示包含最近 C 個狀態、動作和獎勵的軌跡圖片

微調目標:本文使用 Schulman 等人引入的裁剪目標進行微調,并對參考策略圖片進行額外的 KL 約束:

圖片

實驗結果

比較模型:實驗比較了 Gemma2 模型的三種尺寸大小:2B、9B 和 27B 。

環境:多臂老虎機(MAB,Multi-Armed Bandit)以及井字棋游戲。

圖片

為什么 LLM 在決策方面表現不佳?

先前的研究發現,LLM 智能體在交互環境中表現欠佳,且探索不足。因此,本文首先研究模型表現欠佳的原因,并確定了三種常見的故障模式:(1) 貪婪,(2) 頻率偏差,以及 (3) 知 - 行差距。發現三種故障模式在各個模型尺寸上均持續存在。

貪婪是第一個也是最普遍的故障模式,其特征是 LLM 過度偏向于迄今為止看到的一小部分操作中表現最佳的操作。為了說明這種故障模式,本文展示了 Gemma2 2B/9B/27B 在啟用和禁用 CoT 的情況下,在 64 個 MAB(包含 10 個和 20 個分支)上,并且在 50 個交互步驟中實現的平均操作覆蓋率(見圖 3 a 和 b)。

圖片

結果顯示模型過早地采用貪婪策略,導致動作覆蓋率在 10 步之后停滯不前。增加分支數量會使貪婪更加明顯,最大的模型僅覆蓋了所有動作的 45%。因此,盡管這些模型比隨機智能體有顯著改進(參見圖 3c),但與 UCB ( Upper-confidence Bound )相比,遺憾值仍然很高。

本文探索的下一個常見故障模式是頻率偏差,其特點是模型重復選擇上下文中出現頻率最高的動作,即使該動作的獎勵很低。

結果顯示,Gemma2 2B 嚴重受到重復動作的影響,隨著重復次數的增加,熵值不斷降低(見圖 4a)。相反,27B 模型擺脫了頻率偏差(見圖 4c)。事實上,對于 2B 來說,頻率偏差隨著重復次數的增加而不斷增加。雖然 27B 擺脫了頻率偏差,但它嚴重受到貪婪的影響。

圖片

知 - 行差距。智能體清楚地知道如何解決任務,所有推理中有 87% 是正確的(見圖 5)。然而,即使對于正確計算的推理,模型也經常會選擇貪婪動作(58%)而不是最優動作(21%)。這種差異凸顯了 LLM 在了解算法的情況下采取行動不一的缺陷。

圖片

RL 微調的有效性

接下來,本文研究 RLFT 對累積遺憾的影響(相對于最優策略),以及它是否能緩解這些故障模式。

結果顯示 RLFT 降低了遺憾值。在各種環境中,LLM 的表現明顯優于隨機基線,并且 RLFT 降低了 2B 和 9B 的遺憾值。

圖片

此外,RLFT 可緩解貪婪性,通過 RLFT,智能體學會了探索,從而緩解了貪婪性。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-02-27 09:48:30

谷歌模型

2024-04-07 14:48:00

模型訓練

2025-03-13 10:28:07

2022-08-22 15:47:48

谷歌模型

2024-06-14 08:36:57

2015-04-28 07:47:12

2024-04-22 12:22:15

2024-06-03 06:49:53

2015-11-24 09:45:00

谷歌重返中國

2023-09-21 10:29:01

AI模型

2023-10-17 12:34:04

2018-01-14 23:07:36

戴爾

2023-06-27 13:37:17

谷歌AI

2015-09-21 09:51:26

2022-06-06 10:58:52

訓練DeepMind研究

2013-07-22 15:36:48

谷歌秘密項目

2024-02-27 14:55:00

AI數據

2015-06-10 22:26:26

WPSHTML5

2025-01-07 08:40:00

視頻生成AI

2025-07-21 09:21:00

谷歌DeepMind模型
點贊
收藏

51CTO技術棧公眾號

日韩风俗一区 二区| 国产一本一道久久香蕉| 亚洲天堂免费在线| 蜜臀av免费观看| 国产成人l区| av电影天堂一区二区在线 | 国产三级国产精品| jvid一区二区三区| 亚洲国产精品天堂| 日韩精品一区二区三区色偷偷| 国产免费不卡视频| 亚洲一区二区网站| 另类视频在线观看| 国产精品无码一区二区三区| 国产精品一区二区精品| 欧美午夜精品久久久久久久| 美国av在线播放| 亚洲 国产 欧美 日韩| 久久99精品国产.久久久久 | 国产午夜精品无码| 久久国产中文字幕| 日韩高清人体午夜| 熟妇女人妻丰满少妇中文字幕| 不卡av播放| 成人激情电影在线| 亚洲网站视频| 亚洲图片在区色| 亚洲高清av一区二区三区| 九色porny自拍视频在线观看| 国产精品私人影院| 久久精品国产一区二区三区日韩| 99热这里只有精品在线观看| 中文字幕第20页| 99re在线视频| 91亚洲国产成人精品一区二三 | 奇米一区二区三区| 1769国产精品| 久久综合激情网| 国产韩国精品一区二区三区| 国产亚洲综合久久| 在线免费观看麻豆| 视频一区国产| 欧美一三区三区四区免费在线看| 国产精品乱码久久久久| 亚洲天堂导航| 亚洲国产综合在线| www.日本三级| 久久99亚洲网美利坚合众国| 亚洲欧美日韩小说| 小说区视频区图片区| 91caoporn在线| 中文字幕av一区二区三区高| 亚洲国产精品123| a视频网址在线观看| 国产日韩av一区| 日产精品一线二线三线芒果| 欧美色18zzzzxxxxx| 久久影院视频免费| 欧美日韩一区二区三| 可以在线观看的av| 久久夜色精品国产噜噜av| 久久久久久一区| 国产一级二级三级在线观看| 国产欧美一区二区精品性色 | 91视频一区| 日韩在线国产精品| 小泽玛利亚一区二区免费| 天天天综合网| 欧美精品在线视频观看| 欧美毛片在线观看| 99精品福利视频| 欧洲美女7788成人免费视频| 久久久久久无码午夜精品直播| 日韩精品一二区| 国产精品爽爽ⅴa在线观看| 亚洲香蕉在线视频| 日韩欧美专区在线| 亚洲午夜精品一区二区| 最新97超碰在线| 亚洲欧美日韩综合aⅴ视频| 91传媒免费视频| 2025韩国理伦片在线观看| 五月婷婷丁香网| 国产亚洲综合色| 午夜午夜精品一区二区三区文| 1pondo在线播放免费| 亚洲欧洲精品一区二区三区不卡| 50度灰在线观看| 男人天堂视频在线观看| 91成人在线免费观看| 亚洲精品性视频| 91蜜桃臀久久一区二区| 国产午夜精品理论片a级探花| 美女100%露胸无遮挡| 欧美1区免费| 欧美一级视频免费在线观看| 一区二区视频免费| 国产成人免费视频网站高清观看视频 | 日本午夜一区二区| 成人资源av| 国产精品99999| 一区二区三区在线视频观看58 | 极品销魂美女一区二区三区| 国产精品久久久久久久小唯西川| 国产69精品久久app免费版| 亚洲精品视频在线| 99免费视频观看| 天堂va在线高清一区| 亚洲人成在线一二| 久久久久香蕉视频| 蜜芽一区二区三区| 精品日本一区二区三区在线观看| 久久精品视频观看| 日韩欧美一区二区三区久久| 国产探花一区二区三区| 成人女性视频| 国产精品成人3p一区二区三区 | 亚洲精品国产视频| 麻豆国产在线| 亚洲免费在线视频| 日韩av一二三四区| 日本三日本三级少妇三级66| 污污在线观看| 日本高清不卡视频| 四虎永久免费观看| 欧美电影三区| 国产99久久精品一区二区| 粉嫩小泬无遮挡久久久久久| 国产精品传媒入口麻豆| 91看片就是不一样| 国产乱论精品| 欧美国产日本高清在线 | 怡红院av在线| 欧美日韩卡一卡二| 国产综合精品久久久久成人av| 日韩午夜一区| 福利视频久久| 香蕉久久aⅴ一区二区三区| 欧美日韩国产一区| 高清国产在线观看| 久久午夜av| 免费在线国产精品| 欧美a级在线观看| 亚洲成人在线网| 黄色一级视频免费| 国产剧情一区在线| 国内外成人激情免费视频| 亚洲精品aaa| 搡老女人一区二区三区视频tv| 欧美超碰在线观看| 国产日韩亚洲欧美综合| 乱人伦xxxx国语对白| 中文字幕在线播| 黑色丝袜福利片av久久| 色综合天天狠天天透天天伊人| 国产又黄又大又爽| 亚洲精品你懂的| 色一情一区二区| 国产精品久久久久久影院8一贰佰| 国产精品久久久久久亚洲影视 | 2021中文字幕一区亚洲| 日本欧美视频在线观看| 高清精品xnxxcom| 国内揄拍国内精品| 性感美女视频一二三| 色婷婷激情一区二区三区| 美女被到爽高潮视频| 美洲天堂一区二卡三卡四卡视频| 亚洲午夜在线观看| 欧美激情三级| 韩国三级电影久久久久久| 日本高清视频免费观看| 色综合久久综合网欧美综合网| 午夜时刻免费入口| 精品系列免费在线观看| 黄色成人在线免费观看| 国产精品网址| 日韩美女在线播放| 黄视频在线观看网站| 日韩精品一区国产麻豆| 成年人视频在线免费看| 国产精品三级在线观看| 熟妇女人妻丰满少妇中文字幕| 亚洲国产婷婷| 亚洲欧美日本国产有色 | 国产日韩亚洲| 午夜精品一区二区在线观看| 国产精品日韩精品在线播放| 69视频在线播放| 丁香在线视频| 日韩一区二区精品在线观看| 国产手机在线视频| 国产精品乱码一区二区三区软件 | 国产精品超碰| 国产精品免费一区| 欧美在线日韩精品| 久久青青视频| 久久色在线播放| 婷婷丁香一区二区三区| 北岛玲heyzo一区二区| 日韩视频免费直播| 免费视频久久久| 亚洲激情图片qvod| 精品无人区无码乱码毛片国产| 精品一区二区三区免费观看 | 亚洲AV无码国产精品| 狠狠色丁香婷综合久久| 91视频 -- 69xx| 亚洲国产一区二区三区在线播放| 欧美精品二区三区四区免费看视频 | 亚洲成人一区| 色综合666| 日本欧美高清| 高清av免费一区中文字幕| 久久精品超碰| 日本欧美中文字幕| www.综合网.com| 日韩天堂在线视频| 男人的天堂在线视频| 精品精品欲导航| 国产又黄又粗又长| 欧美视频在线一区| 中文字幕视频网站| 亚洲成a人v欧美综合天堂下载| 美国黄色片视频| 国产亚洲精品福利| 久久久久久久久久久国产精品| 高清日韩电视剧大全免费| 久久婷婷中文字幕| 蜜桃传媒麻豆第一区在线观看| 日本久久久精品视频| 亚洲黄色天堂| 久久久久久久9| 欧美黄色一级视频| 日韩精品一区二区三区电影| 久久在线视频免费观看| 亚洲国产精品久久久久久女王| 激情综合网五月| 欧美一区少妇| 少妇人妻好深好紧精品无码| 视频一区视频二区在线观看| 成人在线免费在线观看| 国产日韩免费| 欧美日韩在线视频一区二区三区| 精品999成人| 成人免费观看在线| 亚洲激情二区| 尤物av无码色av无码| 亚洲一区激情| 99热成人精品热久久66| 久久一区欧美| 韩国日本美国免费毛片| 日韩精品乱码av一区二区| 色婷婷综合久久久久中文字幕 | 欧美黄色片视频| 性网站在线观看| 欧美日韩国产第一页| 丁香花在线影院| 久久频这里精品99香蕉| 末成年女av片一区二区下载| 热久久这里只有精品| 欧美精品总汇| 国产一区二区在线免费| 精品视频国内| 91福利入口| 老牛精品亚洲成av人片| 秋霞毛片久久久久久久久| 成人久久一区| 国产盗摄视频在线观看| 在线成人黄色| 亚洲国产精品久久久久爰色欲| 日韩和欧美一区二区三区| 天天干天天草天天| 国产激情视频一区二区三区欧美| 丰满少妇中文字幕| 99精品久久99久久久久| 国产伦理片在线观看| 亚洲欧美日韩综合aⅴ视频| 日韩av女优在线观看| 91成人在线精品| 国产成人精品a视频| 亚洲精品大尺度| 阿v免费在线观看| 欧美成年人在线观看| 欧美一级鲁丝片| 国产精品久久久久久一区二区| 欧美专区视频| 农村寡妇一区二区三区| 亚洲色图插插| 2022亚洲天堂| 国产一区二区女| 日韩乱码人妻无码中文字幕久久| 中文字幕日本不卡| 亚洲欧美在线视频免费| 欧美美女一区二区三区| 熟妇人妻av无码一区二区三区| 一本色道久久88精品综合| 性直播体位视频在线观看| 国产精品99久久久久久www| 亚洲啊v在线免费视频| 色狠狠久久av五月综合| 亚洲区第一页| 欧美视频亚洲图片| 91亚洲精品一区二区乱码| 国产人妻精品一区二区三区不卡 | 在线观看国产一区二区三区| 欧美精品一区二区三区一线天视频| 国产裸舞福利在线视频合集| 欧美久久精品午夜青青大伊人| 快播电影网址老女人久久| 国产精品免费区二区三区观看| 日韩精品水蜜桃| 成人一级片网站| 成人免费高清在线| 全网免费在线播放视频入口 | 亚洲四区在线观看| 久久久精品视频网站| 欧美mv日韩mv国产网站| 午夜免费播放观看在线视频| 91高清视频免费观看| 2023国产精华国产精品| 一区二区不卡在线观看| 亚洲欧美激情诱惑| 日本精品一二三| 亚洲人成网站精品片在线观看| 国产一级精品毛片| 亚洲欧美日韩精品久久亚洲区| 不卡av免费观看| 亚洲xxxx3d| 亚洲一级淫片| 日本中文字幕观看| 国产精品理论片| 香蕉污视频在线观看| 日韩精品中文字幕在线播放| 91豆花视频在线播放| 97久久天天综合色天天综合色hd| 99成人超碰| www.久久久精品| 欧美极品aⅴ影院| 成人免费一区二区三区| 在线观看精品自拍私拍| 亚洲人免费短视频| 日本不卡一区二区三区在线观看| 国产精品毛片| aaaaaav| 黑人巨大精品欧美一区二区免费 | 中文字幕无线精品亚洲乱码一区 | 日韩高清在线不卡| 一区二区三区伦理片| 在线看国产一区二区| 福利片在线观看| 国产精品青草久久久久福利99| 国产一区二区精品久| 嫩草av久久伊人妇女超级a| 中文字幕av一区二区三区高 | 国产伦理精品不卡| 免费视频网站www| 精品国产欧美一区二区| 精精国产xxxx视频在线野外| 蜜桃传媒视频麻豆第一区免费观看| 久久久久久黄| 亚洲不卡的av| 日韩无一区二区| 免费看男女www网站入口在线| 免费观看国产成人| 美女一区二区视频| 国产人妻精品一区二区三区不卡| 欧美成人精品福利| 天堂√中文最新版在线| 日韩激情久久| 国产一区啦啦啦在线观看| 国产在线综合网| 亚洲久久久久久久久久久| 成人国产激情在线| 2025韩国大尺度电影| 风间由美一区二区三区在线观看| 欧美一级视频免费观看| 在线观看亚洲视频| 韩国一区二区三区视频| 久久久久久久中文| 国产精品日产欧美久久久久| 国产三级小视频| 97成人精品区在线播放| 日本大胆欧美| 少妇熟女视频一区二区三区 | 久久久久久亚洲精品不卡| 激情五月综合| 男人女人拔萝卜视频| 日韩欧美第一页| 国产鲁鲁视频在线观看特色| 国产在线精品一区二区中文 | av中文字幕在线| 999视频在线观看| 久久久999| 久久免费小视频| 国产一区二区三区中文| 91精品入口| 亚洲免费看av| 欧美日韩黄色大片| 免费黄色网址在线观看|