精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力

發布于 2024-3-28 13:54
瀏覽
0收藏

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

論文標題:

PreAct: Predicting Future in ReAct Enhances Agent’s Planning Ability

論文鏈接:

??https://arxiv.org/abs/2402.11534??

代碼鏈接:

??https://github.com/Fu-Dayuan/PreAct??

01 概述

1.1 背景

大語言模型(LLM)已顯示出一定的規劃和決策能力。利用這種能力,ReAct 將環境信息和智能體(Agent)可執行的行動提供給大語言模型,就可以利用它確定當前狀態下需要執行的行動。

然而,ReAct 系統通常生成單一、直接的因果推理路徑,這限制了它在具有復雜因果關系的任務中的有效性。以 TOT、GOT 和 RAP 為代表的一系列推理指導范式,它們允許在每一步生成多種可能的行動,并根據多個環境反饋結果和選擇策略決定下一步路徑。

雖然這種方法提高了 agent 處理復雜因果關系的能力,但在真實世界的場景中,在同一情況下執行多個行動往往是不現實的。所以需要一種在每輪中僅生成一種行動但能夠處理多樣、復雜推理的智能體框架。

1.2 動機

處理預測與實際結果之間的差異往往有助于人們擴展思維過程和進行反思,從而促進推理朝著正確的方向發展。受科學研究的過程和任務導向對話中有關預測未來的研究成果的啟發,我們提出了一個將預測、推理和行動融為一體的 agent 推理框架——PreAct。

利用預測提供的信息,基于大語言模型的 agent 可以提供更多樣化、更具戰略導向性的推理,進而產生更有效的行動,幫助 agent 完成復雜的任務。

1.3 效果

我們在 AgentBench 中的 HH、OS、DB、LTP 等數據集上進行了大量的實驗,實驗表明 PreAct 在完成復雜任務方面優于 ReAct 方法,且可以與 Reflexion 結合,進一步增強 agent 的推理能力。

我們用不同數量的歷史預測對模型進行提示,發現歷史預測對 LLM 規劃有持續的正向影響。PreAct 和 ReAct 在單步推理上的差異表明,PreAct 在多樣性和戰略方向性方面確實比 ReAct 更有優勢。

02 方法

2.1 前置知識

2.1.1 Agent與Enviroment


動作  和觀察結果  構成了 agent 與環境交互的過程。對于處于步驟  的代理, agent 將根據歷史信息 、上次觀察結果  及其行動策略  采取動作。

決定要采取的動作后,agent 將在環境中執行動作,并通過環境策略  獲得新的觀察結果。對于 LLM 代理來說,它只能控制  和  的構建。因此,LLM agent 的目標就是設計出高效的  和 。


2.1.2 ReAct


ReAct 是一項面向 LLM agent 的開創性工作,它結合了思考 、行動  和觀察 。ReAct 使用  作為  和一組  作為 。利用 LLM 的規劃能力,ReAct agent可以探索環境并逐步解決問題。


2.1.3 Reflexion


Reflexion 是一種長時記憶策略,用于提高 agent 中  的質量。以 ReAct 的 Reflexion 為例,如果任務失敗,LLM 會被要求進行反思,比如 。一旦進行了反思, 就會更新為 。這種策略可以提示 LLM 一些信息,幫助它避免一些決策錯誤。


2.2 PreAct

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區


PreAct 的框架如圖 1 所示。它與 ReAct 有兩點不同:對于  部分,PreAct 會在每一步中要求 LLM 生成對未來觀察的預測和相應的應對措施 ,并根據預測觀察與實際觀測之間的差異提示 LLM 反思或改變其計劃方向。


通過這種提示,可以提高 LLM 所做計劃的多樣性和策略導向性。對于  部分,PreAct 會在其中添加對未來觀察的預測。雖然 PreAct 提高了 LLM 的思考和計劃能力,但還有兩個問題有待探究:


(1)PreAct 是否能與 Reflexion 結合使用并進一步提升效果?

(2)預測的效果是永久性的,還是只能影響下一輪?


基于這兩個問題,我們考慮了 3 種  模式:


1. 永久模式:所有預測都將保留在永久歷史中,如:

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

2. 即時模式: 只有最后一次預測會保留在即時歷史中,如:


簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

3. 反思模式:反射和所有預測都將保留在歷史記錄中,如:


簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

03 實驗

我們的實驗旨在解決以下研究問題(RQs)。

  1. 與 ReAct 相比,不同模式的 PreAct 在處理任務時是否表現得更好?
  2. PreAct 比 ReAct 能更好促進規劃的內在原因是什么?
  3. 歷史預測是否有助于持續提高規劃能力?

3.1 實驗設置

我們在 AgentBench 中的 HH、OS、DB 和 LTP4 4 個不同的子數據集上對 PreAct 進行了評估。我們使用 GPT3.5 和 GPT4 作為 agent 的 LLM。更多的實驗設置和所有提示詞都能在論文附錄中找到。

3.2 主要結果

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

表 1 列出了 PreAct 和 ReAct 在 Permanent 和 Reflexion 兩種不同設置下,在四個數據集上的性能表現。


在 HH 任務中,PreAct 比 ReAct 提高了約 20%。在 OS 和 DB 任務中,在 Permanent 設置下,PreAct 的平均性能相比 ReAct 分別提高了 12% 和 6%,在 Reflexion 設置下,Preact的性能相比同樣采取了 Reflexion 的 React 分別提高了 5% 和 8%。在 LTP 情景下,PreAct 的結果與僅 Act 的結果類似,這可能是由于 GPT 的安全機制導致其多次拒答,從而減少了有效的探索步驟。


總的來說,在大多數情況下,PreAct 都優于 ReAct,在某些指標上甚至超過了帶 Reflexion 的 React。此外,在 PreAct 的基礎上應用 Reflexion 還能持續提升模型性能。這表明,先驗任務信息和觀察預測可以共同提高 LLM 的規劃和決策能力。

3.3 內在原因分析

根據我們的假設,PreAct 可增強推理的多樣性和策略方向性,從而提高 LLM 的規劃能力。在本節中,我們將研究這兩個促進因素。


3.2.1 多樣性

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 2 展示了 PreAct 和 ReAct 在 HH、OS 和 DB 數據集上的多樣性比較。我們向 GPT-4 輸入了兩條包含思考和行動的軌跡,要求它在 0 到 100 的范圍內對每條軌跡打分。


圖表顯示,在任何給定的數據集上,至少有 45% 的實例顯示出 PreAct 的推理多樣性優于 ReAct,而相反的情況則不超過 34%。這表明,使用 PreAct 可以顯著提高推理多樣性,從而擴大推理空間,拓寬可能行動的范圍。


3.2.2 策略方向性


我們選擇 Alfworld 任務來分析策略方向性。對于每條軌跡的每一輪,我們都向模型提供 ground truth、截至本輪次的所有思考和行動,同時去除所有預測。然后,我們要求 GPT-4 對其策略方向性進行評分,分數范圍為-1 ~ 3。策略方向性的評價指標如下:

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

其中, 為樣本, 為一輪思考和行動, 為評分器。如表 2 所示,PreAct 的策略方向性得分比 ReAct 高出至少 20%。這表明 PreAct 在確定規劃方向方面更勝一籌。

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

3.2.3 相關性研究

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 5 顯示了在 HH 數據集上,多樣性、策略方向性和成功率之間的關系,揭示了成功率與這兩個指標之間的正相關關系。此外,策略方向性與成功率的相關系數分別為 99.8%(Dev)和 99.3%(Test),而多樣性與成功率的相關系數分別為 83.7%(Dev)和 91.2%(Test)。


3.2.4 案例分析

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 3 顯示了 PreAct 和 ReAct 在 DB 和 HH 數據集上的部分軌跡。雖然 PreAct 和 ReAct 在這兩個數據集的初始執行階段都出現了錯誤,但 PreAct 可以借助預測糾正錯誤,而 ReAct 則不能。


在 DB 數據集中,ReAct 和 PreAct 在第一輪中都使用了相同的錯誤列名。PreAct 通過驗證實際列名糾正了這一錯誤,而 ReAct 則反復使用了錯誤的列名。Pre Act 對查詢和更正列名的考慮反映了其推理的多樣性。


在 HH 任務中,ReAct 檢查完冰箱后,與冰箱內的物體進行了互動,這與任務無關,而 PreAct 則預測到了 "冰箱內沒有生菜 "的條件,并根據 Pred 3 中的預測結果,指導其在其他地方找到生菜,最終完成了任務。這種重新考量生菜的可能位置而不是繼續在冰箱附近尋找的決定表明,PreAct 具有更好的策略方向性。


3.2.5 歷史預測影響范圍

簡單卻有效的Agent推理框架:通過預測未來大幅提升智能體的規劃能力-AI.x社區

圖 4 展示了不同數量的預測歷史對 LLM 推理性能的影響。在 HH、OS 和 DB 數據集上進行的實驗表明,增加預測歷史的保留量可以提高成功率。


以 PreAct(GPT4)為例,3 種設置下任務的成功率在 HH 中分別為 66%、70%、74%;在 OS 中分別為 40.9%、42.3%、43.1%;在 DB 中分別為 50%、51%、51.3%。這些發現表明,歷史預測對模型的推理能力有持續的正向影響。然而,在 LTP 數據集上,更多的歷史數據會導致更高的拒答概率,進而導致永久模式下的 Preact 性能下降。

04 結論

本文中,我們介紹了一個簡單卻有效的 agent 推理框架——PreAct,它利用預測來增強規劃的多樣性和策略方向性,從而提高 agent 完成任務的能力。這種增強是持續性的,它獨立于 Reflexion,并將隨著歷史預測的積累而不斷提高。基于 PreAct 的研究結果,我們提出了兩個評估規劃的指標,這可能有助于在未來的工作中為強化學習設置過程級的獎勵函數,以訓練出更強大的 agent。


本文轉自 PaperWeekly ,作者:黃健釗、傅大源


原文鏈接:??https://mp.weixin.qq.com/s/1R_0Q57_vu9uGr_3j0Ozwg??

已于2024-3-28 13:55:23修改
收藏
回復
舉報
回復
相關推薦
蜜桃视频在线播放| 日本三级一区二区三区| 欧美国产不卡| 在线亚洲人成电影网站色www| 亚洲ai欧洲av| 国产成人精品亚洲精品色欲| 亚洲精品欧美| 中文字幕日韩视频| 91丨porny丨对白| 久久天堂av| 一区二区三区不卡视频在线观看 | 91在线国产福利| 国产精品免费福利| 久久精品一区二区三| 中文字幕伦av一区二区邻居| 56国语精品自产拍在线观看| 国内自拍在线观看| 99热国产在线| 欧美极品aⅴ影院| 成人午夜电影免费在线观看| 国产精品免费无遮挡无码永久视频| 亚洲精品久久| 亚洲色图综合网| 激情综合激情五月| 青青草国产一区二区三区| 欧美日韩国产黄| 蜜臀av.com| 国内精品在线视频| 成人国产视频在线观看| 成人福利在线视频| 四虎成人在线观看| 樱桃成人精品视频在线播放| 日韩网站在线观看| 美女脱光内衣内裤| 国产精品调教| 日韩一二在线观看| 老司机久久精品| 唐人社导航福利精品| 亚洲超碰精品一区二区| 日本高清视频免费在线观看| h视频在线观看免费| 91美女在线视频| 国产精品制服诱惑| 亚洲成a人片77777精品| 久久91精品国产91久久小草| 国产精品大片wwwwww| 五月天综合激情网| 在线精品在线| 久久久人成影片一区二区三区| 中国毛片直接看| 国产精品不卡| 俺去了亚洲欧美日韩| 在线看片中文字幕| 欧美精品一区二区三区精品| 亚洲女人天堂成人av在线| 精品视频站长推荐| 极品国产人妖chinesets亚洲人妖| 日韩欧美卡一卡二| 人妻精品久久久久中文字幕69| 国产资源一区| 欧美日韩成人综合天天影院 | 性感女国产在线| 五月天欧美精品| koreanbj精品视频一区| 欧美日韩国产观看视频| 精品日本高清在线播放| 干日本少妇首页| 在线日韩影院| 91福利视频网站| 向日葵污视频在线观看| 日韩av黄色| 欧美一区二区不卡视频| 无码人妻一区二区三区免费n鬼沢 久久久无码人妻精品无码 | 91丨九色丨丰满| 国产一区二区精品久久| 国产成人免费观看| 日本激情一区二区三区| 99v久久综合狠狠综合久久| 国产主播一区二区三区四区| 欧洲av在线播放| 久久综合网色—综合色88| 欧美日韩在线一二三| gogogo高清在线观看免费完整版| 国产精品麻豆一区二区| 久久人妻无码一区二区| 白浆视频在线观看| 欧美亚洲综合网| 久久综合在线观看| 精品国产导航| 中文字幕国产亚洲| 九九视频在线观看| 男人的天堂亚洲在线| 国产精品中文在线| 日韩一区免费视频| 中文字幕成人av| 国产成人艳妇aa视频在线| 中文字幕一区久| 欧美日韩免费高清一区色橹橹 | 一区二区中文字幕在线观看| 日韩精品视频免费专区在线播放| 丁香花五月婷婷| 欧美日韩国产综合网| 人人做人人澡人人爽欧美| 在线观看国产小视频| 高清视频一区二区| 水蜜桃一区二区三区| 天堂va在线| 在线免费亚洲电影| 精品无码av一区二区三区不卡| 最近国产精品视频| 欧美精品免费看| 伊人网中文字幕| aa级大片欧美| 色爽爽爽爽爽爽爽爽| 亚洲精品一区| 日韩欧美色电影| 国产精品酒店视频| 中日韩男男gay无套| 91免费在线视频| 国产尤物视频在线| 午夜精品一区在线观看| 亚洲一区二区三区观看| 国产一区二区区别| 97在线看福利| 午夜老司机福利| 18成人在线观看| 欧美国产日韩在线播放| 欧美日韩破处| 欧美精品国产精品日韩精品| 国产美女三级无套内谢| 国产精品日产欧美久久久久| 国产精品无码av在线播放| 午夜电影一区| 久久这里只有精品99| 中文字幕+乱码+中文字幕明步| 91美女福利视频| 亚洲熟妇无码一区二区三区| 精品午夜视频| 久久久国产一区| 艳妇乳肉豪妇荡乳av| 国产三级欧美三级日产三级99| 18禁网站免费无遮挡无码中文| 亚洲视频三区| 欧美华人在线视频| 精品人妻一区二区三区日产乱码| 最新国产成人在线观看| 久久久久xxxx| 国产精品不卡| 成人在线视频福利| 日本免费在线视频| 欧美三级一区二区| wwwww黄色| 欧美aaa在线| 亚洲精品欧美精品| 国产精品66| 久久精品电影一区二区| 91免费视频播放| 亚洲精品五月天| 美女被爆操网站| 精品999日本| 久久久久久久有限公司| jizz内谢中国亚洲jizz| 亚洲天堂开心观看| 中文字幕欧美在线观看| 国产精品成人一区二区三区夜夜夜 | 色屁屁一区二区| 成人在线观看免费高清| 黑人巨大精品欧美一区| 成人免费看片视频在线观看| 日韩中文字幕无砖| 午夜精品久久久久久久99黑人| 肉丝一区二区| 欧美性大战xxxxx久久久| 性少妇xx生活| 国产精品1区二区.| 僵尸世界大战2 在线播放| 天堂日韩电影| 国产精品久久国产精品99gif| 天天在线视频色| 欧美成人猛片aaaaaaa| 西西44rtwww国产精品| 国产天堂亚洲国产碰碰| 欧洲在线免费视频| 在线观看的日韩av| 日韩国产高清一区| 亚洲三级av| 国产精品27p| 最新黄网在线观看| 亚洲精品自在久久| 国产露脸国语对白在线| 亚洲成av人**亚洲成av**| 国产7777777| 国产成人午夜高潮毛片| 日韩欧美xxxx| 午夜精品999| 日本一区二区三区四区在线观看 | 国产精品毛片va一区二区三区| 性孕妇free特大另类| 日韩视频永久免费观看| 色噜噜在线播放| 欧美喷潮久久久xxxxx| 国产一级视频在线| 中文字幕欧美激情一区| 亚洲av无码专区在线播放中文| 日本va欧美va精品| 国产一区二区三区小说| 国产电影一区二区在线观看| 精品一区二区日本| 日韩在线观看一区二区三区| 国产精品盗摄久久久| 国产乱妇乱子在线播视频播放网站| 亚洲性生活视频在线观看| 亚洲第一成年人网站| 欧美在线一区二区三区| 国产一级在线观看视频| 亚洲视频一区二区在线| 波多野结衣a v在线| av在线一区二区三区| 国产美女视频免费看| 日韩中文字幕麻豆| 国产深夜男女无套内射| 午夜久久一区| 大地资源第二页在线观看高清版| 亚洲素人在线| 国产精品一区二区三区免费观看| av国产精品| 国产精品久在线观看| 中文字幕在线直播| 韩国一区二区电影| 日本无删减在线| 久久久国产在线视频| 男人天堂久久久| 国产亚洲精品美女久久久久| 黄色影院在线播放| 日韩精品中文字幕视频在线| 欧美 日韩 中文字幕| 日韩一区二区三区免费看| 国产精品久久777777换脸| 欧美日韩免费观看一区三区| 亚洲精品国产精品国自产网站按摩| 欧美日韩视频免费播放| 欧美一级视频免费观看| 天天爽夜夜爽夜夜爽精品视频| 国产第一页在线播放| 亚洲一区二区成人在线观看| 精品无码久久久久| 亚洲综合成人网| 精品无码av在线| 亚洲va天堂va国产va久| www.99re7.com| 亚洲高清免费视频| 1级黄色大片儿| 欧美日韩国产精品专区| 日韩经典在线观看| 欧美色xxxx| 久久久久久av无码免费看大片| 色婷婷久久久亚洲一区二区三区 | 欧美日本精品一区二区三区| 亚洲在线免费观看视频| 欧美日韩久久久| 99久久久国产精品无码网爆| 日韩一区二区在线观看视频| 亚洲精品成人电影| 日韩av影视综合网| 男人天堂资源在线| 亚洲一区二区久久久| 888av在线| 欧美二区在线播放| 三级在线观看视频| 国产精品毛片a∨一区二区三区|国| 日本久久一区| 99影视tv| 你懂的一区二区三区| 亚洲国产一区二区三区在线 | 国产av天堂无码一区二区三区| 午夜亚洲视频| 日韩一级理论片| 国产福利不卡视频| 亚洲国产精品成人综合久久久| 久久精品网站免费观看| 久久嫩草捆绑紧缚| 亚洲国产成人精品视频| 99成人精品视频| 欧美一级午夜免费电影| 日韩在线视频免费| 国产一区二区三区高清在线观看| lutube成人福利在线观看| 欧美老女人xx| gogo亚洲高清大胆美女人体| 91社区国产高清| 香蕉久久精品日日躁夜夜躁| 亚洲欧美日韩在线综合 | 午夜dv内射一区二区| 韩国毛片一区二区三区| 97人妻精品一区二区三区免 | 日韩av在线高清| 午夜视频在线看| 97久久精品视频| 亚洲高清国产拍精品26u| 国产一区免费在线观看| 国产精品成久久久久| 精品中文字幕av| 国产精品亚洲一区二区三区妖精 | 欧美主播福利视频| 精品国模一区二区三区欧美| 欧美重口乱码一区二区| 狠狠爱成人网| 午夜天堂在线视频| 久久久精品tv| 国产一级黄色av| 欧美日韩在线三级| 午夜在线视频免费| 欧美肥婆姓交大片| 四虎影视成人精品国库在线观看| 久久一区二区精品| 欧美日本一区| 在线视频一二区| 国产亲近乱来精品视频 | 欧美视频日韩视频在线观看| 免费国产黄色片| 欧美成人高清视频| 国产精品第一| 欧洲精品久久| 国产色综合网| 国产香蕉精品视频| 亚洲女爱视频在线| 91在线视频国产| 亚洲图片欧美午夜| 中日韩脚交footjobhd| 国产高清精品一区二区| 牛夜精品久久久久久久99黑人| 手机看片一级片| 日本一区二区三区在线不卡 | 3d动漫精品啪啪| 爱久久·www| 国产精品69久久| 国产免费久久| 日韩中文字幕组| 国产亚洲精品7777| 久久久久久久久久成人| 精品一区二区三区三区| caoporn视频在线| 国产精品二区三区四区| 亚洲无毛电影| 欧美激情一区二区三区p站| 亚洲综合色自拍一区| 性一交一乱一透一a级| 九九精品视频在线观看| 大胆国模一区二区三区| 91制片厂免费观看| 国产美女精品在线| 青草影院在线观看| 欧美第一区第二区| 欧美xxxx免费虐| 精品国产免费一区二区三区| 亚洲精品社区| 蜜桃传媒一区二区亚洲av| 一本色道亚洲精品aⅴ| 国产三级在线观看| 国产精品日韩欧美| 99精品综合| 欧美xxxx黑人| 午夜欧美在线一二页| 男人的天堂在线视频| 国产精品高清在线| 99精品视频在线观看免费播放 | 白嫩亚洲一区二区三区| 国产资源第一页| 99久久免费视频.com| 黄色一级视频免费看| 日韩中文字幕在线免费观看| 国产色99精品9i| 奇米影视亚洲色图| 久久九九久精品国产免费直播| 少妇一级淫片日本| 欧美成人精品xxx| 欧美电影完整版在线观看| 国产av人人夜夜澡人人爽| 国产精品国产三级国产普通话三级 | 国产91在线播放九色| 日韩精品一区二区三区视频播放 | 色网站免费在线观看| 亚洲自拍欧美色图| 999亚洲国产精| 极品人妻videosss人妻| 91精品国产综合久久国产大片| 黄网站在线观| 日韩不卡av| 粉嫩嫩av羞羞动漫久久久| www.av88| 欧美精品福利在线| 成人在线国产| 国产高潮视频在线观看| 精品视频一区 二区 三区| 黄页在线观看免费| 亚洲一区三区视频在线观看| 成人网男人的天堂| 亚洲天堂男人网| 91福利视频网| 影音先锋日韩精品|