精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

不靠更復雜的策略,僅憑和大模型訓練對齊,零樣本零經驗單LLM調用,成為網絡任務智能體新SOTA

人工智能 新聞
來自伊利諾伊大學香檳分校和亞馬遜的研究人員選擇和這些問題進一步對話。

網絡智能體旨在讓一切基于網絡功能的任務自動發生。比如你告訴智能體你的預算,它可以幫你預訂酒店。既擁有海量常識,又能做長期規劃的大語言模型(LLM),自然成為了智能體常用的基礎模塊。

于是上下文學習示例、任務技巧、多智能體協同、強化學習算法…… 一切適用于通用智能體的想法都搶著在大模型落地。

然而有一個問題始終橫亙在 LLM 和智能體之間:基于 LLM 的網絡智能體的行動 / 觀測空間與 LLM 訓練數據的空間相去甚遠。

智能體在充斥著具身行為的行動空間(如鼠標懸停、鍵盤組合鍵)和遍布前端功能強化、格式渲染的觀測空間下運作,大語言模型的理解和推理能力能充分發揮作用嗎?尤其是大語言模型的主要訓練任務是文本補全、問答和對齊人類偏好,這一點值得思考。

來自伊利諾伊大學香檳分校和亞馬遜的研究人員選擇和這些問題進一步對話。他們去除了上下文示例、技巧、多智能體系統,僅僅通過行動 / 觀測空間與 LLM 的訓練任務對齊。他們訓練的 AgentOccam 成為了零樣本基于 LLM 的網絡智能體新 Sota。

幫你寫email

幫你找導師

這正呼應了奧卡姆剃刀原則:「若無必要,勿增實體」。然而換個思考的角度,AgentOccam 的研究團隊也想發問:構建通用智能體時,在鋪設復雜的系統框架前,是否已經優化了行動 / 觀測空間,讓這些功能模塊達到了最優狀態?

圖片

  • 論文鏈接:https://arxiv.org/abs/2410.13825
  • 論文名:AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

背景及動機

某天你刷著短視頻,看中了主播手中拿著的商品。于是,你興致勃勃地對智能助手說:「我是學生,讓這個老板送我一張優惠券!」

隨后,智能體申請了你的私人賬號權限、后臺私信商家、繪聲繪色地寫下「我是學生」,發送消息,一套動作無需人為干預,行云流水......一切這樣的任務,再也不必動手,都有智能體代勞。

大語言模型是構建智能體的熱門選擇。過去,基于 LLM 的網絡智能體通常專注于讓智能體學會某種應用,比如構建上下文學習樣本、積累任務經驗與技巧、以及多智能體角色扮演等等。然而,在實際交互中,智能體的行動 / 觀測空間與 LLM 的技能點不太匹配,這之間的差距卻少有人研究。

于是,針對如何對齊基于 LLM 的網絡智能體的觀測和行動空間與其訓練期間學到的功能,來自伊利諾伊大學香檳分校和亞馬遜的研究人員們展開了研究。

網絡智能體需要準確地從格式各異、編碼腳本不一的網頁中提取信息,并在網頁上定義的動作(例如,鼠標滑輪滾動、點擊或懸停在按鈕上)中進行選擇。這些網絡觀測和行動空間在 LLM 的預訓練和后續訓練數據中都較為罕見,這阻礙了 LLM 充分調動潛能,完成任務。

因此,基于不讓智能體策略變得更復雜,而是讓智能體與 LLM 更加匹配的想法,由此構建的智能體得名 AgentOccam。

形式化與方法

該團隊通過部分可觀測的馬爾可夫決策過程(POMDP),將網絡交互過程形式化為:<O,S,A,P,R,p_0,γ>。

在 POMDP 中,觀測 o∈O 是智能體從網絡環境接收到的信息,例如 HTML,以及任何指令和提示。行動 a∈A 是網絡環境認可的動作指令。 

為解決 POMDP,常見目標是尋找策略圖片,最大化預期累積獎勵,其中 h_t 表示觀測歷史圖片。

在基于 LLM 的網絡智能體設計中,這等價于借助一個或多個基礎 LLM 策略 圖片

和一組算法模塊來設計策略圖片。

在這項工作中,該團隊專注于一類特殊的策略,可以表示為:圖片,其中 f 和 g 是處理觀測和行動空間的基于規則的函數,該團隊將其稱為「觀測和行動空間對齊問題」。

在這樣的問題設置下,接下來的所有更改僅應用于觀測和行動。值得注意的是,并非所有以往方法中的智能體策略都能以這種方式表示。

圖片

例如上表中,基于搜索的算法需要一個頂層控制程序來選擇行動并觸發回溯;帶有評估器、反思或記憶模塊的方法也需要一個管理中心來在主 LLM 和這些輔助模塊或其他角色扮演 LLM 之間切換。

不同于以往復雜化智能體策略,我們能否僅通過優化觀測和行動映射 f 和 g,使用基礎 LLM 策略 圖片 構建一個強大的網絡智能體?這是 AgentOccam 關注的問題。

圖片

如上圖所示,AgentOccam 包括三個組成部分:

  • 首先,減少非必要的網絡交互動作,讓智能體的具身和瑣碎互動需求達到最??;
  • 其次,消除冗余和不相關的網頁元素,并重構網頁內容塊,以獲取更簡潔但同樣信息豐富的表示,從而精煉觀察空間;
  • 最后,引入兩個規劃動作(分支和修剪),這使得智能體能夠以規劃樹結構自組織導航工作流,并使用相同結構過濾歷史步以進行回放。

整個框架通過一套適用于所有標記語言的通用規則來格式化網頁,無需依賴測試基準中的任務相關信息。

圖片

網絡智能體的行動空間規定了可以用來與網絡環境交互的有效命令。

研究團隊從智能體常見的失敗中得出總結:想要成功完成任務,需要編輯行動空間來解決兩個關鍵問題:第一,去除 LLM 難以理解且經常誤用的無關行動;第二,當執行任務需要規劃、嘗試多個潛在路徑時,要提高智能體的記憶和規劃能力。

為此,該團隊提出了對應的解決方法。第一個問題可以通過簡單地移除或合并操作來解決(如上圖中的步驟 1 和 2)。對于第二個問題,過去的研究通常依賴人工制定規則或任務技巧,但這些方法難以泛化。在本研究中,LLM 將自主生成計劃和管理任務流程(如步驟 3 所示)。

圖片

AgentOccam 的觀測空間(提示詞)包含了任務概述的通用指令、期望的輸出和可用操作說明,以及關于當前任務目標、智能體過去的交互記錄和最新的觀察信息。

過往互動和當前觀測的部分占據了最多的字符數。這主要歸因于兩個因素:單頁面的長度和歷史跨度的范圍,這是 AgentOccam 觀測空間的主要優化對象。

圖片

網頁標記語言主要用于前端加載和渲染,往往包含大量格式化字符,顯得冗余且重復(如上圖步驟 1 所示)。因此,此時的目標是優化這些表示方式,使得單頁內容對 LLMs 更加簡潔易讀。

將觀測歷史作為輸入,對于執行長程任務至關重要。因為一些關鍵信息可能不會顯示在當前頁面上。然而,觀測歷史也會顯著增加上下文長度,并增加推理難度以及推斷成本。

為了解決這個問題,設置僅選擇先前網頁上最重要和相關的信息,這一選擇依據兩個規則,分別基于關鍵節點和規劃樹,見于步驟 2 和 3。

結果

研究團隊在 WebArena 上評估了 AgentOccam 性能。WebArena 含有 812 項任務,橫跨網購、社交網站、軟件開發、在線商貿管理、地圖等。

測試對象為 AgentOccam 框架下的 GPT-4-Turbo。對比的基線包括:一、WebArena 隨配智能體,二、SteP,前 WebArena 上最優智能體,涵蓋 14 條人類專為 WebArena 任務編寫的技巧,三、多智能體協同方法 WebPilot;四、總結智能體交互經驗的工作 AWM。

圖片

從上表不難看出,AgentOccam 性能優于以往及同期工作。其中,AgentOccam 分別以 9.8(+29.4%)和 5.9(+15.8%)的絕對分數領先往期和同期工作,并且通過其觀測與行動空間的對齊,使得相似的基本網絡智能體的成功率提高了 26.6 點(+161%)。

圖片

圖片

圖片

圖片

消融實驗

逐模塊對比行動與觀測空間的對齊對最終結果的貢獻。從下表可以看出,行動空間對齊能使智能體完成更多 click、type 等引導環境變化的動作,觀測空間對齊則減少大模型調用的字符數與智能體完成任務所需的步數。

圖片

LLM-as-a-Judge 

研究團隊發現,智能體的決策行為波動性很強。簡而言之,面對一個目標,智能體有一定概率做出正確的行為決斷,但由于 token 預測的隨機性,它可能做出一些高成本、低回報的決定。這也導致它在后續步驟中難以糾正之前的錯誤而失敗。

例如,要求智能體在某個最相關的話題下發布帖子,單次 LLM 調用的 AgentOccam 往往輕率地選擇話題,未考慮「最相關」的要求。

為了解決此類問題,他們引導 AgentOccam 生成單步內所有可能的行動,這系列行動將交付另一個 Judge 智能體(同樣調用 GPT-4-turbo)決斷,做出最大化回報的選擇。

與復合策略結合使用

復合策略中,與任務相關的經驗可以提升智能體性能。同時,不因為加入了更多背景知識擾亂決策,不會影響泛化性,能夠糾正錯誤行為模式。

由于行為 / 觀測空間對齊和復合策略方法正交,因此能結合利用。該團隊試驗將 AgentOccam 與 1)SteP 和 2)上述的 LLM-as-a-Judge 方法聯合使用。

對于和前 SOTA 方法 SteP 聯合,由于它引入人類編寫的 WebArena 任務攻略,在經驗密集型任務,如購物網頁任務中,人類撰寫的引導性經驗大幅提升任務成功率。

而在常識泛化密集型任務,如社交網頁發帖任務中,不相關知識出現會錯誤擾亂智能體決策。對于 LLM-as-a-Judge 方法,Judge 角色的引入不影響智能體的泛化性,同時糾正了智能體倉促決策的錯誤行為模式,在 WebArena 上進一步提升 2.6 的絕對分數。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-06 11:25:50

2025-11-06 01:44:00

2025-02-07 10:10:05

MusicMagus擴散模型音樂編輯

2021-07-24 10:19:14

AI 數據克隆

2024-06-25 09:35:04

模型訓練

2024-11-18 08:40:00

2024-01-22 15:36:54

大語言模型人工智能

2024-09-20 09:37:31

2021-10-25 09:06:29

模型人工智能計算

2024-07-31 08:14:17

2025-02-08 11:12:34

ZAPS影像模型

2024-11-20 16:51:00

目標檢測模型

2023-02-24 10:22:15

2023-07-12 09:00:00

自動語音識別機器學習

2024-03-15 08:00:00

模型數據

2024-09-12 08:00:00

2021-09-13 17:20:01

大數據AI人工智能

2025-09-02 02:00:00

智能體多智能體協作AI安全

2025-07-31 08:40:00

AI模型智能體

2025-11-10 04:15:00

點贊
收藏

51CTO技術棧公眾號

深夜国产在线播放| 中文字幕在线播出| 亚洲ab电影| 色婷婷精品大在线视频| 亚洲欧洲另类精品久久综合| 中文字幕免费视频观看| 欧美不卡在线| 亚洲男人天堂2019| 九九热精品国产| 麻豆mv在线观看| 中文字幕av资源一区| 91久久国产自产拍夜夜嗨| 可以免费看的av毛片| 久久激情电影| 亚洲精品理论电影| 欧美激情第一区| 午夜影院在线播放| 亚洲天堂2014| 欧美日韩国产高清视频| av手机免费看| 日本va欧美va瓶| 欧美国产日韩免费| 成年人视频软件| 日韩av网站在线免费观看| 欧美一区三区二区| 欧美私人情侣网站| av电影院在线看| 中文字幕欧美一| 欧美在线一二三区| 日韩一级在线播放| 国产二区国产一区在线观看| 国产精品久久二区| 精品美女久久久久| 亚洲一级毛片| 亚洲网站在线看| 国产不卡一二三| 国产一区二区三区免费观看在线| 在线欧美小视频| a级黄色一级片| 五月天激情在线| 成人免费一区二区三区视频| 日本高清视频一区二区三区 | 97超碰人人在线| 91视频www| 国产精品自拍首页| 懂色av蜜臀av粉嫩av分享吧| 国产一区二区三区久久悠悠色av| 国产精品入口夜色视频大尺度| 久久国产视频精品| 亚洲神马久久| 午夜精品久久久久久久99黑人| 午夜69成人做爰视频| 91精品电影| 久久伊人免费视频| 午夜爽爽爽男女免费观看| 天天综合网网欲色| 美女精品视频一区| 五月天婷婷色综合| 真实国产乱子伦精品一区二区三区| 久久精品2019中文字幕| 国产视频精品免费| 一区二区日韩欧美| 欧美大片第1页| 91精品国产高潮对白| 在线视频观看日韩| 91av在线免费观看| 欧美超碰在线观看| 九色综合国产一区二区三区| 成人免费淫片aa视频免费| 国产精品久久久久久久久毛片| 久久99热99| 91九色露脸| 日本黄色一区二区三区| 91在线播放网址| 精品一区二区三区日本| 大胆av不用播放器在线播放| 国产清纯白嫩初高生在线观看91 | 久久亚洲在线| 久久高清视频免费| 欧美成人精品欧美一级乱黄| 免费在线成人| 国产日韩在线观看av| 精品人妻少妇AV无码专区| 成人av高清在线| 久热这里只精品99re8久 | 国产污视频网站| 精品写真视频在线观看| 国产精品久久久久久久久久久久午夜片| 风流少妇一区二区三区91| 91视频.com| 一区二区免费电影| segui88久久综合9999| 色av成人天堂桃色av| 亚洲理论中文字幕| 欧美男男freegayvideosroom| 国产香蕉97碰碰久久人人| 色哟哟一一国产精品| 在线日韩电影| 国产日产欧美a一级在线| 亚洲经典一区二区三区| 国产日韩精品视频一区| 无码人妻精品一区二区蜜桃百度| 亚洲黄色中文字幕| 欧美一级免费大片| 中文字幕国产综合| 女人香蕉久久**毛片精品| 欧美怡红院视频一区二区三区| 一级欧美一级日韩| 94色蜜桃网一区二区三区| 日本一区二区免费高清视频| 96av在线| 91精品国产乱码久久蜜臀| 精品人妻一区二区三区香蕉| 在线成人激情| 国产精品三级网站| 五月婷婷丁香六月| 一区二区在线看| 一本色道久久亚洲综合精品蜜桃 | 日本不卡一区二区| 国产一区二区免费在线观看| 精品麻豆一区二区三区| 色妞www精品视频| 69亚洲乱人伦| 亚洲天堂免费| 91久久国产精品| 免费av在线电影| 亚洲电影一区二区三区| 极品粉嫩美女露脸啪啪| 成人三级视频| 日韩av免费在线播放| 污污视频在线观看网站| 亚洲综合色噜噜狠狠| 中文字幕第66页| 日韩av专区| 国产精品成人观看视频国产奇米| 欧美一区二区黄片| 亚洲男帅同性gay1069| 欧美一级xxxx| 日韩免费一区| 国产精品福利无圣光在线一区| 四虎影院在线域名免费观看| 亚洲va韩国va欧美va精品| 日本黄色www| 伊人久久大香线| 亚洲已满18点击进入在线看片| 午夜免费播放观看在线视频| 欧美综合一区二区| 三年中国中文观看免费播放| 日韩中文字幕区一区有砖一区| 久久久久网址| 是的av在线| 亚洲男人的天堂在线| 日本视频免费观看| 亚洲国产精品精华液2区45| 欧美日韩在线成人| 欧美艳星介绍134位艳星| 国产精品视频999| 欧美日本高清| 91精品蜜臀在线一区尤物| 国产成人自拍网站| 国产寡妇亲子伦一区二区| 日韩精品一区二区免费| 国产三级精品三级在线观看国产| 97精品一区二区视频在线观看| 少妇荡乳情欲办公室456视频| 亚洲不卡一区二区三区| 中文字幕狠狠干| 日韩成人午夜精品| 在线成人性视频| 嫩呦国产一区二区三区av| 欧美高清在线观看| 四虎在线视频| 欧美日韩国产一二三| 裸体武打性艳史| 粉嫩aⅴ一区二区三区四区五区 | 波多野结衣在线播放| 日韩成人在线电影网| 中文字幕精品无| 国产精品大尺度| 麻豆tv在线观看| 日韩视频在线一区二区三区| 日韩av电影免费观看| 999精品视频在线观看| 久久久久久com| 久蕉依人在线视频| 777久久久精品| 日本一二三区视频| 国产亚洲精品资源在线26u| 制服丝袜中文字幕第一页| 亚洲黑丝一区二区| 亚洲v国产v| 91综合精品国产丝袜长腿久久| 欧美一区二区.| 麻豆网站在线看| 亚洲精品成人久久电影| 伊人久久成人网| 亚洲18色成人| 久久久久久久久久97| 不卡一区二区中文字幕| 我要看一级黄色大片| 欧美区国产区| 日韩中文字幕一区| 国产女人18毛片水真多18精品| 国产精品自拍偷拍| 国内激情视频在线观看| 精品国产视频在线| 青青视频在线观| 日韩一区二区不卡| 糖心vlog精品一区二区| 亚洲国产一区二区在线播放| 人成免费在线视频| av在线不卡免费看| 日韩欧美色视频| 日韩电影在线免费观看| 人妻久久久一区二区三区| 91精品高清| 亚洲不卡1区| 日韩三级av| 99久久久精品免费观看国产| 久久av影院| 亚洲91精品在线| 最新日本在线观看| 色琪琪综合男人的天堂aⅴ视频| 日韩在线视频观看免费| 91精品国产aⅴ一区二区| 中文人妻熟女乱又乱精品| 日韩欧美中文在线| 亚洲精品77777| 亚洲精品videosex极品| 性生交大片免费全黄| 国产色产综合色产在线视频| 日韩网站在线播放| 99久久久久久| 日本三级日本三级日本三级极| 激情五月婷婷综合| 一道本在线免费视频| 日韩成人一区二区三区在线观看| 日韩欧美精品在线观看视频| 99精品热6080yy久久| 久久久久久人妻一区二区三区| 亚洲字幕久久| 伊人久久在线观看| 中文字幕日韩一区二区不卡| 伊人av成人| 黄网站色视频免费观看| 精品美女一区| 国产91精品最新在线播放| 中文在线免费二区三区| 97婷婷大伊香蕉精品视频| 午夜影院免费在线| 欧美疯狂性受xxxxx另类| 色图在线观看| 久久6免费高清热精品| 50度灰在线| 色综合天天综合网国产成人网 | 欧美 日韩 国产在线观看| 国产一区日韩欧美| 精品丰满人妻无套内射| 亚洲高清毛片| 青青草视频在线免费播放 | 久久久精品欧美丰满| 在线免费观看麻豆| 日本一区二区三区四区| 911国产在线| 亚洲老司机在线| 精品国产乱码久久久久久鸭王1 | 久久免费视频播放| 亚洲国产日韩a在线播放| 久久久夜色精品| 亚洲国产精品欧美一二99| 国产无套内射又大又猛又粗又爽 | xxxxxxxxx欧美| 亚洲AV无码国产成人久久| 久久久精品一品道一区| 日本一道本视频| 综合中文字幕亚洲| 免费一级a毛片夜夜看| 五月开心婷婷久久| 337p粉嫩色噜噜噜大肥臀| 欧美日韩精品一区二区三区四区 | 日产欧产美韩系列久久99| 成人性视频欧美一区二区三区| 美腿丝袜一区二区三区| 古装做爰无遮挡三级聊斋艳谭| 成人免费黄色大片| 中文字幕有码在线播放| 亚洲你懂的在线视频| 男女啊啊啊视频| 欧美欧美午夜aⅴ在线观看| 超碰在线观看av| 亚洲精品永久免费精品| 日本成人网址| 2020久久国产精品| 国产精品欧美一区二区三区不卡| 国内精品国语自产拍在线观看| 国精一区二区| 成人国产在线看| 首页亚洲欧美制服丝腿| 亚洲av无一区二区三区久久| 91丨国产丨九色丨pron| 黄色录像一级片| 日韩欧美亚洲综合| 午夜精品久久久久久久96蜜桃 | 91精品视频网站| 伊人久久大香线蕉综合网蜜芽| 国产树林野战在线播放| 久久中文精品| 国产综合内射日韩久| 国产精品久久久久四虎| 国产欧美日韩另类| 欧美日韩一级二级| 四虎精品在永久在线观看| 色偷偷888欧美精品久久久 | 国产精品久久色| 精品五月天堂| 性做爰过程免费播放| 欧美aaaaaa午夜精品| 一出一进一爽一粗一大视频| 中文字幕一区二区三区色视频| 黄色在线观看国产| 亚洲精品一区二区在线观看| 日本中文字幕在线播放| 欧美制服第一页| 牛牛影视一区二区三区免费看| 手机在线视频你懂的| 天堂av在线一区| 一本色道综合久久欧美日韩精品| 亚洲精品免费一二三区| 亚洲在线免费观看视频| 亚洲人成伊人成综合网久久久 | 91国内在线播放| 国产夜色精品一区二区av| 日韩精品人妻中文字幕| 欧美成人一级视频| 91蜜桃在线视频| 成人激情视频网| 99精品综合| 污片在线免费看| 国产欧美日韩中文久久| 精品成人av一区二区在线播放| 精品国产乱码久久| 狂野欧美激情性xxxx欧美| 97碰碰视频| 欧美日韩免费| 国产精品偷伦视频免费观看了| 亚洲视频小说图片| 97超碰国产在线| 久久精品国产v日韩v亚洲| 国产精品麻豆成人av电影艾秋| 日韩中文一区二区三区| 日韩 欧美一区二区三区| 一级二级黄色片| 欧美日韩一区二区三区视频| 成a人v在线播放| 国产在线观看一区二区三区| 999精品在线| www.五月天色| 一级精品视频在线观看宜春院| 性生活视频软件| 欧美极品美女电影一区| 老牛影视av一区二区在线观看| av免费观看大全| 久久日韩粉嫩一区二区三区| 无码人妻av一区二区三区波多野| 亚洲性无码av在线| 99只有精品| 18视频在线观看娇喘| 国产成人三级在线观看| 国产主播在线播放| 亚洲精品视频中文字幕| av在线日韩| 自拍偷拍99| 成人天堂资源www在线| 久久久久久91亚洲精品中文字幕| 亚洲一二在线观看| 91成人短视频在线观看| 日本中文字幕在线视频观看| 99re视频这里只有精品| 青青视频在线免费观看| 久久激情视频久久| 极品国产人妖chinesets亚洲人妖 激情亚洲另类图片区小说区 | 国产香蕉久久精品综合网| 在线观看免费视频一区| 久久777国产线看观看精品| 久久大胆人体视频| 一区二区三区国产免费| 亚洲美女屁股眼交| 天天干天天舔天天射| 国产精品视频资源| 午夜精品电影| 国产高清一区二区三区四区| 91精品国产福利在线观看| 中文在线资源| 欧美一级黄色录像片| 99国产精品久久久久久久久久| 欧美一级黄视频| 久久人人爽人人| 日韩久久综合| 日韩精品视频一区二区| 在线成人av网站|