精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

阿里發布信息檢索Agent,可自主上網查資料,GAIA基準超越GPT-4o

人工智能 新聞
阿里發布WebDancer,就像它的名字一樣,為“網絡舞臺”而生。

Agent能“看懂網頁”,像人類一樣上網?

阿里發布WebDancer,就像它的名字一樣,為“網絡舞臺”而生。

只要輸入指令,它就可以幫你上網搜索、做攻略,實現自主信息檢索代理和類似深度研究模型的推理。

傳統模型只能按固定流程思考,而WebDancer作為一個端到端的自主信息搜索智能體,具備多步推理、工具使用和泛化能力。

圖片

WebDancer在GAIA和WebWalkerQA上分別取得了61.1%和54.6%的Pass@3分數,優于基線模型和部分開源框架。

模型和方法均已開源,網友直呼想試:

圖片

WebDancer的秘密武器

不同于其它的推理問答模型,WebDancer要像人類一樣思考、理解并操作,可不是一件簡單的事情。

使用GAIA、WebWalkerQA和日常使用情況對WebDancer進行演示,可以看到,WebDancer能夠執行多步驟和復雜推理的長期任務,例如網頁遍歷、信息搜索和問答。

它的“秘密武器”是一種四階段訓練范式,包括瀏覽數據構建、軌跡采樣、針對有效冷啟動的監督微調以及用于改進泛化能力的強化學習。

阿里開源了這個訓練框架,使除了WebDancer以外的智能代理也能夠自主獲取自主搜索和推理技能:

1、瀏覽數據構建

圖片

這一步的目標是創建覆蓋真實的網頁環境、需要多步交互的復雜QA對。

可以分為兩個網絡數據生成流程,如上圖所示。

在CRAWLQA中,需要先收集知識性網站(ArXiv、GitHub、Wiki等)的主URL,然后在主頁上系統地點擊和收集通過子鏈接可訪問的子頁面,模擬人類行為。

使用預定義規則,就可以利用GPT4o根據收集到的信息生成QA對(1.0版)了。

對于E2HQA(Easy-to-Hard QA)來說,將初始的簡單問題Q1通過實體檢索→信息擴展→問題重構的步驟,使任務在復雜性上逐步擴展,從簡單的實例到更具挑戰性的實例。

依然是使用GPT-4o重寫問題,直到迭代達到n,QA對足夠成熟。

2、軌跡采樣

圖片

這一步要從QA對中生成高質量的思維-動作-觀察(Thought-Action-Observation)執行軌跡。

WebDancer的代理框架基于ReAct,這是語言代理最流行的方法,一個ReAct軌跡由多個思維-動作-觀察輪次組成:

在思維階段,模型會根據輸入生成推理鏈,然后在動作階段將參數為結構化JSON,最后在觀察階段返回結果(如網頁摘要或搜索片段)。

思維階段生成的思維鏈對智能體執行十分重要,WebDancer采用了雙路徑采樣的方法,可分為短思維鏈和長思維鏈兩條路徑:

  • 短思維鏈適用于單步驟任務,直接使用GPT-4o生成簡潔軌跡;
  • 長思維鏈適用于多步驟任務,使用專用推理模型(LRMs、QwQ-Plus)生成帶長鏈推理的軌跡。

因為LRM、QwQ-Plus在訓練過程中沒有接觸過多步推理輸入,在進一步推理時,WebDancer排除了之前的思維,但它們作為有價值的監督信號保留在了生成的軌跡中。

隨后,WebDancer采用了一個基于漏斗的三階段軌跡過濾框架,僅保留滿足以下三個標準的軌跡:信息非冗余、目標一致性以及邏輯推理準確性。

3、有監督微調

圖片

在獲得ReAct格式的優質軌跡后,就可以將其無縫整合到智能體的有監督微調(Supervised Fine-Tuning,SFT)訓練階段,這個步驟可以教會模型基礎的任務分解與工具調用能力,同時盡可能保留其原有的推理能力。

在SFT階段,要先將軌跡轉換為標記化輸入,明確分隔符,然后計算Thought和Action部分的損失(忽略Observation噪聲),損失公式如下:

其中tc是任務上下文,為完整的智能體執行軌跡,每個代表思考/行動/觀察,過濾掉對應外部反饋的標記,確保損失是在代理的自主決策步驟上計算的。

SFT階段為后續的RL階段提供了強大的初始化。

4、強化學習

這一步的目標是優化代理在真實網絡環境中的決策能力和泛化能力。

在SFT階段的基礎上,本階段采用解耦裁剪動態采樣策略優化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)來精調策略模型。

DAPO是一種基于獎勵模型R的策略優化算法,其工作原理如下:

首先,對于每個包含部分答案的階段軌跡,算法生成一組候選執行序列。通過最大化以下目標更新策略:

隨后,過采樣并過濾準確率為1或0的提示(prompts),確保智能體聚焦于高質量信號的學習。

最后,采用新舊策略的概率比替代固定KL懲罰項:

獎勵設計在RL訓練過程中起著至關重要的作用,WebDancer的獎勵機制主要由兩種類型的獎勵組成,分別為格式獎勵和答案獎勵,權重分別為0.1和0.9。

最終獎勵函數為:

有效性分析

圖片

在GAIA和WebWalkerQA這兩個成熟的基準數據集上測試WebDancer,結果顯示,WebDancer在GAIA上達到46.6%的平均準確率,WebWalkerQA上達到43.2%,優于基線模型和部分開源智能體框架。

可以看到,不具備代理能力的框架(No Agency)在GAIA和WebWalkerQA基準測試中均表現不佳,這突出了主動信息搜索和代理決策對于這些任務的重要性。

閉源代理系統OpenAI DR通過端到端強化學習訓練實現了最高分,在開源框架中,基于原生強推理模型(如QwQ-32B)構建的代理方法始終優于非代理對應方法,證明了在代理構建中利用推理專用模型的有效性。

在兩個更具挑戰性的數據集BrowseComp(英文)和BrowseComp-zh(中文)上測試WebDancer,均表現出持續強勁的性能,突顯了其在處理困難推理和信息搜索任務中的魯棒性和有效性。

鑒于智能體環境的動態性和復雜性,以及GAIA測試集相對較小且變化較大的特點,對Pass@3和Cons@3進行細粒度分析。

值得注意的是,經過RL后的Pass@1性能與SFT基線的Pass@3相當,表明RL能夠更有效地采樣正確響應。

對于語言推理模型(LRMs),雖然經過RL后Pass@1、Pass@3或Cons@3沒有顯著提升,但在一致性方面有明顯的改善;這可能是過長軌跡導致的稀疏獎勵信號所致。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-27 12:45:30

2024-08-30 14:35:00

2025-06-06 14:17:11

模型訓練AI

2024-11-26 14:30:00

模型數據

2025-08-07 14:05:40

OpenAI大模型開源

2025-06-04 09:05:18

2024-06-21 09:51:17

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-05-20 08:20:00

OpenAI模型

2024-06-28 18:13:05

2024-12-18 13:24:30

谷歌AI大語言模型

2024-08-08 14:27:29

2024-05-14 11:29:15

2025-07-07 09:05:00

AI數據模型

2024-08-02 14:58:00

2024-06-21 13:04:43

2024-05-24 14:04:04

2025-01-06 13:15:02

2025-04-08 02:26:00

點贊
收藏

51CTO技術棧公眾號

久久国产精品影院| 国产免费成人在线| 日本高清视频在线| 日韩av在线发布| 色综合伊人色综合网| 免费黄色在线播放| 日韩另类视频| 亚洲成av人综合在线观看| 日韩区国产区| 神马久久久久久久久久| 日韩成人av影视| 午夜精品久久17c| 青青青视频在线免费观看| 亚洲码欧美码一区二区三区| 色婷婷av一区| 17c丨国产丨精品视频| √新版天堂资源在线资源| 国产白丝精品91爽爽久久| 国产xxx69麻豆国语对白| 91视频免费在线看| 日本不卡二三区| 亚洲精品视频免费| 国产吃瓜黑料一区二区| 欧美亚洲综合视频| 日韩欧亚中文在线| 日本手机在线视频| av片在线观看永久免费| 国产精品视频一二| 欧美日韩免费高清| 亚洲色图另类小说| 处破女av一区二区| 亚洲综合最新在线| 国产免费一区二区三区最新不卡| 久久激情婷婷| 欧美一区二区三区精品电影| 国产午夜精品无码一区二区| 天天插综合网| 三级精品视频久久久久| 成都免费高清电影| 天堂av一区二区三区在线播放| 精品久久久久久久久久久院品网 | 成人影视免费观看| 国产精品网在线观看| 日韩女优毛片在线| 在线观看视频你懂得| 国产视频一区二区在线播放| 精品视频1区2区| 污污网站免费看| 激情中国色综合| 欧美午夜精品一区二区三区| 亚洲精品视频导航| 男人天堂久久| 7777精品伊人久久久大香线蕉超级流畅 | 国产欧美亚洲日本| 无码h黄肉3d动漫在线观看| a级高清视频欧美日韩| 国产一区二区三区无遮挡| 可以免费观看的毛片| 成人免费高清在线| 久久精品成人一区二区三区蜜臀 | 国产免费一级视频| 日韩激情一二三区| 国产日韩欧美日韩| av加勒比在线| 成人一区二区三区| 久久久久久艹| h网站视频在线观看| 成人欧美一区二区三区视频网页 | 美腿丝袜亚洲色图| 国产中文日韩欧美| 亚洲成人精品女人久久久| 成人免费毛片嘿嘿连载视频| 久久久久久久久久久一区| 黑人与亚洲人色ⅹvideos| 国产精品色噜噜| 欧洲金发美女大战黑人| bbw在线视频| 色婷婷一区二区三区四区| 手机在线看福利| 日韩精品一区二区三区中文| 亚洲大胆人体在线| 永久免费毛片在线观看| 久久精品青草| 久久久久五月天| 成人免费视频国产免费| 狠狠色狠狠色合久久伊人| 国产一区免费| 日本中文在线观看| 亚洲成a人片在线观看中文| 激情五月亚洲色图| 久久一级大片| 国产午夜精品一区二区三区 | 欧美日韩天堂| 国产不卡av在线| 亚洲AV无码精品国产| 久久久91精品国产一区二区精品 | 日韩高清av| 欧美videosex性欧美黑吊| 欧美日韩一区二区三区| 亚洲精品在线视频播放| 西野翔中文久久精品国产| 美女少妇精品视频| 亚洲av无码不卡| av电影一区二区| 久久精品国产精品亚洲精品色| 国产福利电影在线播放| 67194成人在线观看| 国产色视频一区二区三区qq号| 图片小说视频色综合| 欧美最猛性xxxx| 亚洲成人中文字幕在线| 中文子幕无线码一区tr| 国产成人黄色片| 综合中文字幕| 久久网福利资源网站| 中文字幕在线播| 成人国产精品免费观看视频| 一级黄色录像免费看| 成人自拍av| 精品调教chinesegay| 激情小说中文字幕| 国产一区高清在线| 亚洲高清在线观看一区| 涩涩视频网站在线观看| 精品黑人一区二区三区久久| 国产白丝一区二区三区| 日韩精品免费视频人成| 久久精品美女| 免费h在线看| 亚洲国产免费av| 久久精品99国产精| 国产成人av电影| 久久久久亚洲av无码专区喷水| 91精品国产经典在线观看| 亚洲一区二区福利| 日韩精品成人免费观看视频| 99re热视频这里只精品| 秋霞无码一区二区| 欧美性生活一级片| 97色在线视频| 天天干天天舔天天射| 亚洲国产日韩一区二区| 五月天丁香社区| 亚洲视频高清| 国产欧美日本在线| 九色porny丨国产首页在线| 欧美精品一区二区三区一线天视频| 中文字幕另类日韩欧美亚洲嫩草| 久久er精品视频| 中文字幕一区二区三区有限公司| 亚洲色图图片| 久久成人亚洲精品| 亚洲AV无码一区二区三区少妇 | 亚洲精品国产精品乱码| 成人av在线资源网站| 无码人妻丰满熟妇区96| 蜜桃精品wwwmitaows| 亚洲清纯自拍| 精品乱色一区二区中文字幕| 后进极品白嫩翘臀在线播放| 精品国产乱码久久久久久1区2区| 国产亚洲精品成人| 91丨porny丨中文| 国产精品久久久久9999小说| 欧美日韩国产高清电影| 成人网在线观看| 国产盗摄一区二区| 日韩电影大片中文字幕| 久久久久久亚洲av无码专区| 国产精品久久久久久久久果冻传媒 | 日本在线不卡视频| 91麻豆天美传媒在线| 99久久人爽人人添人人澡| 2019日本中文字幕| 69久久久久| 精品久久久久久最新网址| 青青国产在线观看| 国产精品久久国产精麻豆99网站 | 亚洲精品三区| 久久青草福利网站| av一本在线| 亚洲成人av片| 艳妇乳肉豪妇荡乳av无码福利| 亚洲色图欧美在线| 一级性生活毛片| 国模一区二区三区白浆| 久操网在线观看| 日本一本不卡| 国产私拍一区| 亚洲成人精品综合在线| 亚洲18私人小影院| 毛片在线播放a| 亚洲毛片在线看| av av片在线看| 91福利视频久久久久| 久久久久久久久久综合| 国产女人18水真多18精品一级做| 波多野结衣电影免费观看| 美女尤物久久精品| www.好吊操| 久久一区二区中文字幕| 麻豆av一区二区三区| 精品久久国产一区| 国产精品草莓在线免费观看| 俺来俺也去www色在线观看| 正在播放亚洲1区| 天堂网www中文在线| 欧美一级二级三级乱码| 欧美日韩在线视频播放| 天天综合天天综合色| 看黄色录像一级片| 国产视频视频一区| 国产福利短视频| 高清在线不卡av| 黄色aaaaaa| 久久精品国产在热久久| 国产v亚洲v天堂无码久久久| 99日韩精品| 无码熟妇人妻av在线电影| 68国产成人综合久久精品| 亚洲国产精品综合| 精品成人影院| 久久一区二区三区av| 国产日韩三级| 国产精品一区二区三区不卡| 视频精品一区| 91亚洲精品一区二区| 日本成人在线网站| 国产精品久久一区主播| 51一区二区三区| 国产精品对白刺激| 精品欧美日韩精品| 国产精品露脸av在线| 456亚洲精品成人影院| 欧美在线视频一区| 在线毛片观看| 国产精品91久久久久久| 美女福利一区二区三区| 国产成人+综合亚洲+天堂| 亚洲精品mv| 国产成人亚洲综合91| 蜜桃精品在线| 国产精品电影一区| 成人在线黄色| 成人激情黄色网| 久久国产精品美女| 91黄色精品| 91精品国产乱码久久久竹菊| 波多野结衣精品久久| 一本色道69色精品综合久久| 国产成人精品一区二区三区福利| 亚洲91网站| 精品在线视频一区二区三区| 亚洲素人在线| 天堂社区 天堂综合网 天堂资源最新版| 欧美天天综合| 黄色a级在线观看| 国产综合网站| 337p粉嫩大胆噜噜噜鲁| 日本在线播放一区二区三区| 欧美国产日韩另类| 国产成人小视频| av在线播放网址| 久久久久久久综合日本| 女人黄色一级片| 亚洲男同性视频| 在线观看中文字幕视频| 欧美丝袜丝交足nylons| a级片在线视频| 亚洲精品久久久久久久久久久| 色吊丝在线永久观看最新版本| 亚洲色图第三页| 91精品久久久久久粉嫩| 欧美在线观看一区二区三区| 欧美色999| 97超碰人人模人人爽人人看| 色婷婷精品视频| 亚洲图片都市激情| 尤物精品在线| wwwwwxxxx日本| 成人高清av在线| 在线观看免费黄色网址| 亚洲午夜视频在线观看| 国产婷婷色一区二区在线观看| 欧美在线999| 免费看国产片在线观看| 亚洲图片欧美午夜| 日本成人不卡| 国产欧美日韩高清| 久久影视三级福利片| 亚洲国产一区在线| 亚洲视频1区| 手机av在线免费| 91香蕉视频mp4| 精品欧美一区二区久久久久| 色久优优欧美色久优优| 亚洲黄色在线免费观看| 色yeye香蕉凹凸一区二区av| 国产拍在线视频| 亚洲自拍偷拍福利| 成人av动漫在线观看| 日韩国产一级片| 国产乱码精品一区二区三区av | 午夜一区在线观看| 欧美理论片在线观看| 成人在线免费av| 欧美日韩喷水| aa级大片欧美三级| 香蕉在线观看视频| 国产精品看片你懂得| 中文字幕视频网站| 精品久久久久久久久久久久久久久久久 | 在线永久看片免费的视频| 精品国产在天天线2019| 欧美18hd| 国产欧美va欧美va香蕉在| 亚洲另类春色校园小说| 人妻av中文系列| 懂色av噜噜一区二区三区av| 亚洲熟女少妇一区二区| 在线观看亚洲成人| 欧美少妇另类| 国产91|九色| 台湾佬综合网| 国产h视频在线播放| 成人午夜激情片| 九九精品在线观看视频| 制服丝袜激情欧洲亚洲| 日本最黄一级片免费在线| 国产福利视频一区| 精品视频国产| 亚洲精品一二三四五区| 久久久久久黄色| 一级特黄免费视频| 国产亚洲综合久久| 精品网站在线| 亚洲精品成人a8198a| 久久精品999| 中文字幕资源站| 欧美一区午夜视频在线观看| 黄色av电影在线播放| 91在线观看免费网站| 亚洲精品成人| 久久久久亚洲av无码专区首jn| 亚洲精品写真福利| 免费观看国产精品| 午夜精品久久久久久久男人的天堂 | 视频一区视频二区在线观看| 黑森林av导航| 久久激情综合网| 91av手机在线| 欧美精选在线播放| 免费成人黄色| 91人成网站www| 欧美不卡在线| 久久久老熟女一区二区三区91| 亚洲大片精品永久免费| 天堂av在线免费观看| 国产成人短视频| 欧美wwwww| 在线观看一区二区三区视频| 亚洲成人免费视| 日本在线丨区| 国产欧美精品在线播放| 欧美国产激情| 你懂得在线视频| 在线这里只有精品| 久久精品视频免费看| 国产精品久久波多野结衣| 久久久久久一区二区| 夫妻性生活毛片| 亚洲国产中文字幕久久网| 欧美××××黑人××性爽 | 免费看黄色片的网站| 精品久久久久久亚洲精品| 成人免费视频| 99在线观看视频网站| 美女国产一区| 美女福利视频在线观看| 国产丝袜一区视频在线观看| 欧美综合社区国产| 奇米影视亚洲色图| 国产午夜精品久久久久久免费视| 97精品人妻一区二区三区香蕉| 久久久久久网址| 日韩欧美一区二区三区免费看| 欧美xxxx日本和非洲| 欧美系列在线观看| caoprom在线| 亚洲巨乳在线观看| 91在线观看污| jlzzjlzz亚洲女人18| 欧美制服第一页| 欧美午夜在线| 国产精品视频在| 精品亚洲aⅴ在线观看| 精品国产第一国产综合精品| 男人日女人bb视频| 亚洲一区二区综合| 一级毛片视频在线|