精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

WebWalker:通過Multi Agent提升RAG在開放域QA的性能

發(fā)布于 2025-2-6 15:28
瀏覽
0收藏

WebWalker: Benchmarking LLMs in Web Traversal

檢索增強(qiáng)生成(RAG)在開放域問答任務(wù)中表現(xiàn)出色。然而,傳統(tǒng)搜索引擎可能會檢索淺層內(nèi)容,限制了大型語言模型(LLM)處理復(fù)雜、多層次信息的能力。為了解決這個問題,我們引入了WebWalkerQA,一個旨在評估LLM執(zhí)行網(wǎng)頁遍歷能力的基準(zhǔn)。它評估LLM系統(tǒng)性地遍歷網(wǎng)站子頁面以獲取對應(yīng)信息的能力。同時我們提出了WebWalker,一個通過explorer-critic范式模擬人類網(wǎng)頁導(dǎo)航的multi-agent框架。廣泛的實驗結(jié)果表明,證明了結(jié)合WebWalker的RAG在實際場景中通過橫向搜索和縱向頁面挖掘集成的有效性。

??https://arxiv.org/pdf/2501.07572??

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

1. 為什么要提出 WebWalkerQA

大型語言模型(LLM)通常處于知識固定狀態(tài)(無法實時更新)。盡管使用檢索增強(qiáng)生成(RAG)可以獲取最新信息,但傳統(tǒng)搜索引擎(如谷歌、百度等)的橫向搜索方式限制了對信息的深層挖掘能力,無法像人類一樣通過逐步點(diǎn)擊等操作獲取更多細(xì)節(jié),從而更“聰明”地獲取所需信息。因此,作者提出了一個新任務(wù)——Web Traversal,旨在給定與查詢相關(guān)的初始網(wǎng)站,系統(tǒng)地遍歷網(wǎng)頁以揭露隱藏在其中的信息。

2. 什么是WebWalkerQA和WebWalker

?[Dataset] WebWalkerQA:根據(jù)網(wǎng)站的URL樹,通過四個階段,構(gòu)建單源/多源的easy、medium、hard難度的QA對,涵蓋四種常見官網(wǎng)來源及中英兩種語言。

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

?[Method] WebWalker:采用多智能體框架,由一個探測智能體(explorer agent)和一個裁判智能體(critic agent)組成。

? 探測智能體基于ReAct,遵循思考-行動-觀察范式,模擬人在網(wǎng)頁中點(diǎn)擊按鈕跳轉(zhuǎn)頁面的過程;

? 裁判智能體則負(fù)責(zé)存儲搜索過程中的信息,在探測代理點(diǎn)擊的過程中,保存對查詢有幫助的信息,并判斷何時能夠停止探測代理的探索。

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

3. 效果評估

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

? 上表展示了不同模型作為backbone,WebWalkerQA使用不同方法的智能體性能結(jié)果。可以發(fā)現(xiàn)即使是最好的模型gpt-4o在這個任務(wù)也表現(xiàn)較差,任務(wù)中可能涉及到多跳推理和對文本的推理的能力。

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

? 上表顯示了在close book和目前較好的開源及商用RAG系統(tǒng)上的性能。在close book 設(shè)置下正確率只有10%,因為WebwalkerQA具有高時效性,而LLM具有知識的cutoff,這與第一個limitation呼應(yīng)。在源及商用RAG系統(tǒng)上,最好的效果也只有40,驗證了第二個limitation,傳統(tǒng)搜索引擎可能會檢索淺層內(nèi)容,即使很多閉源的RAG系統(tǒng)使用了query改寫或者agentic的操作,但是還是沒有一步到位定位到的需要的web information source。

? 還包括一系列分析實驗,如下:

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

值得注意的是,webwalker中的memory對于回答query是非常重要的。如果rag鏈路中的搜索引擎可以當(dāng)作對query進(jìn)行橫向搜索,webwalker是對頁面的縱向深度探索,這是完全可以互補(bǔ)的。

因此可以把webwalker中的memory拼接到rag鏈路上,這種橫向和縱向整合表現(xiàn)出色,在所有類別和難度的數(shù)據(jù)集上效果均有提升,證明了垂直探索頁面對于提升RAG性能的潛力。這是對RAG二維探索的首次嘗試!

此外,對 webwalker 的挖掘點(diǎn)擊次數(shù)進(jìn)行scale up,看是否能得到更好的、更多的memory信息,隨著挖掘點(diǎn)擊次數(shù)的增大,不僅在webwalker上有較大提升,把memory加入到rag系統(tǒng)之后,性能也隨之提升。這給rag系統(tǒng)進(jìn)行test-time的拓展提供了新的角度。

?? WebWalker的設(shè)計讓人聯(lián)想到pair programming(對編程),即兩人協(xié)作,一個寫代碼,一個檢查bug。探測代理和裁判代理的功能其實類似于這種協(xié)作。

?? 文章最后提出了三項發(fā)現(xiàn),首次提出了RAG二維探索的scaling潛力,探討如何更“聰明”地進(jìn)行橫向和垂直兩個方向的探索(test-time compute)。

作者介紹:本文主要作者來自通義實驗室和東南大學(xué)。通訊作者是通義實驗室蔣勇和東南大學(xué)周德宇。第一作者吳家隆,主要研究方向是Agent和Efficient NLP,該工作在阿里巴巴通義實驗室RAG團(tuán)隊科研實習(xí)完成,

Github:https://github.com/Alibaba-nlp/WebWalker

Homepage: https://alibaba-nlp.github.io/WebWalker/

Demo: https://www.modelscope.cn/studios/iic/WebWalker/

Demo: https://huggingface.co/spaces/callanwu/WebWalker

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:WebWalker團(tuán)隊 ????

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
91九色国产社区在线观看| 亚洲精品videossex少妇| 一本色道久久99精品综合| 一级黄色大毛片| 欧美aⅴ99久久黑人专区| 亚洲第一av在线| 丁香啪啪综合成人亚洲| 调教视频免费在线观看| 国产一区二区毛片| 情事1991在线| www欧美com| 日韩精品免费一区二区三区竹菊 | 国产传媒久久久| 青青草手机在线| 国产毛片精品视频| 欧亚精品中文字幕| 91成人福利视频| 国产日韩欧美一区二区三区| 日韩欧美美女一区二区三区| 乱子伦视频在线看| 手机在线免费av| 日本一区二区三区高清不卡| 国产一区二区高清视频| 国产精品区在线观看| 天堂影院一区二区| 久久男人av资源网站| 天天操天天舔天天射| 日韩成人动漫在线观看| 日韩精品在线看片z| 91插插插插插插插插| 午夜久久中文| 亚洲一区在线电影| 看一级黄色录像| 搞黄视频在线观看| 成a人片国产精品| 亚洲自拍另类欧美丝袜| 中文在线免费观看| 另类av一区二区| 高清视频欧美一级| 日韩在线中文字幕视频| 日本黄色精品| 国产亚洲欧美日韩美女| 日本一区二区三区网站| 欧美日韩看看2015永久免费| 欧美成人一级视频| 最好看的中文字幕| 麻豆国产一区二区三区四区| 欧美日韩国产免费一区二区| 欧美一级片中文字幕| 日韩电影免费看| 午夜精品影院在线观看| 国产www免费| 蜜桃传媒在线观看免费进入 | 国产午夜激情视频| 欧美在线二区| 欧美疯狂性受xxxxx另类| www.av免费| 正在播放日韩欧美一页 | 日本免费一区二区三区| 日韩二区三区| 国产亚洲一区二区三区在线观看 | 在线一区免费| 九九综合九九综合| 免费一级片在线观看| 一区二区日韩欧美| 欧美肥臀大乳一区二区免费视频| 日韩影院一区二区| 欧美特黄a级高清免费大片a级| 欧美成人一区在线| 国产精选第一页| 国产亚洲毛片| 国产精品久久久久久av福利软件 | 精品国产乱码久久久久久1区2区| 黄色国产在线视频| 婷婷成人在线| 最近日韩中文字幕中文| 加勒比婷婷色综合久久| 亚洲高清网站| 国产成人亚洲精品| 国产毛片毛片毛片毛片毛片| 粉嫩欧美一区二区三区高清影视| 精品国产福利| 韩日在线视频| 亚洲欧美日韩国产手机在线| 久久手机在线视频| 日本欧美日韩| 欧美一区二区三区公司| 99久久人妻无码中文字幕系列| 九一成人免费视频| 久久不射电影网| 日日夜夜综合网| 美日韩一区二区| 国产精品一区二区不卡视频| 国产黄在线观看| 樱桃国产成人精品视频| 免费成人在线视频网站| 国内精品伊人| 精品成a人在线观看| 国产1区2区在线观看| 欧美区亚洲区| 久久人人爽人人爽人人片av高请| 波多野结衣视频观看| 国产精品1区2区3区在线观看| 欧美精品一区二区三区久久| 九色porny在线| 欧美性猛交xxxx| 婷婷激情小说网| 九热爱视频精品视频| 久久69精品久久久久久久电影好| 黄色一级片免费在线观看| 老司机精品视频导航| 国产一区二区三区四区五区在线 | www.四虎精品| 日韩精品影视| 欧美一级成年大片在线观看 | 国产精品性做久久久久久| 精品欧美一区二区久久久伦| 国产视频在线播放| 色婷婷av久久久久久久| 稀缺小u女呦精品呦| 99久久综合| 国产精品99一区| 日韩在线视频观看免费| 亚洲精品高清在线| 羞羞的视频在线| 国产精品欧美在线观看| 91国内揄拍国内精品对白| 国产女同91疯狂高潮互磨| 欧美激情在线一区二区三区| 免费看的黄色大片| a级日韩大片| 久久夜色精品亚洲噜噜国产mv| 精品人妻一区二区三区潮喷在线 | 青青草手机视频在线观看| 蜜臀av在线播放一区二区三区| 美女三级99| 超级白嫩亚洲国产第一| 日韩午夜在线观看| 成人免费精品动漫网站| 久久超级碰视频| 亚洲精品日韩精品| 电影久久久久久| 亚洲人成人99网站| 无码人妻久久一区二区三区不卡| 久久伊99综合婷婷久久伊| 亚洲国产成人精品无码区99| 超碰成人免费| 久久久欧美一区二区| 亚洲国产精品久久久久久久 | 老司机激情视频| 97久久亚洲| 欧美极品少妇xxxxⅹ裸体艺术| 国产精品国产av| 国产精品成人免费精品自在线观看 | 91大神在线网站| 欧美三级资源在线| 少妇的滋味中文字幕bd| 毛片av一区二区| 中文视频一区视频二区视频三区| 成人国产在线| 久久天天躁狠狠躁夜夜爽蜜月| 国产精品久久久久久久久久久久久久久久| 国产日韩高清在线| 一区二区成人网| 天天影视欧美综合在线观看| 92看片淫黄大片看国产片| a视频在线免费看| 亚洲精品一区二区三区影院| 日韩精品一区二区不卡| 91视频免费观看| 国产嫩草在线观看| 中文字幕免费精品| 国产日韩欧美综合精品| 这里有精品可以观看| 国产亚洲精品久久久久久牛牛 | 亚洲最新在线| 嫩呦国产一区二区三区av| 欧美黑人巨大xxx极品| 天天干天天草天天射| 色婷婷av一区| 三级av在线免费观看| 成人网在线免费视频| 哪个网站能看毛片| 91精品国产调教在线观看| 国产精品对白刺激久久久| 伊人色综合一区二区三区影院视频| 国产亚洲精品久久| 亚洲av综合色区无码一二三区| 粉嫩av一区二区三区免费野| 快灬快灬一下爽蜜桃在线观看| 韩国一区二区在线观看| 国产 日韩 亚洲 欧美| 精品美女久久久| 99久久精品久久久久久ai换脸| 免费成人动漫| 欧美日本亚洲视频| 国产精品麻豆一区二区三区| 日韩三区在线观看| 久久精品五月天| 亚洲一区在线观看网站| 无码人中文字幕| eeuss国产一区二区三区 | 97久久久久久久| 亚洲男人的天堂在线观看| 亚洲熟妇一区二区三区| 久久成人麻豆午夜电影| 亚洲成熟丰满熟妇高潮xxxxx| 欧美在线三级| 亚洲人成网站在线观看播放| 欧美一区二区三区红桃小说| 成人写真视频福利网| 欧美三级精品| 久久人91精品久久久久久不卡 | 欧美亚洲在线视频| 亚洲综合影视| 波霸ol色综合久久| 福利片在线观看| 精品视频偷偷看在线观看| 国产成人精品一区二三区四区五区| 91精品91久久久中77777| 国产精品.www| 亚洲黄色免费网站| 午夜精品福利在线视频| 欧美激情在线看| 97超碰在线资源| 91亚洲精品久久久蜜桃网站| 亚洲天堂小视频| 久久激五月天综合精品| 日韩av片网站| 日日夜夜精品视频天天综合网| 免费观看美女裸体网站| 黄色欧美成人| 亚洲精品天堂成人片av在线播放 | 日韩网站免费观看| 国产青青草在线| 亚洲午夜国产成人av电影男同| 手机看片国产1024| 亚洲国产精品va在线观看黑人| 午夜精品久久久久久久99| 91精品福利在线一区二区三区 | 亚洲精品日韩在线| 欧美在线 | 亚洲| 精品99一区二区三区| 丰满人妻一区二区| 精品国产制服丝袜高跟| 亚洲精品久久久久久久久久| 日韩三级视频在线看| 午夜精品久久久久久久99| 欧美www视频| 日韩一级在线播放| 日韩电影免费观看中文字幕| 日韩在线一区二区三区四区| 亚洲国产精品高清久久久| 人妻中文字幕一区| 亚洲精品久久久久久久久久久久 | 怡红院男人天堂| 欧美日韩亚洲综合一区二区三区| 在线观看不卡的av| 欧美卡1卡2卡| 99这里有精品视频| 精品国产乱子伦一区| 丰满熟妇乱又伦| 日韩精品在线电影| 国产51人人成人人人人爽色哟哟| 综合国产在线观看| 里番在线观看网站| 久久6免费高清热精品| 欧美a级在线观看| 国产精品久久久久久久久影视| 日韩精品第二页| 99久久伊人精品影院| 另类ts人妖一区二区三区| 欧美一区2区三区4区公司二百 | 久久亚洲国产成人精品无码区 | 国模视频一区二区三区| 刘亦菲一区二区三区免费看| 国产精品影院在线观看| 日本亚洲视频| 免费在线成人av| 日韩影院二区| 亚洲色成人www永久在线观看| 亚洲欧美成人| 九九热99视频| 99精品欧美一区二区三区小说| 免费看黄色三级| 一区二区三区在线看| av资源免费观看| 这里只有精品99re| 香蕉久久国产av一区二区| 中文字幕亚洲欧美日韩2019| 秋霞在线午夜| 国产成人一区二区三区| 99re8这里有精品热视频免费 | 国产精品免费小视频| 日本成人手机在线| 日本一区视频在线观看| 欧美成人日韩| 亚洲成人福利在线观看| 成人sese在线| 天天爽天天爽天天爽| 黑丝美女久久久| www.我爱av| 中文字幕亚洲欧美日韩高清| 岛国av在线网站| 91久久久久久国产精品| 嫩草一区二区三区| 激情五月婷婷六月| 久久激情五月婷婷| 一本色道久久综合亚洲精品图片| 一区二区在线观看免费| 亚洲一区二区影视| 亚洲毛片在线免费观看| 欧洲性视频在线播放| 国产日产亚洲精品| 免费短视频成人日韩| 18黄暴禁片在线观看| 黄页网站大全一区二区| 久久亚洲AV无码专区成人国产| 亚洲电影在线播放| 国产999久久久| 久久精品视频免费播放| 黄色精品视频| 欧美一区免费视频| 国产精品美女| 日韩aaaaa| 亚洲电影第三页| 精品国产伦一区二区三| 久久视频在线直播| 日本免费成人| 亚洲欧洲免费无码| 蜜桃在线一区二区三区| 无码一区二区三区在线| 日韩欧美在线中文字幕| 性xxxx18| 欧美中文在线字幕| 亚洲另类春色校园小说| 69堂免费视频| 久久这里只精品最新地址| aaa人片在线| 国产视频丨精品|在线观看| av免费不卡| 久久久久久久久久久久久久久久av| 欧美三级黄美女| 四虎精品一区二区| 亚洲aaa精品| 香蕉久久国产av一区二区| 欧洲精品久久久| 国产成人一区二区三区影院| 成人中文字幕av| 国产精品视频一二三| 中文字幕免费在线看| 色七七影院综合| 精品一区二区三区在线观看视频| 熟妇熟女乱妇乱女网站| 国产精品亚洲成人| 国产精品99精品无码视| 亚洲精品ady| 天天免费亚洲黑人免费| 日韩影视精品| 久久成人18免费观看| 国产盗摄x88av| 亚洲国产日韩欧美综合久久| 三级在线看中文字幕完整版| 日本日本精品二区免费| 免费成人性网站| 欧美成人国产精品高潮| 精品国产髙清在线看国产毛片 | 欧美午夜精品久久久久久久| 青青草免费观看免费视频在线| 国产精品aaa| 欧美日本三区| 国产精品无码电影| 欧洲一区二区三区在线| 粗大黑人巨茎大战欧美成人| 国产精品日韩高清| 天堂久久久久va久久久久| 国产亚洲精品久久久久久豆腐| 日韩一区二区三区视频在线观看| av资源一区| 亚洲国产一区二区三区在线| 国产麻豆欧美日韩一区| 国产亚洲欧美精品久久久www| 精品中文字幕久久久久久| 88xx成人网| 欧妇女乱妇女乱视频| 久久久久国产精品麻豆ai换脸| 伊人网免费视频| 国内精品小视频在线观看| 精品一区二区三区中文字幕老牛| 人妻巨大乳一二三区| 欧美视频第一页| 国产视频在线播放| 蜜桃在线一区二区三区精品| 精品一区二区在线看| 亚洲日本视频在线观看| 久久伊人精品视频| 国产精品嫩草影院在线看| 国产成人精品一区二区在线小狼| 色哟哟在线观看一区二区三区| 丝袜在线观看|