精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Mind2Web 2:智能體搜索系統(tǒng)的進化與評估之道

人工智能
在信息大量溢出的時代,智能體搜索系統(tǒng)正以其強大的自主性和智能化能力,重塑我們獲取知識的方式。Mind2Web 2 基準測試的推出,為這一技術(shù)的評估與發(fā)展提供一份參考,讓我們得以窺見智能體搜索系統(tǒng)的無限潛力與挑戰(zhàn)。

大家好,我是肆〇柒,相信使用過AI工具的各位,或多或少都會使用過AI搜索,而傳統(tǒng)網(wǎng)絡(luò)搜索方式正面臨前所未有的挑戰(zhàn)。用戶手動輸入關(guān)鍵詞,從海量搜索結(jié)果中逐一甄別、篩選并整合有用信息,這一過程不僅繁瑣耗時,還對用戶的認知能力提出了極高要求。然而,隨著大型語言模型(LLM)技術(shù)的飛速發(fā)展,智能體搜索系統(tǒng)一經(jīng)推出,就為信息獲取方式帶來了革命性的變革。智能體搜索系統(tǒng)能夠自主瀏覽網(wǎng)頁、分解復(fù)雜查詢、迭代搜索并交互動態(tài)網(wǎng)站,最終整合信息生成帶有引用的綜合答案,極大地減輕了用戶的信息處理負擔(dān)。

例如,在學(xué)術(shù)研究領(lǐng)域,當用戶需要收集某個課題的最新研究進展時,傳統(tǒng)搜索方式要求用戶多次輸入不同關(guān)鍵詞,逐一查看多個搜索結(jié)果頁面,手動整理相關(guān)信息。而智能體搜索系統(tǒng)則可以根據(jù)用戶給出的課題主題,自動分解任務(wù),從多個學(xué)術(shù)網(wǎng)站和數(shù)據(jù)庫中篩選、提取關(guān)鍵信息,如最新論文的標題、摘要、作者及發(fā)表時間等,并將這些信息整合成一份結(jié)構(gòu)清晰、帶有引用鏈接的報告返回給用戶。

當智能體搜索需要進行日常運營或進行產(chǎn)品改進的時候,評估就顯得尤為重要。現(xiàn)有的AI搜索評估基準和方法大多基于短時間跨度任務(wù)和靜態(tài)答案,難以適應(yīng)智能體搜索系統(tǒng)的復(fù)雜性和長期任務(wù)表現(xiàn),這嚴重限制了該領(lǐng)域的技術(shù)發(fā)展和應(yīng)用推廣。由俄亥俄州立大學(xué)和亞馬遜 AGI 共同提出的 Mind2Web 2 基準測試,期望能填補這一評估空白,為智能體搜索系統(tǒng)的開發(fā)、優(yōu)化和公平比較提供嚴謹、全面的基礎(chǔ)。它通過模擬真實世界的復(fù)雜信息獲取任務(wù),對智能體搜索系統(tǒng)進行全面、深入的評估,推動該技術(shù)領(lǐng)域向更高效、可靠的方向發(fā)展。

下圖展示了 Mind2Web 2 基準測試所具有的逼真且多樣化的長期網(wǎng)絡(luò)搜索任務(wù),以及用于評估復(fù)雜、時變且?guī)в幸么鸢傅膭?chuàng)新性 Agent-as-a-Judge 框架。

Mind2Web 2 特點是具有真實且多樣化的長期網(wǎng)絡(luò)搜索任務(wù),并引入了一種新穎的“Agent-as-a-Judge”框架,用于評估復(fù)雜、隨時間變化且有引文支持的答案

智能體搜索系統(tǒng)概述

智能體搜索系統(tǒng)的發(fā)展歷程可大致分為三個階段。最初階段是 LLM 與搜索 API 的簡單結(jié)合,如 MindSearch 嘗試模仿人類思維模式以激發(fā)更精準的 AI 搜索結(jié)果,以及 ChatGPT 和 Perplexity Search 等通過增強搜索能力來提升回答質(zhì)量的系統(tǒng)。這些系統(tǒng)初步實現(xiàn)了 LLM 與網(wǎng)絡(luò)信息的對接,但仍存在一定的局限性,如對動態(tài)網(wǎng)頁的處理能力較弱、搜索過程缺乏靈活性等。

隨后,自主網(wǎng)絡(luò)Agent技術(shù)逐漸興起,部分Agent具備了視覺感知能力,能夠像人類一樣實時瀏覽網(wǎng)頁。OpenAI 的 Operator 經(jīng)過強化學(xué)習(xí)訓(xùn)練,在完成特定任務(wù)方面表現(xiàn)出色。這一階段的技術(shù)突破使得智能體搜索系統(tǒng)能夠更深入地與網(wǎng)絡(luò)環(huán)境交互,獲取以往難以觸及的動態(tài)信息,拓展了應(yīng)用場景。

當前,智能體搜索系統(tǒng)已進化到專門優(yōu)化的 Deep Research 系統(tǒng)階段。以 OpenAI Deep Research 為代表的系統(tǒng)針對長周期瀏覽和復(fù)雜搜索行為進行了深度優(yōu)化。它們能夠處理更長時間跨度的任務(wù),能更有效地整合多源信息,生成更全面、深入的研究報告。例如,在進行行業(yè)市場調(diào)研時,Deep Research 系統(tǒng)可以長時間跟蹤多個市場動態(tài)網(wǎng)站,收集不同時間段的市場數(shù)據(jù)、企業(yè)動態(tài)、消費者反饋等信息,經(jīng)過深度整合和分析后,生成一份詳細的市場調(diào)研報告,為企業(yè)的戰(zhàn)略決策提供有力支持。

Mind2Web 2 基準測試

任務(wù)設(shè)計原則

Mind2Web 2 基準測試的任務(wù)設(shè)計遵循四大關(guān)鍵原則。首先,任務(wù)必須具有現(xiàn)實性,緊密貼合實際用戶需求場景,涵蓋購物、旅行規(guī)劃、學(xué)術(shù)研究等眾多領(lǐng)域,確保評估結(jié)果對現(xiàn)實應(yīng)用具有指導(dǎo)意義。例如,“從某旅游網(wǎng)站上獲取符合特定預(yù)算和時間要求的旅行套餐,并驗證其包含的景點和服務(wù)是否符合要求”這一任務(wù),真實反映了用戶在規(guī)劃旅行時的需求。

其次,任務(wù)需具備長期性和艱巨性,要求智能體進行多步驟搜索、跨多個網(wǎng)站收集信息,耗費大量時間和精力。例如,一個任務(wù)要求智能體收集某產(chǎn)品在過去一年內(nèi)不同時間點的價格波動情況、用戶評價變化以及相關(guān)促銷活動信息,這需要智能體在多個電商網(wǎng)站和消費者評價平臺之間來回切換,長時間跟蹤和整合數(shù)據(jù)。

客觀性和可驗證性也是任務(wù)設(shè)計的重要準則。每個任務(wù)都應(yīng)有明確、客觀的評估標準,答案能夠依據(jù)引用的網(wǎng)頁內(nèi)容進行驗證,避免模糊和主觀的評價標準,確保評估的公正性和準確性。例如,任務(wù)要求智能體獲取某學(xué)術(shù)會議的參會人員名單及所屬機構(gòu)時,答案中的每個參會人員信息都應(yīng)能通過會議官網(wǎng)或其他權(quán)威學(xué)術(shù)平臺的頁面進行驗證。

另外,時間變化性被納入考量,部分任務(wù)的答案會隨時間推移而變化,如產(chǎn)品價格波動、賽事安排更新等,以模擬真實世界中信息的動態(tài)變化,考驗智能體對實時信息的捕捉和處理能力。例如,一個任務(wù)要求智能體實時獲取某體育賽事的最新賽程安排和門票銷售情況,智能體需要能夠處理賽事官網(wǎng)頻繁更新的信息,確保提供的答案是最新的。

任務(wù)示例與類型分布

Mind2Web 2 包含 130 個高質(zhì)量任務(wù),分布在生活方式與休閑、娛樂、科學(xué)與研究、職業(yè)與教育、旅行與交通等多個領(lǐng)域。例如,一個典型任務(wù)是從 IKEA 網(wǎng)站尋找符合特定條件(如預(yù)算范圍、顏色要求等)的家具組合,并確保所有家具均來自該網(wǎng)站且符合指定要求。這些任務(wù)不僅貼近實際生活需求,還能全面評估智能體搜索系統(tǒng)在不同領(lǐng)域的表現(xiàn)。

如下圖所示為 Mind2Web 2 任務(wù)領(lǐng)域分布情況

Mind2Web 2包含130個多樣化的任務(wù),涵蓋6個廣泛領(lǐng)域和24個子領(lǐng)域

具體到任務(wù)類型分布,生活方式與休閑領(lǐng)域占比最高,達到 26%,包含 34 個任務(wù);娛樂領(lǐng)域緊隨其后,占比 22%,特定條件的家具組合。有 28 個任務(wù);科學(xué)與研究領(lǐng)域占比 18%,包含 23 個任務(wù)。其他領(lǐng)域如職業(yè)與教育、旅行與交通等也涵蓋了豐富多樣的任務(wù)類型,確保評估的全面性和廣泛性。

Agent-as-a-Judge 評估框架

核心思想與優(yōu)勢

Agent-as-a-Judge 評估框架是 Mind2Web 2 的核心創(chuàng)新之一。它通過構(gòu)建任務(wù)特定的評判智能體,自動評估智能體搜索系統(tǒng)生成的復(fù)雜、動態(tài)答案,解決了傳統(tǒng)評估方法在面對答案時間變化性和結(jié)構(gòu)復(fù)雜性時的局限。這一框架充分利用了任務(wù)的先驗知識,設(shè)計出能夠精準評估答案正確性和歸屬性的評分規(guī)則,確保評估結(jié)果既全面又準確。

與以往評估方法不同,Agent-as-a-Judge 能夠深入理解每個任務(wù)的核心要求,并將其轉(zhuǎn)化為可操作的評估邏輯。它能判斷答案是否滿足任務(wù)的基本要求,還能細致評估答案中每個陳述是否都能準確歸屬到相應(yīng)的引用來源。這種精準的評估方式為智能體搜索系統(tǒng)的優(yōu)化提供了極具價值的反饋,有助于推動系統(tǒng)性能的持續(xù)提升。

例如,在傳統(tǒng)評估方法中,對于一個要求整合多個來源信息的任務(wù),可能只能判斷最終答案是否正確,但無法準確評估答案中每個信息點的來源是否可靠。而 Agent-as-a-Judge 框架則能逐一驗證每個信息點的歸屬,指出具體問題所在,為系統(tǒng)的改進提供明確方向。

樹狀評分規(guī)則設(shè)計

該框架采用樹狀評分規(guī)則,將評估過程分解為多個層次。葉子節(jié)點代表基本評估標準,如檢查信息準確性、歸屬正確性等。內(nèi)部節(jié)點則負責(zé)按邏輯關(guān)系聚合多個葉子節(jié)點的結(jié)果,形成更高層次的評估結(jié)論。例如,對于一個要求查找特定家具組合的任務(wù),葉子節(jié)點可能包括檢查每件家具的顏色是否符合要求、價格是否在預(yù)算范圍內(nèi)、是否來自指定網(wǎng)站等具體標準。

下圖為樹狀評分規(guī)則示例,更直觀地展示了從任務(wù)目標逐層分解到具體評估準則,以及從底層準則評估結(jié)果逐級匯總得到整體任務(wù)評分的全過程。

樹形結(jié)構(gòu)評分細則示例。自上而下,任務(wù)目標被分解為樹形結(jié)構(gòu);自下而上,葉節(jié)點的二進制評分被匯總為整體任務(wù)評分

在樹狀結(jié)構(gòu)中,不同節(jié)點類型發(fā)揮著關(guān)鍵作用。關(guān)鍵節(jié)點代表基本且核心的評估標準,若關(guān)鍵節(jié)點失敗,可能導(dǎo)致整個任務(wù)評分失敗。非關(guān)鍵節(jié)點則允許部分得分,以體現(xiàn)任務(wù)完成的層次和重點。這種設(shè)計使得評估結(jié)果能夠更精準地反映智能體在任務(wù)中的表現(xiàn),既不會因個別非關(guān)鍵錯誤而完全否定系統(tǒng)的努力,也不會忽略關(guān)鍵錯誤,確保評估的合理性和公平性。

評判智能體的構(gòu)建與驗證

評判智能體的構(gòu)建基于評分規(guī)則,涉及信息提取和驗證兩個核心環(huán)節(jié)。信息提取器利用自然語言處理技術(shù)從答案中精準定位關(guān)鍵信息片段,如通過模式匹配和語義分析提取家具名稱、價格、顏色等關(guān)鍵屬性。驗證器則根據(jù)規(guī)則對比提取信息與引用網(wǎng)頁內(nèi)容,判斷信息是否準確、歸屬是否正確。

為了確保評判智能體的準確性和可靠性,開發(fā)團隊采用了人工標注樣例數(shù)據(jù)與評判智能體輸出進行對比的方式。通過持續(xù)優(yōu)化評估邏輯,評判智能體的評估結(jié)果與預(yù)期標準高度一致。例如,在測試過程中發(fā)現(xiàn)驗證器對某些模糊信息的判斷存在偏差后,開發(fā)團隊調(diào)整了相關(guān)算法參數(shù),提升了評判智能體的準確性,使其能夠更可靠地為智能體搜索系統(tǒng)提供評估服務(wù)。

在構(gòu)建評判智能體時,信息提取器采用了基于 transformer 架構(gòu)的深度學(xué)習(xí)模型,該模型經(jīng)過大量文本數(shù)據(jù)訓(xùn)練,能夠理解自然語言的語義和結(jié)構(gòu),從而準確提取關(guān)鍵信息。驗證器則結(jié)合了網(wǎng)頁內(nèi)容解析技術(shù)和邏輯推理算法,不僅能夠檢查引用鏈接的有效性,還能判斷鏈接內(nèi)容與答案信息是否匹配,確保每個信息點都有準確可靠的來源支持。

實驗與評估

實驗設(shè)置

實驗涵蓋了多種類型的智能體搜索系統(tǒng),包括商業(yè)搜索產(chǎn)品(如 ChatGPT Search、Perplexity Pro Search)、Deep Research 系統(tǒng)(如 OpenAI Deep Research、Grok DeepSearch 等)以及 OpenAI Operator。每個系統(tǒng)都有其獨特的技術(shù)特點和優(yōu)勢。例如,Deep Research 系統(tǒng)通常具備更強的長周期任務(wù)處理和信息整合能力,能夠在面對復(fù)雜任務(wù)時保持較高的性能表現(xiàn);而 OpenAI Operator 則在處理需要視覺交互的任務(wù)上具有一定優(yōu)勢。

評估指標主要包括部分完成率、成功率、Pass@3、平均完成時間和平均答案長度。下表展示了各系統(tǒng)的主評估結(jié)果,包括這些評估指標的具體數(shù)值及標準差,從中可直觀對比不同智能體搜索系統(tǒng)的表現(xiàn)。

主要評估結(jié)果。 其中報告了部分完成得分、完整任務(wù)成功率、Pass@3、平均時間(以分鐘計)、平均回答長度(以單詞計)及其標準差

部分完成率反映系統(tǒng)在任務(wù)部分要求上的達成情況,成功率體現(xiàn)系統(tǒng)完整準確完成任務(wù)的能力,Pass@3 表示至少有一次嘗試成功的任務(wù)比例,平均完成時間和平均答案長度則分別從效率和信息量角度衡量系統(tǒng)表現(xiàn)。這些指標相互補充,共同勾勒出智能體搜索系統(tǒng)在不同維度上的性能圖譜。

主要結(jié)果

不同智能體搜索系統(tǒng)在 Mind2Web 2 基準測試上的表現(xiàn)差異顯著。基于搜索的 LLM 系統(tǒng)如 ChatGPT Search 和 Perplexity Pro Search 因搜索范圍有限、信息整合能力較弱,在復(fù)雜任務(wù)上得分較低。網(wǎng)頁Agent系統(tǒng)如 OpenAI Operator 在處理需要視覺交互的任務(wù)上表現(xiàn)出色,但在涉及長時間信息整合的任務(wù)中略顯不足。Deep Research 系統(tǒng)則在長時間任務(wù)和綜合信息整合方面展現(xiàn)出強大的能力,例如 OpenAI Deep Research 在多個任務(wù)中取得了較高的部分完成率和成功率,證明了其在復(fù)雜信息獲取任務(wù)中的優(yōu)勢。

在時間變化任務(wù)上,Deep Research 系統(tǒng)憑借其采用的實時網(wǎng)頁監(jiān)控算法,能及時捕捉網(wǎng)頁內(nèi)容更新,動態(tài)調(diào)整搜索策略以獲取最新信息。相比其他系統(tǒng),它在處理這類任務(wù)時具有明顯優(yōu)勢。然而,過度依賴實時信息也可能導(dǎo)致其忽略部分穩(wěn)定的背景知識,這是其在時間變化任務(wù)處理中需要進一步優(yōu)化的方向。

下圖以平均部分完成率與平均任務(wù)完成時間的對比,生動展現(xiàn)了不同系統(tǒng)在效率與任務(wù)完成質(zhì)量方面的權(quán)衡關(guān)系。

部分完成率與平均完成任務(wù)時間的對比”或“平均部分完成率與平均任務(wù)完成時間的比較

下圖則清晰呈現(xiàn)了在明確時變?nèi)蝿?wù)上與其它任務(wù)的平均部分完成率對比,凸顯了各智能體搜索系統(tǒng)在應(yīng)對時變?nèi)蝿?wù)時的能力差異。

在明確具有時間變化特征的任務(wù)中,平均部分完成率與其他所有任務(wù)相比

下圖所示為不同智能體搜索系統(tǒng)在常見錯誤類型上的分布情況,通過該圖可深入了解各系統(tǒng)在各類錯誤上的易發(fā)情況,進而明確其性能瓶頸與改進方向。

不同智能體與人類之間的錯誤情況。柱狀圖表示每種錯誤類型在任務(wù)中所占的百分比。其中包含了來自五個智能體搜索系統(tǒng)以及人類的結(jié)果

與人類參與者的表現(xiàn)對比分析顯示,人類在處理復(fù)雜信息獲取任務(wù)時,能夠靈活運用背景知識和批判性思維,對信息進行深度分析和判斷。例如,在評估某學(xué)術(shù)論文的重要性時,人類可以結(jié)合自己對該領(lǐng)域的了解,判斷論文的創(chuàng)新性和影響力,而智能體搜索系統(tǒng)可能僅能基于引用次數(shù)等表面指標進行評估。但人類容易受認知疲勞影響,隨著任務(wù)時間延長,錯誤率可能上升。而智能體搜索系統(tǒng)在穩(wěn)定性、持續(xù)性方面表現(xiàn)更為出色,能長時間穩(wěn)定輸出答案,減少因疲勞導(dǎo)致的錯誤。例如,在一些需要長時間瀏覽和整合大量網(wǎng)頁信息的任務(wù)中,智能體搜索系統(tǒng)能夠保持一致的性能表現(xiàn),而人類可能會因注意力下降而遺漏關(guān)鍵信息或出現(xiàn)判斷失誤。

誤差分析

常見錯誤類型

在智能體搜索系統(tǒng)和人類答案中,共定義了七種常見錯誤類型。信息缺失錯誤包括信息未找到和部分缺失兩種情況。例如,系統(tǒng)可能因搜索策略不完善而未能檢索到關(guān)鍵數(shù)據(jù),或者只提供了部分任務(wù)要求的信息。標準違反錯誤是指答案不符合任務(wù)中的明確限制條件,如提供的商品價格超出預(yù)算范圍、回答內(nèi)容不符合指定格式等。

如下圖所示,在不同智能體搜索系統(tǒng)和人類的答案中,各類錯誤類型分布各異,這些數(shù)據(jù)為我們深入剖析各系統(tǒng)的性能表現(xiàn)提供了有力支撐。

不同智能體與人類之間的錯誤情況。柱狀圖表示每種錯誤類型在任務(wù)中所占的百分比。其中包含了來自五個智能體搜索系統(tǒng)以及人類的結(jié)果

無效歸屬錯誤表現(xiàn)為提供錯誤或虛構(gòu)的引用鏈接,這可能是由于系統(tǒng)在生成引用時未對鏈接的有效性進行充分驗證。缺失歸屬錯誤則是未為必要信息提供來源鏈接,導(dǎo)致信息無法追溯。支持答案錯誤進一步細分為合成錯誤和檢索錯誤。合成錯誤是指從正確網(wǎng)頁提取錯誤信息,如誤解網(wǎng)頁內(nèi)容導(dǎo)致信息扭曲;檢索錯誤則是引用了與任務(wù)無關(guān)的網(wǎng)頁,使得答案缺乏有效支持。

錯誤分布與影響

分析不同智能體搜索系統(tǒng)和人類在錯誤類型上的分布情況,可以發(fā)現(xiàn)各系統(tǒng)性能的瓶頸和改進方向。某些系統(tǒng)因搜索模塊的缺陷,信息缺失錯誤頻發(fā);其他系統(tǒng)可能因歸屬處理模塊不完善,出現(xiàn)大量無效或缺失歸屬錯誤。例如,部分基于搜索的 LLM 系統(tǒng)由于缺乏對網(wǎng)頁內(nèi)容的深度理解和有效的引用管理機制,在合成答案時容易出現(xiàn)信息缺失和歸屬錯誤;而一些網(wǎng)頁Agent系統(tǒng)可能因視覺交互過程中的不穩(wěn)定因素,導(dǎo)致在信息提取和歸屬處理上出現(xiàn)偏差。

討論與啟示

智能體搜索系統(tǒng)的潛力與局限

智能體搜索系統(tǒng)展現(xiàn)出了巨大的潛力。它能夠顯著減輕用戶在信息獲取過程中的認知負擔(dān),尤其適用于大規(guī)模數(shù)據(jù)搜索和精細信息提取任務(wù)。例如,在學(xué)術(shù)研究領(lǐng)域,智能體搜索系統(tǒng)可以幫助研究人員快速收集和整合大量文獻資料,提高研究效率;在商業(yè)領(lǐng)域,它能夠為企業(yè)決策提供及時、準確的市場情報支持。

然而,當前智能體搜索系統(tǒng)仍面臨一些挑戰(zhàn)。在處理時間變化任務(wù)時,部分系統(tǒng)可能因動態(tài)網(wǎng)頁更新監(jiān)測的延遲而無法及時獲取最新信息;在實時信息交互方面,某些系統(tǒng)對交互指令的執(zhí)行精度不足,導(dǎo)致信息提取不完整或不準確。此外,現(xiàn)有模型在長距離推理和規(guī)劃能力上也存在一定局限,面對多步驟復(fù)雜任務(wù)時,可能出現(xiàn)規(guī)劃不合理、推理不準確的問題,影響最終答案的質(zhì)量。

未來發(fā)展方向

智能體搜索系統(tǒng)的進一步發(fā)展,首先需要加強實時網(wǎng)頁瀏覽和交互能力。開發(fā)更高效的網(wǎng)頁動態(tài)監(jiān)測算法,能夠?qū)崟r捕捉網(wǎng)頁內(nèi)容的細微變化,確保信息的時效性;同時優(yōu)化交互指令的執(zhí)行精度,提升系統(tǒng)在復(fù)雜網(wǎng)頁環(huán)境中的操作能力。

優(yōu)化長距離推理和規(guī)劃是關(guān)鍵。借鑒人類認知模型,改進智能體的規(guī)劃策略,使其能夠更好地處理多步驟復(fù)雜任務(wù),從整體上把握任務(wù)目標,合理安排搜索路徑和信息整合方式。

提高答案合成的準確性至關(guān)重要。引入更先進的自然語言處理技術(shù),確保信息整合的完整性和正確性,使答案內(nèi)容豐富,而且邏輯嚴密、表達清晰。

實操性建議

對于希望利用 Mind2Web 2 基準測試來評估和優(yōu)化智能體搜索系統(tǒng),以下是一些具體建議:

1. 任務(wù)設(shè)計 :根據(jù) Mind2Web 2 的任務(wù)設(shè)計原則,結(jié)合自身需求設(shè)計評估任務(wù)。確保任務(wù)具有現(xiàn)實性、長期性、艱巨性、客觀性和可驗證性。例如,如果要評估智能體搜索系統(tǒng)在金融領(lǐng)域的信息獲取能力,可以設(shè)計一個任務(wù),要求系統(tǒng)收集某只股票在過去一年內(nèi)的價格走勢、重大新聞事件、公司財務(wù)報告關(guān)鍵數(shù)據(jù)等信息,并整合成一份投資分析報告。

2. 評估指標選擇 :參考 Mind2Web 2 的評估指標體系,選擇適合自己的評估指標。除了部分完成率、成功率等常見指標外,還可以根據(jù)任務(wù)特點增加一些特定指標,如答案的深度(信息的詳細程度)、廣度(覆蓋的方面)等。

3. 利用 Agent-as-a-Judge 框架 :學(xué)習(xí) Mind2Web 2 中 Agent-as-a-Judge 框架的構(gòu)建方法,開發(fā)自己的評判智能體。在構(gòu)建過程中,注重信息提取和驗證環(huán)節(jié)的優(yōu)化,提高評判智能體的準確性。例如,在信息提取環(huán)節(jié),可以嘗試使用不同的自然語言處理模型,看看哪種模型在提取特定類型信息時效果最好;在驗證環(huán)節(jié),可以結(jié)合多種驗證方法,如基于網(wǎng)頁內(nèi)容的驗證、基于邏輯推理的驗證等,提高驗證結(jié)果的可靠性。

4. 根據(jù)評估結(jié)果優(yōu)化智能體搜索系統(tǒng) :在獲得評估結(jié)果后,深入分析系統(tǒng)的優(yōu)勢和不足。針對存在的問題,采取相應(yīng)的優(yōu)化措施。如果系統(tǒng)在時間變化任務(wù)上表現(xiàn)不佳,可以優(yōu)化網(wǎng)頁更新監(jiān)測模塊,提高對動態(tài)信息的捕捉能力;如果答案合成存在錯誤,可以改進信息整合算法,加強答案的邏輯性和連貫性。

下圖展示的 GUI 工具截圖,能夠直觀呈現(xiàn)智能體答案、預(yù)緩存網(wǎng)頁、評分規(guī)則以及評判智能體評估結(jié)果,借助此類工具可更高效地進行評估與分析工作。

一個用于可視化代理回答、預(yù)緩存網(wǎng)頁、評分標準以及評判代理評估結(jié)果的圖形用戶界面工具的截圖

人類與智能體搜索系統(tǒng)的協(xié)同工作

在與人類參與者的表現(xiàn)對比分析中,進一步探討人類如何與智能體搜索系統(tǒng)協(xié)同工作。在復(fù)雜信息獲取任務(wù)中,人類可以先利用智能體搜索系統(tǒng)提供的初步答案進行快速了解和初步判斷,然后發(fā)揮自己的批判性思維和背景知識優(yōu)勢,對答案進行深入分析和驗證。例如,在進行商業(yè)決策時,智能體搜索系統(tǒng)可以快速收集市場數(shù)據(jù)、競爭對手信息等,為決策者提供基礎(chǔ)數(shù)據(jù)支持;決策者則可以結(jié)合自己對市場的理解和經(jīng)驗,對這些數(shù)據(jù)進行深入解讀,識別潛在的機會和風(fēng)險,從而做出更明智的決策。

同時,人類還可以通過與智能體搜索系統(tǒng)的交互,幫助系統(tǒng)更好地理解任務(wù)需求和優(yōu)化搜索策略。例如,當智能體搜索系統(tǒng)對某個任務(wù)的語義理解存在偏差時,用戶可以通過反饋機制糾正系統(tǒng)的理解,引導(dǎo)系統(tǒng)更準確地獲取所需信息。這種人機協(xié)作模式可以充分發(fā)揮人類和智能體搜索系統(tǒng)各自的優(yōu)勢,提高整體的信息獲取效率和質(zhì)量。

總結(jié)

Mind2Web 2 基準測試及 Agent-as-a-Judge 評估框架為智能體搜索系統(tǒng)的評估與發(fā)展開辟了新路徑。它們搭建起量化評估的標尺,讓不同系統(tǒng)性能可比,為技術(shù)優(yōu)化錨定方向。Mind2Web 2 以真實復(fù)雜的任務(wù)為藍本,全面透視智能體搜索系統(tǒng)的能耐與短板。

這份研究其實還有一個意義就是給我們一個對AI系統(tǒng)的評估示范。它為我們在面對復(fù)雜的 AI 系統(tǒng)評估時,提供了一種科學(xué)、嚴謹且具有可操作性的范例。傳統(tǒng)的 AI 系統(tǒng)評估往往側(cè)重于單一維度的性能指標,如準確率、召回率等,而 Mind2Web 2 及其評估框架則展現(xiàn)了多維度、綜合性評估的范式。從任務(wù)設(shè)計層面,它依據(jù)現(xiàn)實性、長期性、艱巨性、客觀性和可驗證性等原則精心構(gòu)建任務(wù),確保評估場景貼近實際應(yīng)用,評估結(jié)果具備現(xiàn)實指導(dǎo)價值。這種任務(wù)設(shè)計思路啟示我們在評估 AI 系統(tǒng)時,不能僅著眼于實驗評測環(huán)境下的理想條件,而應(yīng)讓評估任務(wù)盡可能模擬真實世界中的復(fù)雜情境,這樣才能精準衡量 AI 系統(tǒng)在實際部署中可能遇到的挑戰(zhàn)。

在評估指標方面,Mind2Web 2 綜合考量了部分完成率、成功率、Pass@3、平均完成時間和平均答案長度等多元指標,全面展現(xiàn)了智能體搜索系統(tǒng)在任務(wù)完成度、效率以及答案質(zhì)量等各方面的表現(xiàn)。這不同于以往單純追求某一指標最大化的評估方式,而是更注重對系統(tǒng)綜合性能的刻畫,有利于我們更全面地了解 AI 系統(tǒng)的能力邊界。同時,其創(chuàng)新性的 Agent-as-a-Judge 評估框架,運用樹狀評分規(guī)則對復(fù)雜答案進行逐層分解評估,為處理長周期、復(fù)雜任務(wù)的 AI 系統(tǒng)評估提供了全新的視角和方法。這一框架不僅能夠精準判斷答案的正確性,還能細致分析答案中每個信息點的來源可靠性,為 AI 系統(tǒng)的優(yōu)化升級指明了具體方向,讓我們在評估過程中既能把握整體性能,又能深入剖析細節(jié)問題,為 AI 系統(tǒng)的持續(xù)改進提供了有力支撐。

了解了 Mind2Web 2 與智能體搜索系統(tǒng)后,LLM 在信息獲取領(lǐng)域的效率還是令人興奮的。智能體搜索系統(tǒng)憑自主智能,正重塑知識獲取途徑。從早期簡單搜索 API,到如今能攻克長周期復(fù)雜任務(wù)的 Deep Research 系統(tǒng),這種技術(shù)躍遷是革命性的。但挑戰(zhàn)猶存,時間變化任務(wù)處理、實時信息交互能力提升等難題待解。

Mind2Web 2 評估展現(xiàn)不同智能體搜索系統(tǒng)優(yōu)劣,人機對比鮮明。技術(shù)進步不能只盯著效率提升,還需在復(fù)雜性、準確性、可靠性上協(xié)同精進。誤差分析披露的常見錯誤及分布,為系統(tǒng)優(yōu)化點明關(guān)鍵。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-06-16 01:00:00

智能體AlphaEvolvAI

2025-05-23 03:00:00

2025-04-16 00:00:00

谷歌MCP人工智能

2025-05-26 09:49:59

多模態(tài)智能體RAG

2025-08-13 09:13:00

2024-06-13 09:20:26

2024-07-23 14:10:48

2025-10-09 09:09:55

2025-09-04 01:35:00

AI工作流智能體

2011-02-15 09:07:36

2024-10-18 15:20:00

2025-07-15 04:00:00

AI智能體人工智能

2025-07-17 08:14:22

2024-11-08 09:20:00

2015-09-15 10:54:54

HTTP2 WEB 性能優(yōu)化

2015-09-15 10:40:26

HTTP2 WEB 性能優(yōu)化

2015-09-15 10:46:29

2025-07-31 02:00:00

智能體Agent人工超級智能

2025-06-25 01:00:00

智能體蒸餾AI

2025-09-01 09:13:54

點贊
收藏

51CTO技術(shù)棧公眾號

国产午夜精品久久久久久免费视 | 精品人妻中文无码av在线 | 国偷自产av一区二区三区麻豆| 欧美一级特黄aaaaaa| 手机在线电影一区| 91久久精品一区二区二区| 中文字幕日韩专区| 国产熟女高潮视频| 日本黄色大片视频| 久久一区中文字幕| 日韩精品极品视频免费观看| 日韩视频 中文字幕| 亚洲视频在线免费播放| 精品国产91乱码一区二区三区四区| 亚洲激情中文1区| 成人写真福利网| 日本免费网站视频| 日本h片久久| 国产日韩精品一区二区三区在线| 亚洲va电影大全| 91精品国产闺蜜国产在线闺蜜| 国产精品久久久久久吹潮| 国产视频一区二区在线| 99在线看视频| 国产午夜小视频| 久久悠悠精品综合网| 午夜欧美2019年伦理| 国产伦精品一区二区三区高清| 欧美久久久久久久久久久久| 91在线一区| 午夜电影一区二区| 国产手机视频在线观看| av男人天堂网| 亚洲激情av| 亚洲精品成a人在线观看| 久草热视频在线观看| 秋霞av在线| 丁香一区二区| 欧美日韩精品中文字幕| 清纯唯美一区二区三区| 中文字幕人妻一区二区在线视频 | 成人av在线播放| 国产欧美精品一区二区色综合| 国产suv精品一区二区| 精品国产av无码| 国产精品无码久久久久| 亚洲色图欧美偷拍| 国产精品二区三区四区| 国内精品福利视频| 日韩久久综合| 欧美变态口味重另类| 婷婷五月综合缴情在线视频| 可以在线观看的av| 国产在线视频一区二区| 91国语精品自产拍在线观看性色| 国产精品无码久久久久一区二区| 国产suv精品一区| 精品噜噜噜噜久久久久久久久试看| 污污的网站免费| 女同一区二区免费aⅴ| 26uuu国产在线精品一区二区| 国产精品欧美一区二区| 久草网视频在线观看| 欧美一区成人| 亚洲人在线视频| 蜜桃视频无码区在线观看| 免费精品一区| 在线观看免费一区| 波多野结衣 作品| 污污网站在线看| 国产色一区二区| 亚洲精品一区国产精品| 开心激情综合网| 免费成人av在线播放| 韩国福利视频一区| 天天做夜夜爱爱爱| 国产传媒欧美日韩成人精品大片| 日韩一区二区三区在线| 91蝌蚪视频在线观看| 国产探花视频在线观看| 国产精品日日摸夜夜摸av| 韩国精品一区二区三区六区色诱| 91在线公开视频| 久久伊人亚洲| 成人黄色片在线| 老牛影视av牛牛影视av| 久久久久久电影| 国产精品theporn88| 亚洲欧美一区二区三| 国产精品18久久久久久vr| 国产精品激情自拍| 亚洲天堂一区在线观看| 毛片av一区二区三区| 日韩av第一页| 国产农村妇女毛片精品| 麻豆精品视频在线观看免费| 99re视频在线播放| 国模吧精品人体gogo| 97国产一区二区| 国内精品**久久毛片app| av手机免费看| 久久久www成人免费毛片麻豆| 做爰高潮hd色即是空| 99视频在线观看地址| 久久久三级国产网站| 亚洲精品国产一区| 大黄网站在线观看| 欧美人动与zoxxxx乱| 在线免费视频一区| 国产综合色激情| 日韩色在线观看| 亚洲精品成人无码| 国产成人一区| 久久免费观看视频| 国产91av视频| 黄页网站大全一区二区| 亚洲一区二区三| 国产在线你懂得| 亚州成人在线电影| 又黄又爽又色的视频| 欧美成年网站| 伊人久久久久久久久久久久久| 男生草女生视频| 欧美日韩一视频区二区| 欧美麻豆久久久久久中文| 九九免费精品视频| 久久精品国产**网站演员| 另类小说综合网| 成年在线观看免费人视频| 国产女同互慰高潮91漫画| www.av91| 欧美日韩大片| 精品视频色一区| 亚洲精品中文字幕乱码无线| 亚洲精品一二三**| 亚洲精品国产精品自产a区红杏吧| 婷婷久久综合网| 99国产精品99久久久久久粉嫩| 国产a级全部精品| 天堂中文在线视频| 中文字幕一区二区三区四区 | 番号集在线观看| 国产精品私人自拍| 国产在线无码精品| 九色porny视频在线观看| 色八戒一区二区三区| 少妇户外露出[11p]| 欧美亚洲国产激情| 欧美黑人xxxx| 黄色av一级片| 国产一区在线看| 精品久久免费观看| 97久久中文字幕| 日韩av一区二区在线观看| 精品一级少妇久久久久久久| 日韩影院精彩在线| 亚洲va久久久噜噜噜| 国产日产一区二区| 疯狂蹂躏欧美一区二区精品| 鲁大师私人影院在线观看| 999精品在线| 91久久嫩草影院一区二区| 天堂国产一区二区三区| 国产精品女主播在线观看| 免费一级特黄录像| 国产香蕉精品| 538国产精品一区二区免费视频 | 91精品国产91久久综合桃花 | 中文字幕系列一区| 国产一区二区三区久久精品 | 国产精品一区专区欧美日韩| 性中国xxx极品hd| 久久久久国色av免费看影院| 欧美私人情侣网站| 日韩中文字幕无砖| 亚洲视频一区二区三区| 久久精品视频5| 国产精品天美传媒沈樵| 日韩av影视大全| 亚洲人成久久| 日韩福利在线| 538视频在线| 欧美日韩精品免费| 欧美日韩一级大片| 麻豆精品久久久| 国产成人艳妇aa视频在线 | 麻豆成人在线视频| 91亚洲精品久久久蜜桃| 日本激情综合网| 午夜日韩av| 久久久神马电影| 羞羞的视频在线看| 亚洲精品动漫久久久久| 在线观看国产精品入口男同| 亚洲在线视频网站| 97人人模人人爽人人澡| 亚洲经典三级| 亚洲精品白虎| 久久99国产精品久久99大师| 国产精品视频区| 99riav视频在线观看| 日韩有码在线观看| 中文字幕一级片| 亚洲国产综合色| 日韩女优在线视频| 欧美另类专区| 日韩视频在线播放| 丁香婷婷成人| 91欧美精品成人综合在线观看| 五月天国产在线| 日韩电影中文字幕在线观看| 亚洲天堂网视频| 欧美日韩一区二区三区| 免费国产羞羞网站美图| 久久久精品国产免费观看同学| 亚洲丝袜在线观看| 欧美三级乱码| 亚洲精品一区二区三区四区五区| 欧美日韩一区二区三区在线电影 | 亚洲精品在线观看www| 日韩在线视频免费播放| 91亚洲国产成人精品一区二区三| 岛国av免费在线| 欧美一区影院| 亚洲精品成人久久久998| 一区二区小说| 国产精品普通话| 九九色在线视频| 日韩精品免费视频| 亚洲卡一卡二卡三| 正在播放一区二区| 久一区二区三区| 亚洲视频中文字幕| 久久嫩草捆绑紧缚| 国产精品福利在线播放| 四虎成人免费影院| 国产真实乱子伦精品视频| 成人午夜激情av| 天堂一区二区在线| 国产精品亚洲αv天堂无码| 亚洲免费播放| 久久久久久久久久久99| 精品高清在线| 欧洲精品国产| 亚洲调教一区| 欧美亚洲爱爱另类综合| 精品国产亚洲一区二区三区在线 | 性做久久久久久久| 91精品国产综合久久精品| 国产伦精品一区二区三区免.费| 亚洲精品一卡二卡| 美国黄色一级毛片| 99在线视频精品| 手机在线国产视频| 极品少妇xxxx精品少妇偷拍| 污污网站在线观看视频| 国产专区欧美精品| 一区二区三区四区影院| www.色综合.com| 亚洲天堂网一区二区| 久久久午夜精品| 免费看一级黄色| 亚洲免费在线观看| 国产大片aaa| 国产精品国产成人国产三级| 日本成人免费在线观看 | 久久久久中文| 久久男人资源站| 亚洲成人原创| 偷拍盗摄高潮叫床对白清晰| 国产精品精品| 欧美在线一二三区| 成人黄色av| 在线成人av电影| 亚洲va久久久噜噜噜久久| 鲁丝一区二区三区免费| 日韩精品看片| www.欧美黄色| 久久婷婷一区| 99中文字幕在线| 不卡大黄网站免费看| 午夜啪啪小视频| 成人综合婷婷国产精品久久蜜臀 | 欧美日韩亚洲国产成人| 亚洲无线视频| 99久re热视频精品98| 韩日在线一区| 天天碰免费视频| 国产精品香蕉一区二区三区| 欧美男女交配视频| 男女精品网站| 天天做天天干天天操| 成人av在线看| 强制高潮抽搐sm调教高h| 天天综合天天做天天综合| 91视频免费在线看| 日韩欧美在线播放| 色一情一乱一伦| 9191久久久久久久久久久| 日韩在线观看视频网站| zzijzzij亚洲日本成熟少妇| 美女网站在线看| 91久久嫩草影院一区二区| 欧美**字幕| 欧美一级二级三级九九九| 欧美在线精品一区| 亚洲色图 在线视频| 成人av在线一区二区| 国产大片免费看| 欧美亚洲国产一区二区三区va| 黄色片中文字幕| 日韩欧美中文字幕制服| 成年人视频免费在线观看| 98精品国产高清在线xxxx天堂| 91精品福利观看| 水蜜桃一区二区| 91视频一区| 国产1区2区在线| 97久久超碰精品国产| 欧美黑吊大战白妞| 欧美色网站导航| 青青青手机在线视频观看| 欧美黑人xxxⅹ高潮交| 国产一区二区三区| 亚洲欧洲日韩综合二区| 久久av在线| theav精尽人亡av| 岛国精品视频在线播放| 日本韩国免费观看| 欧美国产在线视频| 亚洲国产欧美在线观看| 波多野结衣激情| 蜜桃久久av一区| 亚洲a∨无码无在线观看| 欧亚一区二区三区| 国产露出视频在线观看| 日本欧美精品在线| 国产欧美日韩免费观看 | 久久国产精品色| 中文字幕第六页| 亚洲男同性恋视频| 国产免费黄色大片| 久久躁狠狠躁夜夜爽| 爱草tv视频在线观看992| 国产精品久久国产三级国电话系列 | 欧美一区二区三区婷婷月色| 免费黄色网页在线观看| 欧美激情极品视频| 亚洲网址在线观看| 欧美交换配乱吟粗大25p| 国产激情精品久久久第一区二区 | 在线免费看黄网站| 国产精品视频免费观看www| jlzzjlzz亚洲女人| 亚洲天堂2018av| 亚洲美女淫视频| www.色日本| 一区二区亚洲精品国产| 亚洲日本在线观看视频| 亚洲一区精彩视频| 国产精品久久久久久模特| 三上悠亚av一区二区三区| 国产精品丝袜一区| 国产视频第二页| 久久久久免费视频| 国产成人精品一区二区三区在线| 视频在线观看成人| 国产在线不卡一区| 久久精品国产av一区二区三区| 亚洲福利视频专区| 黄色动漫在线| 91精品国产91久久久久青草| 禁果av一区二区三区| 欧美日韩一区二区三区69堂| ●精品国产综合乱码久久久久| 免费黄色网址在线| 亚洲香蕉成视频在线观看| 欧美天堂一区二区| 99在线观看视频| 亚洲一区免费| 欧美大喷水吹潮合集在线观看| 日韩一区在线免费观看| 国产黄色片免费| 欧美一级淫片videoshd| 久久一区二区三区喷水| 成人做爰69片免费| 色狠狠色狠狠综合| 色婷婷av在线| 日本免费高清一区二区| 国产大陆精品国产| 成年人视频免费| 亚洲欧美在线免费| 91成人精品观看| 北条麻妃在线一区| 一区二区三区四区在线| 嫩草精品影院| 成人9ⅰ免费影视网站| 日韩精品1区2区3区| 欧美日韩免费做爰视频| 国产亚洲人成网站在线观看|