Mind2Web 2:智能體搜索系統(tǒng)的進化與評估之道

大家好,我是肆〇柒,相信使用過AI工具的各位,或多或少都會使用過AI搜索,而傳統(tǒng)網(wǎng)絡(luò)搜索方式正面臨前所未有的挑戰(zhàn)。用戶手動輸入關(guān)鍵詞,從海量搜索結(jié)果中逐一甄別、篩選并整合有用信息,這一過程不僅繁瑣耗時,還對用戶的認知能力提出了極高要求。然而,隨著大型語言模型(LLM)技術(shù)的飛速發(fā)展,智能體搜索系統(tǒng)一經(jīng)推出,就為信息獲取方式帶來了革命性的變革。智能體搜索系統(tǒng)能夠自主瀏覽網(wǎng)頁、分解復(fù)雜查詢、迭代搜索并交互動態(tài)網(wǎng)站,最終整合信息生成帶有引用的綜合答案,極大地減輕了用戶的信息處理負擔(dān)。
例如,在學(xué)術(shù)研究領(lǐng)域,當用戶需要收集某個課題的最新研究進展時,傳統(tǒng)搜索方式要求用戶多次輸入不同關(guān)鍵詞,逐一查看多個搜索結(jié)果頁面,手動整理相關(guān)信息。而智能體搜索系統(tǒng)則可以根據(jù)用戶給出的課題主題,自動分解任務(wù),從多個學(xué)術(shù)網(wǎng)站和數(shù)據(jù)庫中篩選、提取關(guān)鍵信息,如最新論文的標題、摘要、作者及發(fā)表時間等,并將這些信息整合成一份結(jié)構(gòu)清晰、帶有引用鏈接的報告返回給用戶。
當智能體搜索需要進行日常運營或進行產(chǎn)品改進的時候,評估就顯得尤為重要。現(xiàn)有的AI搜索評估基準和方法大多基于短時間跨度任務(wù)和靜態(tài)答案,難以適應(yīng)智能體搜索系統(tǒng)的復(fù)雜性和長期任務(wù)表現(xiàn),這嚴重限制了該領(lǐng)域的技術(shù)發(fā)展和應(yīng)用推廣。由俄亥俄州立大學(xué)和亞馬遜 AGI 共同提出的 Mind2Web 2 基準測試,期望能填補這一評估空白,為智能體搜索系統(tǒng)的開發(fā)、優(yōu)化和公平比較提供嚴謹、全面的基礎(chǔ)。它通過模擬真實世界的復(fù)雜信息獲取任務(wù),對智能體搜索系統(tǒng)進行全面、深入的評估,推動該技術(shù)領(lǐng)域向更高效、可靠的方向發(fā)展。
下圖展示了 Mind2Web 2 基準測試所具有的逼真且多樣化的長期網(wǎng)絡(luò)搜索任務(wù),以及用于評估復(fù)雜、時變且?guī)в幸么鸢傅膭?chuàng)新性 Agent-as-a-Judge 框架。

Mind2Web 2 特點是具有真實且多樣化的長期網(wǎng)絡(luò)搜索任務(wù),并引入了一種新穎的“Agent-as-a-Judge”框架,用于評估復(fù)雜、隨時間變化且有引文支持的答案
智能體搜索系統(tǒng)概述
智能體搜索系統(tǒng)的發(fā)展歷程可大致分為三個階段。最初階段是 LLM 與搜索 API 的簡單結(jié)合,如 MindSearch 嘗試模仿人類思維模式以激發(fā)更精準的 AI 搜索結(jié)果,以及 ChatGPT 和 Perplexity Search 等通過增強搜索能力來提升回答質(zhì)量的系統(tǒng)。這些系統(tǒng)初步實現(xiàn)了 LLM 與網(wǎng)絡(luò)信息的對接,但仍存在一定的局限性,如對動態(tài)網(wǎng)頁的處理能力較弱、搜索過程缺乏靈活性等。
隨后,自主網(wǎng)絡(luò)Agent技術(shù)逐漸興起,部分Agent具備了視覺感知能力,能夠像人類一樣實時瀏覽網(wǎng)頁。OpenAI 的 Operator 經(jīng)過強化學(xué)習(xí)訓(xùn)練,在完成特定任務(wù)方面表現(xiàn)出色。這一階段的技術(shù)突破使得智能體搜索系統(tǒng)能夠更深入地與網(wǎng)絡(luò)環(huán)境交互,獲取以往難以觸及的動態(tài)信息,拓展了應(yīng)用場景。
當前,智能體搜索系統(tǒng)已進化到專門優(yōu)化的 Deep Research 系統(tǒng)階段。以 OpenAI Deep Research 為代表的系統(tǒng)針對長周期瀏覽和復(fù)雜搜索行為進行了深度優(yōu)化。它們能夠處理更長時間跨度的任務(wù),能更有效地整合多源信息,生成更全面、深入的研究報告。例如,在進行行業(yè)市場調(diào)研時,Deep Research 系統(tǒng)可以長時間跟蹤多個市場動態(tài)網(wǎng)站,收集不同時間段的市場數(shù)據(jù)、企業(yè)動態(tài)、消費者反饋等信息,經(jīng)過深度整合和分析后,生成一份詳細的市場調(diào)研報告,為企業(yè)的戰(zhàn)略決策提供有力支持。
Mind2Web 2 基準測試
任務(wù)設(shè)計原則
Mind2Web 2 基準測試的任務(wù)設(shè)計遵循四大關(guān)鍵原則。首先,任務(wù)必須具有現(xiàn)實性,緊密貼合實際用戶需求場景,涵蓋購物、旅行規(guī)劃、學(xué)術(shù)研究等眾多領(lǐng)域,確保評估結(jié)果對現(xiàn)實應(yīng)用具有指導(dǎo)意義。例如,“從某旅游網(wǎng)站上獲取符合特定預(yù)算和時間要求的旅行套餐,并驗證其包含的景點和服務(wù)是否符合要求”這一任務(wù),真實反映了用戶在規(guī)劃旅行時的需求。
其次,任務(wù)需具備長期性和艱巨性,要求智能體進行多步驟搜索、跨多個網(wǎng)站收集信息,耗費大量時間和精力。例如,一個任務(wù)要求智能體收集某產(chǎn)品在過去一年內(nèi)不同時間點的價格波動情況、用戶評價變化以及相關(guān)促銷活動信息,這需要智能體在多個電商網(wǎng)站和消費者評價平臺之間來回切換,長時間跟蹤和整合數(shù)據(jù)。
客觀性和可驗證性也是任務(wù)設(shè)計的重要準則。每個任務(wù)都應(yīng)有明確、客觀的評估標準,答案能夠依據(jù)引用的網(wǎng)頁內(nèi)容進行驗證,避免模糊和主觀的評價標準,確保評估的公正性和準確性。例如,任務(wù)要求智能體獲取某學(xué)術(shù)會議的參會人員名單及所屬機構(gòu)時,答案中的每個參會人員信息都應(yīng)能通過會議官網(wǎng)或其他權(quán)威學(xué)術(shù)平臺的頁面進行驗證。
另外,時間變化性被納入考量,部分任務(wù)的答案會隨時間推移而變化,如產(chǎn)品價格波動、賽事安排更新等,以模擬真實世界中信息的動態(tài)變化,考驗智能體對實時信息的捕捉和處理能力。例如,一個任務(wù)要求智能體實時獲取某體育賽事的最新賽程安排和門票銷售情況,智能體需要能夠處理賽事官網(wǎng)頻繁更新的信息,確保提供的答案是最新的。
任務(wù)示例與類型分布
Mind2Web 2 包含 130 個高質(zhì)量任務(wù),分布在生活方式與休閑、娛樂、科學(xué)與研究、職業(yè)與教育、旅行與交通等多個領(lǐng)域。例如,一個典型任務(wù)是從 IKEA 網(wǎng)站尋找符合特定條件(如預(yù)算范圍、顏色要求等)的家具組合,并確保所有家具均來自該網(wǎng)站且符合指定要求。這些任務(wù)不僅貼近實際生活需求,還能全面評估智能體搜索系統(tǒng)在不同領(lǐng)域的表現(xiàn)。
如下圖所示為 Mind2Web 2 任務(wù)領(lǐng)域分布情況

Mind2Web 2包含130個多樣化的任務(wù),涵蓋6個廣泛領(lǐng)域和24個子領(lǐng)域
具體到任務(wù)類型分布,生活方式與休閑領(lǐng)域占比最高,達到 26%,包含 34 個任務(wù);娛樂領(lǐng)域緊隨其后,占比 22%,特定條件的家具組合。有 28 個任務(wù);科學(xué)與研究領(lǐng)域占比 18%,包含 23 個任務(wù)。其他領(lǐng)域如職業(yè)與教育、旅行與交通等也涵蓋了豐富多樣的任務(wù)類型,確保評估的全面性和廣泛性。
Agent-as-a-Judge 評估框架
核心思想與優(yōu)勢
Agent-as-a-Judge 評估框架是 Mind2Web 2 的核心創(chuàng)新之一。它通過構(gòu)建任務(wù)特定的評判智能體,自動評估智能體搜索系統(tǒng)生成的復(fù)雜、動態(tài)答案,解決了傳統(tǒng)評估方法在面對答案時間變化性和結(jié)構(gòu)復(fù)雜性時的局限。這一框架充分利用了任務(wù)的先驗知識,設(shè)計出能夠精準評估答案正確性和歸屬性的評分規(guī)則,確保評估結(jié)果既全面又準確。
與以往評估方法不同,Agent-as-a-Judge 能夠深入理解每個任務(wù)的核心要求,并將其轉(zhuǎn)化為可操作的評估邏輯。它能判斷答案是否滿足任務(wù)的基本要求,還能細致評估答案中每個陳述是否都能準確歸屬到相應(yīng)的引用來源。這種精準的評估方式為智能體搜索系統(tǒng)的優(yōu)化提供了極具價值的反饋,有助于推動系統(tǒng)性能的持續(xù)提升。
例如,在傳統(tǒng)評估方法中,對于一個要求整合多個來源信息的任務(wù),可能只能判斷最終答案是否正確,但無法準確評估答案中每個信息點的來源是否可靠。而 Agent-as-a-Judge 框架則能逐一驗證每個信息點的歸屬,指出具體問題所在,為系統(tǒng)的改進提供明確方向。
樹狀評分規(guī)則設(shè)計
該框架采用樹狀評分規(guī)則,將評估過程分解為多個層次。葉子節(jié)點代表基本評估標準,如檢查信息準確性、歸屬正確性等。內(nèi)部節(jié)點則負責(zé)按邏輯關(guān)系聚合多個葉子節(jié)點的結(jié)果,形成更高層次的評估結(jié)論。例如,對于一個要求查找特定家具組合的任務(wù),葉子節(jié)點可能包括檢查每件家具的顏色是否符合要求、價格是否在預(yù)算范圍內(nèi)、是否來自指定網(wǎng)站等具體標準。
下圖為樹狀評分規(guī)則示例,更直觀地展示了從任務(wù)目標逐層分解到具體評估準則,以及從底層準則評估結(jié)果逐級匯總得到整體任務(wù)評分的全過程。


樹形結(jié)構(gòu)評分細則示例。自上而下,任務(wù)目標被分解為樹形結(jié)構(gòu);自下而上,葉節(jié)點的二進制評分被匯總為整體任務(wù)評分
在樹狀結(jié)構(gòu)中,不同節(jié)點類型發(fā)揮著關(guān)鍵作用。關(guān)鍵節(jié)點代表基本且核心的評估標準,若關(guān)鍵節(jié)點失敗,可能導(dǎo)致整個任務(wù)評分失敗。非關(guān)鍵節(jié)點則允許部分得分,以體現(xiàn)任務(wù)完成的層次和重點。這種設(shè)計使得評估結(jié)果能夠更精準地反映智能體在任務(wù)中的表現(xiàn),既不會因個別非關(guān)鍵錯誤而完全否定系統(tǒng)的努力,也不會忽略關(guān)鍵錯誤,確保評估的合理性和公平性。
評判智能體的構(gòu)建與驗證
評判智能體的構(gòu)建基于評分規(guī)則,涉及信息提取和驗證兩個核心環(huán)節(jié)。信息提取器利用自然語言處理技術(shù)從答案中精準定位關(guān)鍵信息片段,如通過模式匹配和語義分析提取家具名稱、價格、顏色等關(guān)鍵屬性。驗證器則根據(jù)規(guī)則對比提取信息與引用網(wǎng)頁內(nèi)容,判斷信息是否準確、歸屬是否正確。
為了確保評判智能體的準確性和可靠性,開發(fā)團隊采用了人工標注樣例數(shù)據(jù)與評判智能體輸出進行對比的方式。通過持續(xù)優(yōu)化評估邏輯,評判智能體的評估結(jié)果與預(yù)期標準高度一致。例如,在測試過程中發(fā)現(xiàn)驗證器對某些模糊信息的判斷存在偏差后,開發(fā)團隊調(diào)整了相關(guān)算法參數(shù),提升了評判智能體的準確性,使其能夠更可靠地為智能體搜索系統(tǒng)提供評估服務(wù)。
在構(gòu)建評判智能體時,信息提取器采用了基于 transformer 架構(gòu)的深度學(xué)習(xí)模型,該模型經(jīng)過大量文本數(shù)據(jù)訓(xùn)練,能夠理解自然語言的語義和結(jié)構(gòu),從而準確提取關(guān)鍵信息。驗證器則結(jié)合了網(wǎng)頁內(nèi)容解析技術(shù)和邏輯推理算法,不僅能夠檢查引用鏈接的有效性,還能判斷鏈接內(nèi)容與答案信息是否匹配,確保每個信息點都有準確可靠的來源支持。
實驗與評估
實驗設(shè)置
實驗涵蓋了多種類型的智能體搜索系統(tǒng),包括商業(yè)搜索產(chǎn)品(如 ChatGPT Search、Perplexity Pro Search)、Deep Research 系統(tǒng)(如 OpenAI Deep Research、Grok DeepSearch 等)以及 OpenAI Operator。每個系統(tǒng)都有其獨特的技術(shù)特點和優(yōu)勢。例如,Deep Research 系統(tǒng)通常具備更強的長周期任務(wù)處理和信息整合能力,能夠在面對復(fù)雜任務(wù)時保持較高的性能表現(xiàn);而 OpenAI Operator 則在處理需要視覺交互的任務(wù)上具有一定優(yōu)勢。
評估指標主要包括部分完成率、成功率、Pass@3、平均完成時間和平均答案長度。下表展示了各系統(tǒng)的主評估結(jié)果,包括這些評估指標的具體數(shù)值及標準差,從中可直觀對比不同智能體搜索系統(tǒng)的表現(xiàn)。

主要評估結(jié)果。 其中報告了部分完成得分、完整任務(wù)成功率、Pass@3、平均時間(以分鐘計)、平均回答長度(以單詞計)及其標準差
部分完成率反映系統(tǒng)在任務(wù)部分要求上的達成情況,成功率體現(xiàn)系統(tǒng)完整準確完成任務(wù)的能力,Pass@3 表示至少有一次嘗試成功的任務(wù)比例,平均完成時間和平均答案長度則分別從效率和信息量角度衡量系統(tǒng)表現(xiàn)。這些指標相互補充,共同勾勒出智能體搜索系統(tǒng)在不同維度上的性能圖譜。
主要結(jié)果
不同智能體搜索系統(tǒng)在 Mind2Web 2 基準測試上的表現(xiàn)差異顯著。基于搜索的 LLM 系統(tǒng)如 ChatGPT Search 和 Perplexity Pro Search 因搜索范圍有限、信息整合能力較弱,在復(fù)雜任務(wù)上得分較低。網(wǎng)頁Agent系統(tǒng)如 OpenAI Operator 在處理需要視覺交互的任務(wù)上表現(xiàn)出色,但在涉及長時間信息整合的任務(wù)中略顯不足。Deep Research 系統(tǒng)則在長時間任務(wù)和綜合信息整合方面展現(xiàn)出強大的能力,例如 OpenAI Deep Research 在多個任務(wù)中取得了較高的部分完成率和成功率,證明了其在復(fù)雜信息獲取任務(wù)中的優(yōu)勢。
在時間變化任務(wù)上,Deep Research 系統(tǒng)憑借其采用的實時網(wǎng)頁監(jiān)控算法,能及時捕捉網(wǎng)頁內(nèi)容更新,動態(tài)調(diào)整搜索策略以獲取最新信息。相比其他系統(tǒng),它在處理這類任務(wù)時具有明顯優(yōu)勢。然而,過度依賴實時信息也可能導(dǎo)致其忽略部分穩(wěn)定的背景知識,這是其在時間變化任務(wù)處理中需要進一步優(yōu)化的方向。
下圖以平均部分完成率與平均任務(wù)完成時間的對比,生動展現(xiàn)了不同系統(tǒng)在效率與任務(wù)完成質(zhì)量方面的權(quán)衡關(guān)系。

部分完成率與平均完成任務(wù)時間的對比”或“平均部分完成率與平均任務(wù)完成時間的比較
下圖則清晰呈現(xiàn)了在明確時變?nèi)蝿?wù)上與其它任務(wù)的平均部分完成率對比,凸顯了各智能體搜索系統(tǒng)在應(yīng)對時變?nèi)蝿?wù)時的能力差異。

在明確具有時間變化特征的任務(wù)中,平均部分完成率與其他所有任務(wù)相比
下圖所示為不同智能體搜索系統(tǒng)在常見錯誤類型上的分布情況,通過該圖可深入了解各系統(tǒng)在各類錯誤上的易發(fā)情況,進而明確其性能瓶頸與改進方向。

不同智能體與人類之間的錯誤情況。柱狀圖表示每種錯誤類型在任務(wù)中所占的百分比。其中包含了來自五個智能體搜索系統(tǒng)以及人類的結(jié)果
與人類參與者的表現(xiàn)對比分析顯示,人類在處理復(fù)雜信息獲取任務(wù)時,能夠靈活運用背景知識和批判性思維,對信息進行深度分析和判斷。例如,在評估某學(xué)術(shù)論文的重要性時,人類可以結(jié)合自己對該領(lǐng)域的了解,判斷論文的創(chuàng)新性和影響力,而智能體搜索系統(tǒng)可能僅能基于引用次數(shù)等表面指標進行評估。但人類容易受認知疲勞影響,隨著任務(wù)時間延長,錯誤率可能上升。而智能體搜索系統(tǒng)在穩(wěn)定性、持續(xù)性方面表現(xiàn)更為出色,能長時間穩(wěn)定輸出答案,減少因疲勞導(dǎo)致的錯誤。例如,在一些需要長時間瀏覽和整合大量網(wǎng)頁信息的任務(wù)中,智能體搜索系統(tǒng)能夠保持一致的性能表現(xiàn),而人類可能會因注意力下降而遺漏關(guān)鍵信息或出現(xiàn)判斷失誤。
誤差分析
常見錯誤類型
在智能體搜索系統(tǒng)和人類答案中,共定義了七種常見錯誤類型。信息缺失錯誤包括信息未找到和部分缺失兩種情況。例如,系統(tǒng)可能因搜索策略不完善而未能檢索到關(guān)鍵數(shù)據(jù),或者只提供了部分任務(wù)要求的信息。標準違反錯誤是指答案不符合任務(wù)中的明確限制條件,如提供的商品價格超出預(yù)算范圍、回答內(nèi)容不符合指定格式等。
如下圖所示,在不同智能體搜索系統(tǒng)和人類的答案中,各類錯誤類型分布各異,這些數(shù)據(jù)為我們深入剖析各系統(tǒng)的性能表現(xiàn)提供了有力支撐。

不同智能體與人類之間的錯誤情況。柱狀圖表示每種錯誤類型在任務(wù)中所占的百分比。其中包含了來自五個智能體搜索系統(tǒng)以及人類的結(jié)果
無效歸屬錯誤表現(xiàn)為提供錯誤或虛構(gòu)的引用鏈接,這可能是由于系統(tǒng)在生成引用時未對鏈接的有效性進行充分驗證。缺失歸屬錯誤則是未為必要信息提供來源鏈接,導(dǎo)致信息無法追溯。支持答案錯誤進一步細分為合成錯誤和檢索錯誤。合成錯誤是指從正確網(wǎng)頁提取錯誤信息,如誤解網(wǎng)頁內(nèi)容導(dǎo)致信息扭曲;檢索錯誤則是引用了與任務(wù)無關(guān)的網(wǎng)頁,使得答案缺乏有效支持。
錯誤分布與影響
分析不同智能體搜索系統(tǒng)和人類在錯誤類型上的分布情況,可以發(fā)現(xiàn)各系統(tǒng)性能的瓶頸和改進方向。某些系統(tǒng)因搜索模塊的缺陷,信息缺失錯誤頻發(fā);其他系統(tǒng)可能因歸屬處理模塊不完善,出現(xiàn)大量無效或缺失歸屬錯誤。例如,部分基于搜索的 LLM 系統(tǒng)由于缺乏對網(wǎng)頁內(nèi)容的深度理解和有效的引用管理機制,在合成答案時容易出現(xiàn)信息缺失和歸屬錯誤;而一些網(wǎng)頁Agent系統(tǒng)可能因視覺交互過程中的不穩(wěn)定因素,導(dǎo)致在信息提取和歸屬處理上出現(xiàn)偏差。
討論與啟示
智能體搜索系統(tǒng)的潛力與局限
智能體搜索系統(tǒng)展現(xiàn)出了巨大的潛力。它能夠顯著減輕用戶在信息獲取過程中的認知負擔(dān),尤其適用于大規(guī)模數(shù)據(jù)搜索和精細信息提取任務(wù)。例如,在學(xué)術(shù)研究領(lǐng)域,智能體搜索系統(tǒng)可以幫助研究人員快速收集和整合大量文獻資料,提高研究效率;在商業(yè)領(lǐng)域,它能夠為企業(yè)決策提供及時、準確的市場情報支持。
然而,當前智能體搜索系統(tǒng)仍面臨一些挑戰(zhàn)。在處理時間變化任務(wù)時,部分系統(tǒng)可能因動態(tài)網(wǎng)頁更新監(jiān)測的延遲而無法及時獲取最新信息;在實時信息交互方面,某些系統(tǒng)對交互指令的執(zhí)行精度不足,導(dǎo)致信息提取不完整或不準確。此外,現(xiàn)有模型在長距離推理和規(guī)劃能力上也存在一定局限,面對多步驟復(fù)雜任務(wù)時,可能出現(xiàn)規(guī)劃不合理、推理不準確的問題,影響最終答案的質(zhì)量。
未來發(fā)展方向
智能體搜索系統(tǒng)的進一步發(fā)展,首先需要加強實時網(wǎng)頁瀏覽和交互能力。開發(fā)更高效的網(wǎng)頁動態(tài)監(jiān)測算法,能夠?qū)崟r捕捉網(wǎng)頁內(nèi)容的細微變化,確保信息的時效性;同時優(yōu)化交互指令的執(zhí)行精度,提升系統(tǒng)在復(fù)雜網(wǎng)頁環(huán)境中的操作能力。
優(yōu)化長距離推理和規(guī)劃是關(guān)鍵。借鑒人類認知模型,改進智能體的規(guī)劃策略,使其能夠更好地處理多步驟復(fù)雜任務(wù),從整體上把握任務(wù)目標,合理安排搜索路徑和信息整合方式。
提高答案合成的準確性至關(guān)重要。引入更先進的自然語言處理技術(shù),確保信息整合的完整性和正確性,使答案內(nèi)容豐富,而且邏輯嚴密、表達清晰。
實操性建議
對于希望利用 Mind2Web 2 基準測試來評估和優(yōu)化智能體搜索系統(tǒng),以下是一些具體建議:
1. 任務(wù)設(shè)計 :根據(jù) Mind2Web 2 的任務(wù)設(shè)計原則,結(jié)合自身需求設(shè)計評估任務(wù)。確保任務(wù)具有現(xiàn)實性、長期性、艱巨性、客觀性和可驗證性。例如,如果要評估智能體搜索系統(tǒng)在金融領(lǐng)域的信息獲取能力,可以設(shè)計一個任務(wù),要求系統(tǒng)收集某只股票在過去一年內(nèi)的價格走勢、重大新聞事件、公司財務(wù)報告關(guān)鍵數(shù)據(jù)等信息,并整合成一份投資分析報告。
2. 評估指標選擇 :參考 Mind2Web 2 的評估指標體系,選擇適合自己的評估指標。除了部分完成率、成功率等常見指標外,還可以根據(jù)任務(wù)特點增加一些特定指標,如答案的深度(信息的詳細程度)、廣度(覆蓋的方面)等。
3. 利用 Agent-as-a-Judge 框架 :學(xué)習(xí) Mind2Web 2 中 Agent-as-a-Judge 框架的構(gòu)建方法,開發(fā)自己的評判智能體。在構(gòu)建過程中,注重信息提取和驗證環(huán)節(jié)的優(yōu)化,提高評判智能體的準確性。例如,在信息提取環(huán)節(jié),可以嘗試使用不同的自然語言處理模型,看看哪種模型在提取特定類型信息時效果最好;在驗證環(huán)節(jié),可以結(jié)合多種驗證方法,如基于網(wǎng)頁內(nèi)容的驗證、基于邏輯推理的驗證等,提高驗證結(jié)果的可靠性。
4. 根據(jù)評估結(jié)果優(yōu)化智能體搜索系統(tǒng) :在獲得評估結(jié)果后,深入分析系統(tǒng)的優(yōu)勢和不足。針對存在的問題,采取相應(yīng)的優(yōu)化措施。如果系統(tǒng)在時間變化任務(wù)上表現(xiàn)不佳,可以優(yōu)化網(wǎng)頁更新監(jiān)測模塊,提高對動態(tài)信息的捕捉能力;如果答案合成存在錯誤,可以改進信息整合算法,加強答案的邏輯性和連貫性。
下圖展示的 GUI 工具截圖,能夠直觀呈現(xiàn)智能體答案、預(yù)緩存網(wǎng)頁、評分規(guī)則以及評判智能體評估結(jié)果,借助此類工具可更高效地進行評估與分析工作。

一個用于可視化代理回答、預(yù)緩存網(wǎng)頁、評分標準以及評判代理評估結(jié)果的圖形用戶界面工具的截圖
人類與智能體搜索系統(tǒng)的協(xié)同工作
在與人類參與者的表現(xiàn)對比分析中,進一步探討人類如何與智能體搜索系統(tǒng)協(xié)同工作。在復(fù)雜信息獲取任務(wù)中,人類可以先利用智能體搜索系統(tǒng)提供的初步答案進行快速了解和初步判斷,然后發(fā)揮自己的批判性思維和背景知識優(yōu)勢,對答案進行深入分析和驗證。例如,在進行商業(yè)決策時,智能體搜索系統(tǒng)可以快速收集市場數(shù)據(jù)、競爭對手信息等,為決策者提供基礎(chǔ)數(shù)據(jù)支持;決策者則可以結(jié)合自己對市場的理解和經(jīng)驗,對這些數(shù)據(jù)進行深入解讀,識別潛在的機會和風(fēng)險,從而做出更明智的決策。
同時,人類還可以通過與智能體搜索系統(tǒng)的交互,幫助系統(tǒng)更好地理解任務(wù)需求和優(yōu)化搜索策略。例如,當智能體搜索系統(tǒng)對某個任務(wù)的語義理解存在偏差時,用戶可以通過反饋機制糾正系統(tǒng)的理解,引導(dǎo)系統(tǒng)更準確地獲取所需信息。這種人機協(xié)作模式可以充分發(fā)揮人類和智能體搜索系統(tǒng)各自的優(yōu)勢,提高整體的信息獲取效率和質(zhì)量。
總結(jié)
Mind2Web 2 基準測試及 Agent-as-a-Judge 評估框架為智能體搜索系統(tǒng)的評估與發(fā)展開辟了新路徑。它們搭建起量化評估的標尺,讓不同系統(tǒng)性能可比,為技術(shù)優(yōu)化錨定方向。Mind2Web 2 以真實復(fù)雜的任務(wù)為藍本,全面透視智能體搜索系統(tǒng)的能耐與短板。
這份研究其實還有一個意義就是給我們一個對AI系統(tǒng)的評估示范。它為我們在面對復(fù)雜的 AI 系統(tǒng)評估時,提供了一種科學(xué)、嚴謹且具有可操作性的范例。傳統(tǒng)的 AI 系統(tǒng)評估往往側(cè)重于單一維度的性能指標,如準確率、召回率等,而 Mind2Web 2 及其評估框架則展現(xiàn)了多維度、綜合性評估的范式。從任務(wù)設(shè)計層面,它依據(jù)現(xiàn)實性、長期性、艱巨性、客觀性和可驗證性等原則精心構(gòu)建任務(wù),確保評估場景貼近實際應(yīng)用,評估結(jié)果具備現(xiàn)實指導(dǎo)價值。這種任務(wù)設(shè)計思路啟示我們在評估 AI 系統(tǒng)時,不能僅著眼于實驗評測環(huán)境下的理想條件,而應(yīng)讓評估任務(wù)盡可能模擬真實世界中的復(fù)雜情境,這樣才能精準衡量 AI 系統(tǒng)在實際部署中可能遇到的挑戰(zhàn)。
在評估指標方面,Mind2Web 2 綜合考量了部分完成率、成功率、Pass@3、平均完成時間和平均答案長度等多元指標,全面展現(xiàn)了智能體搜索系統(tǒng)在任務(wù)完成度、效率以及答案質(zhì)量等各方面的表現(xiàn)。這不同于以往單純追求某一指標最大化的評估方式,而是更注重對系統(tǒng)綜合性能的刻畫,有利于我們更全面地了解 AI 系統(tǒng)的能力邊界。同時,其創(chuàng)新性的 Agent-as-a-Judge 評估框架,運用樹狀評分規(guī)則對復(fù)雜答案進行逐層分解評估,為處理長周期、復(fù)雜任務(wù)的 AI 系統(tǒng)評估提供了全新的視角和方法。這一框架不僅能夠精準判斷答案的正確性,還能細致分析答案中每個信息點的來源可靠性,為 AI 系統(tǒng)的優(yōu)化升級指明了具體方向,讓我們在評估過程中既能把握整體性能,又能深入剖析細節(jié)問題,為 AI 系統(tǒng)的持續(xù)改進提供了有力支撐。
了解了 Mind2Web 2 與智能體搜索系統(tǒng)后,LLM 在信息獲取領(lǐng)域的效率還是令人興奮的。智能體搜索系統(tǒng)憑自主智能,正重塑知識獲取途徑。從早期簡單搜索 API,到如今能攻克長周期復(fù)雜任務(wù)的 Deep Research 系統(tǒng),這種技術(shù)躍遷是革命性的。但挑戰(zhàn)猶存,時間變化任務(wù)處理、實時信息交互能力提升等難題待解。
Mind2Web 2 評估展現(xiàn)不同智能體搜索系統(tǒng)優(yōu)劣,人機對比鮮明。技術(shù)進步不能只盯著效率提升,還需在復(fù)雜性、準確性、可靠性上協(xié)同精進。誤差分析披露的常見錯誤及分布,為系統(tǒng)優(yōu)化點明關(guān)鍵。

































