Mind2Web 2：智能體搜索系統(tǒng)的進化與評估之道

作者：肆零柒 2025-07-03 07:55:27

在信息大量溢出的時代，智能體搜索系統(tǒng)正以其強大的自主性和智能化能力，重塑我們獲取知識的方式。Mind2Web 2 基準測試的推出，為這一技術(shù)的評估與發(fā)展提供一份參考，讓我們得以窺見智能體搜索系統(tǒng)的無限潛力與挑戰(zhàn)。

大家好，我是肆〇柒，相信使用過AI工具的各位，或多或少都會使用過AI搜索，而傳統(tǒng)網(wǎng)絡(luò)搜索方式正面臨前所未有的挑戰(zhàn)。用戶手動輸入關(guān)鍵詞，從海量搜索結(jié)果中逐一甄別、篩選并整合有用信息，這一過程不僅繁瑣耗時，還對用戶的認知能力提出了極高要求。然而，隨著大型語言模型（LLM）技術(shù)的飛速發(fā)展，智能體搜索系統(tǒng)一經(jīng)推出，就為信息獲取方式帶來了革命性的變革。智能體搜索系統(tǒng)能夠自主瀏覽網(wǎng)頁、分解復(fù)雜查詢、迭代搜索并交互動態(tài)網(wǎng)站，最終整合信息生成帶有引用的綜合答案，極大地減輕了用戶的信息處理負擔(dān)。

例如，在學(xué)術(shù)研究領(lǐng)域，當用戶需要收集某個課題的最新研究進展時，傳統(tǒng)搜索方式要求用戶多次輸入不同關(guān)鍵詞，逐一查看多個搜索結(jié)果頁面，手動整理相關(guān)信息。而智能體搜索系統(tǒng)則可以根據(jù)用戶給出的課題主題，自動分解任務(wù)，從多個學(xué)術(shù)網(wǎng)站和數(shù)據(jù)庫中篩選、提取關(guān)鍵信息，如最新論文的標題、摘要、作者及發(fā)表時間等，并將這些信息整合成一份結(jié)構(gòu)清晰、帶有引用鏈接的報告返回給用戶。

當智能體搜索需要進行日常運營或進行產(chǎn)品改進的時候，評估就顯得尤為重要。現(xiàn)有的AI搜索評估基準和方法大多基于短時間跨度任務(wù)和靜態(tài)答案，難以適應(yīng)智能體搜索系統(tǒng)的復(fù)雜性和長期任務(wù)表現(xiàn)，這嚴重限制了該領(lǐng)域的技術(shù)發(fā)展和應(yīng)用推廣。由俄亥俄州立大學(xué)和亞馬遜 AGI 共同提出的 Mind2Web 2 基準測試，期望能填補這一評估空白，為智能體搜索系統(tǒng)的開發(fā)、優(yōu)化和公平比較提供嚴謹、全面的基礎(chǔ)。它通過模擬真實世界的復(fù)雜信息獲取任務(wù)，對智能體搜索系統(tǒng)進行全面、深入的評估，推動該技術(shù)領(lǐng)域向更高效、可靠的方向發(fā)展。

下圖展示了 Mind2Web 2 基準測試所具有的逼真且多樣化的長期網(wǎng)絡(luò)搜索任務(wù)，以及用于評估復(fù)雜、時變且?guī)в幸么鸢傅膭?chuàng)新性 Agent-as-a-Judge 框架。

Mind2Web 2 特點是具有真實且多樣化的長期網(wǎng)絡(luò)搜索任務(wù)，并引入了一種新穎的“Agent-as-a-Judge”框架，用于評估復(fù)雜、隨時間變化且有引文支持的答案

智能體搜索系統(tǒng)概述

智能體搜索系統(tǒng)的發(fā)展歷程可大致分為三個階段。最初階段是 LLM 與搜索 API 的簡單結(jié)合，如 MindSearch 嘗試模仿人類思維模式以激發(fā)更精準的 AI 搜索結(jié)果，以及 ChatGPT 和 Perplexity Search 等通過增強搜索能力來提升回答質(zhì)量的系統(tǒng)。這些系統(tǒng)初步實現(xiàn)了 LLM 與網(wǎng)絡(luò)信息的對接，但仍存在一定的局限性，如對動態(tài)網(wǎng)頁的處理能力較弱、搜索過程缺乏靈活性等。

隨后，自主網(wǎng)絡(luò)Agent技術(shù)逐漸興起，部分Agent具備了視覺感知能力，能夠像人類一樣實時瀏覽網(wǎng)頁。OpenAI 的 Operator 經(jīng)過強化學(xué)習(xí)訓(xùn)練，在完成特定任務(wù)方面表現(xiàn)出色。這一階段的技術(shù)突破使得智能體搜索系統(tǒng)能夠更深入地與網(wǎng)絡(luò)環(huán)境交互，獲取以往難以觸及的動態(tài)信息，拓展了應(yīng)用場景。

當前，智能體搜索系統(tǒng)已進化到專門優(yōu)化的 Deep Research 系統(tǒng)階段。以 OpenAI Deep Research 為代表的系統(tǒng)針對長周期瀏覽和復(fù)雜搜索行為進行了深度優(yōu)化。它們能夠處理更長時間跨度的任務(wù)，能更有效地整合多源信息，生成更全面、深入的研究報告。例如，在進行行業(yè)市場調(diào)研時，Deep Research 系統(tǒng)可以長時間跟蹤多個市場動態(tài)網(wǎng)站，收集不同時間段的市場數(shù)據(jù)、企業(yè)動態(tài)、消費者反饋等信息，經(jīng)過深度整合和分析后，生成一份詳細的市場調(diào)研報告，為企業(yè)的戰(zhàn)略決策提供有力支持。

Mind2Web 2 基準測試

任務(wù)設(shè)計原則

Mind2Web 2 基準測試的任務(wù)設(shè)計遵循四大關(guān)鍵原則。首先，任務(wù)必須具有現(xiàn)實性，緊密貼合實際用戶需求場景，涵蓋購物、旅行規(guī)劃、學(xué)術(shù)研究等眾多領(lǐng)域，確保評估結(jié)果對現(xiàn)實應(yīng)用具有指導(dǎo)意義。例如，“從某旅游網(wǎng)站上獲取符合特定預(yù)算和時間要求的旅行套餐，并驗證其包含的景點和服務(wù)是否符合要求”這一任務(wù)，真實反映了用戶在規(guī)劃旅行時的需求。

其次，任務(wù)需具備長期性和艱巨性，要求智能體進行多步驟搜索、跨多個網(wǎng)站收集信息，耗費大量時間和精力。例如，一個任務(wù)要求智能體收集某產(chǎn)品在過去一年內(nèi)不同時間點的價格波動情況、用戶評價變化以及相關(guān)促銷活動信息，這需要智能體在多個電商網(wǎng)站和消費者評價平臺之間來回切換，長時間跟蹤和整合數(shù)據(jù)。

客觀性和可驗證性也是任務(wù)設(shè)計的重要準則。每個任務(wù)都應(yīng)有明確、客觀的評估標準，答案能夠依據(jù)引用的網(wǎng)頁內(nèi)容進行驗證，避免模糊和主觀的評價標準，確保評估的公正性和準確性。例如，任務(wù)要求智能體獲取某學(xué)術(shù)會議的參會人員名單及所屬機構(gòu)時，答案中的每個參會人員信息都應(yīng)能通過會議官網(wǎng)或其他權(quán)威學(xué)術(shù)平臺的頁面進行驗證。

另外，時間變化性被納入考量，部分任務(wù)的答案會隨時間推移而變化，如產(chǎn)品價格波動、賽事安排更新等，以模擬真實世界中信息的動態(tài)變化，考驗智能體對實時信息的捕捉和處理能力。例如，一個任務(wù)要求智能體實時獲取某體育賽事的最新賽程安排和門票銷售情況，智能體需要能夠處理賽事官網(wǎng)頻繁更新的信息，確保提供的答案是最新的。

任務(wù)示例與類型分布

Mind2Web 2 包含 130 個高質(zhì)量任務(wù)，分布在生活方式與休閑、娛樂、科學(xué)與研究、職業(yè)與教育、旅行與交通等多個領(lǐng)域。例如，一個典型任務(wù)是從 IKEA 網(wǎng)站尋找符合特定條件（如預(yù)算范圍、顏色要求等）的家具組合，并確保所有家具均來自該網(wǎng)站且符合指定要求。這些任務(wù)不僅貼近實際生活需求，還能全面評估智能體搜索系統(tǒng)在不同領(lǐng)域的表現(xiàn)。

如下圖所示為 Mind2Web 2 任務(wù)領(lǐng)域分布情況

Mind2Web 2包含130個多樣化的任務(wù)，涵蓋6個廣泛領(lǐng)域和24個子領(lǐng)域

具體到任務(wù)類型分布，生活方式與休閑領(lǐng)域占比最高，達到 26%，包含 34 個任務(wù)；娛樂領(lǐng)域緊隨其后，占比 22%，特定條件的家具組合。有 28 個任務(wù)；科學(xué)與研究領(lǐng)域占比 18%，包含 23 個任務(wù)。其他領(lǐng)域如職業(yè)與教育、旅行與交通等也涵蓋了豐富多樣的任務(wù)類型，確保評估的全面性和廣泛性。

Agent-as-a-Judge 評估框架

核心思想與優(yōu)勢

Agent-as-a-Judge 評估框架是 Mind2Web 2 的核心創(chuàng)新之一。它通過構(gòu)建任務(wù)特定的評判智能體，自動評估智能體搜索系統(tǒng)生成的復(fù)雜、動態(tài)答案，解決了傳統(tǒng)評估方法在面對答案時間變化性和結(jié)構(gòu)復(fù)雜性時的局限。這一框架充分利用了任務(wù)的先驗知識，設(shè)計出能夠精準評估答案正確性和歸屬性的評分規(guī)則，確保評估結(jié)果既全面又準確。

與以往評估方法不同，Agent-as-a-Judge 能夠深入理解每個任務(wù)的核心要求，并將其轉(zhuǎn)化為可操作的評估邏輯。它能判斷答案是否滿足任務(wù)的基本要求，還能細致評估答案中每個陳述是否都能準確歸屬到相應(yīng)的引用來源。這種精準的評估方式為智能體搜索系統(tǒng)的優(yōu)化提供了極具價值的反饋，有助于推動系統(tǒng)性能的持續(xù)提升。

例如，在傳統(tǒng)評估方法中，對于一個要求整合多個來源信息的任務(wù)，可能只能判斷最終答案是否正確，但無法準確評估答案中每個信息點的來源是否可靠。而 Agent-as-a-Judge 框架則能逐一驗證每個信息點的歸屬，指出具體問題所在，為系統(tǒng)的改進提供明確方向。

樹狀評分規(guī)則設(shè)計

該框架采用樹狀評分規(guī)則，將評估過程分解為多個層次。葉子節(jié)點代表基本評估標準，如檢查信息準確性、歸屬正確性等。內(nèi)部節(jié)點則負責(zé)按邏輯關(guān)系聚合多個葉子節(jié)點的結(jié)果，形成更高層次的評估結(jié)論。例如，對于一個要求查找特定家具組合的任務(wù)，葉子節(jié)點可能包括檢查每件家具的顏色是否符合要求、價格是否在預(yù)算范圍內(nèi)、是否來自指定網(wǎng)站等具體標準。

下圖為樹狀評分規(guī)則示例，更直觀地展示了從任務(wù)目標逐層分解到具體評估準則，以及從底層準則評估結(jié)果逐級匯總得到整體任務(wù)評分的全過程。

樹形結(jié)構(gòu)評分細則示例。自上而下，任務(wù)目標被分解為樹形結(jié)構(gòu)；自下而上，葉節(jié)點的二進制評分被匯總為整體任務(wù)評分

在樹狀結(jié)構(gòu)中，不同節(jié)點類型發(fā)揮著關(guān)鍵作用。關(guān)鍵節(jié)點代表基本且核心的評估標準，若關(guān)鍵節(jié)點失敗，可能導(dǎo)致整個任務(wù)評分失敗。非關(guān)鍵節(jié)點則允許部分得分，以體現(xiàn)任務(wù)完成的層次和重點。這種設(shè)計使得評估結(jié)果能夠更精準地反映智能體在任務(wù)中的表現(xiàn)，既不會因個別非關(guān)鍵錯誤而完全否定系統(tǒng)的努力，也不會忽略關(guān)鍵錯誤，確保評估的合理性和公平性。

評判智能體的構(gòu)建與驗證

評判智能體的構(gòu)建基于評分規(guī)則，涉及信息提取和驗證兩個核心環(huán)節(jié)。信息提取器利用自然語言處理技術(shù)從答案中精準定位關(guān)鍵信息片段，如通過模式匹配和語義分析提取家具名稱、價格、顏色等關(guān)鍵屬性。驗證器則根據(jù)規(guī)則對比提取信息與引用網(wǎng)頁內(nèi)容，判斷信息是否準確、歸屬是否正確。

為了確保評判智能體的準確性和可靠性，開發(fā)團隊采用了人工標注樣例數(shù)據(jù)與評判智能體輸出進行對比的方式。通過持續(xù)優(yōu)化評估邏輯，評判智能體的評估結(jié)果與預(yù)期標準高度一致。例如，在測試過程中發(fā)現(xiàn)驗證器對某些模糊信息的判斷存在偏差后，開發(fā)團隊調(diào)整了相關(guān)算法參數(shù)，提升了評判智能體的準確性，使其能夠更可靠地為智能體搜索系統(tǒng)提供評估服務(wù)。

在構(gòu)建評判智能體時，信息提取器采用了基于 transformer 架構(gòu)的深度學(xué)習(xí)模型，該模型經(jīng)過大量文本數(shù)據(jù)訓(xùn)練，能夠理解自然語言的語義和結(jié)構(gòu)，從而準確提取關(guān)鍵信息。驗證器則結(jié)合了網(wǎng)頁內(nèi)容解析技術(shù)和邏輯推理算法，不僅能夠檢查引用鏈接的有效性，還能判斷鏈接內(nèi)容與答案信息是否匹配，確保每個信息點都有準確可靠的來源支持。

實驗與評估

實驗設(shè)置

實驗涵蓋了多種類型的智能體搜索系統(tǒng)，包括商業(yè)搜索產(chǎn)品（如 ChatGPT Search、Perplexity Pro Search）、Deep Research 系統(tǒng)（如 OpenAI Deep Research、Grok DeepSearch 等）以及 OpenAI Operator。每個系統(tǒng)都有其獨特的技術(shù)特點和優(yōu)勢。例如，Deep Research 系統(tǒng)通常具備更強的長周期任務(wù)處理和信息整合能力，能夠在面對復(fù)雜任務(wù)時保持較高的性能表現(xiàn)；而 OpenAI Operator 則在處理需要視覺交互的任務(wù)上具有一定優(yōu)勢。

評估指標主要包括部分完成率、成功率、Pass@3、平均完成時間和平均答案長度。下表展示了各系統(tǒng)的主評估結(jié)果，包括這些評估指標的具體數(shù)值及標準差，從中可直觀對比不同智能體搜索系統(tǒng)的表現(xiàn)。

主要評估結(jié)果。其中報告了部分完成得分、完整任務(wù)成功率、Pass@3、平均時間（以分鐘計）、平均回答長度（以單詞計）及其標準差

部分完成率反映系統(tǒng)在任務(wù)部分要求上的達成情況，成功率體現(xiàn)系統(tǒng)完整準確完成任務(wù)的能力，Pass@3 表示至少有一次嘗試成功的任務(wù)比例，平均完成時間和平均答案長度則分別從效率和信息量角度衡量系統(tǒng)表現(xiàn)。這些指標相互補充，共同勾勒出智能體搜索系統(tǒng)在不同維度上的性能圖譜。

主要結(jié)果

不同智能體搜索系統(tǒng)在 Mind2Web 2 基準測試上的表現(xiàn)差異顯著。基于搜索的 LLM 系統(tǒng)如 ChatGPT Search 和 Perplexity Pro Search 因搜索范圍有限、信息整合能力較弱，在復(fù)雜任務(wù)上得分較低。網(wǎng)頁Agent系統(tǒng)如 OpenAI Operator 在處理需要視覺交互的任務(wù)上表現(xiàn)出色，但在涉及長時間信息整合的任務(wù)中略顯不足。Deep Research 系統(tǒng)則在長時間任務(wù)和綜合信息整合方面展現(xiàn)出強大的能力，例如 OpenAI Deep Research 在多個任務(wù)中取得了較高的部分完成率和成功率，證明了其在復(fù)雜信息獲取任務(wù)中的優(yōu)勢。

在時間變化任務(wù)上，Deep Research 系統(tǒng)憑借其采用的實時網(wǎng)頁監(jiān)控算法，能及時捕捉網(wǎng)頁內(nèi)容更新，動態(tài)調(diào)整搜索策略以獲取最新信息。相比其他系統(tǒng)，它在處理這類任務(wù)時具有明顯優(yōu)勢。然而，過度依賴實時信息也可能導(dǎo)致其忽略部分穩(wěn)定的背景知識，這是其在時間變化任務(wù)處理中需要進一步優(yōu)化的方向。

下圖以平均部分完成率與平均任務(wù)完成時間的對比，生動展現(xiàn)了不同系統(tǒng)在效率與任務(wù)完成質(zhì)量方面的權(quán)衡關(guān)系。

部分完成率與平均完成任務(wù)時間的對比”或“平均部分完成率與平均任務(wù)完成時間的比較

下圖則清晰呈現(xiàn)了在明確時變?nèi)蝿?wù)上與其它任務(wù)的平均部分完成率對比，凸顯了各智能體搜索系統(tǒng)在應(yīng)對時變?nèi)蝿?wù)時的能力差異。

在明確具有時間變化特征的任務(wù)中，平均部分完成率與其他所有任務(wù)相比

下圖所示為不同智能體搜索系統(tǒng)在常見錯誤類型上的分布情況，通過該圖可深入了解各系統(tǒng)在各類錯誤上的易發(fā)情況，進而明確其性能瓶頸與改進方向。

不同智能體與人類之間的錯誤情況。柱狀圖表示每種錯誤類型在任務(wù)中所占的百分比。其中包含了來自五個智能體搜索系統(tǒng)以及人類的結(jié)果

與人類參與者的表現(xiàn)對比分析顯示，人類在處理復(fù)雜信息獲取任務(wù)時，能夠靈活運用背景知識和批判性思維，對信息進行深度分析和判斷。例如，在評估某學(xué)術(shù)論文的重要性時，人類可以結(jié)合自己對該領(lǐng)域的了解，判斷論文的創(chuàng)新性和影響力，而智能體搜索系統(tǒng)可能僅能基于引用次數(shù)等表面指標進行評估。但人類容易受認知疲勞影響，隨著任務(wù)時間延長，錯誤率可能上升。而智能體搜索系統(tǒng)在穩(wěn)定性、持續(xù)性方面表現(xiàn)更為出色，能長時間穩(wěn)定輸出答案，減少因疲勞導(dǎo)致的錯誤。例如，在一些需要長時間瀏覽和整合大量網(wǎng)頁信息的任務(wù)中，智能體搜索系統(tǒng)能夠保持一致的性能表現(xiàn)，而人類可能會因注意力下降而遺漏關(guān)鍵信息或出現(xiàn)判斷失誤。

誤差分析

常見錯誤類型

在智能體搜索系統(tǒng)和人類答案中，共定義了七種常見錯誤類型。信息缺失錯誤包括信息未找到和部分缺失兩種情況。例如，系統(tǒng)可能因搜索策略不完善而未能檢索到關(guān)鍵數(shù)據(jù)，或者只提供了部分任務(wù)要求的信息。標準違反錯誤是指答案不符合任務(wù)中的明確限制條件，如提供的商品價格超出預(yù)算范圍、回答內(nèi)容不符合指定格式等。

如下圖所示，在不同智能體搜索系統(tǒng)和人類的答案中，各類錯誤類型分布各異，這些數(shù)據(jù)為我們深入剖析各系統(tǒng)的性能表現(xiàn)提供了有力支撐。

不同智能體與人類之間的錯誤情況。柱狀圖表示每種錯誤類型在任務(wù)中所占的百分比。其中包含了來自五個智能體搜索系統(tǒng)以及人類的結(jié)果

無效歸屬錯誤表現(xiàn)為提供錯誤或虛構(gòu)的引用鏈接，這可能是由于系統(tǒng)在生成引用時未對鏈接的有效性進行充分驗證。缺失歸屬錯誤則是未為必要信息提供來源鏈接，導(dǎo)致信息無法追溯。支持答案錯誤進一步細分為合成錯誤和檢索錯誤。合成錯誤是指從正確網(wǎng)頁提取錯誤信息，如誤解網(wǎng)頁內(nèi)容導(dǎo)致信息扭曲；檢索錯誤則是引用了與任務(wù)無關(guān)的網(wǎng)頁，使得答案缺乏有效支持。

錯誤分布與影響

分析不同智能體搜索系統(tǒng)和人類在錯誤類型上的分布情況，可以發(fā)現(xiàn)各系統(tǒng)性能的瓶頸和改進方向。某些系統(tǒng)因搜索模塊的缺陷，信息缺失錯誤頻發(fā)；其他系統(tǒng)可能因歸屬處理模塊不完善，出現(xiàn)大量無效或缺失歸屬錯誤。例如，部分基于搜索的 LLM 系統(tǒng)由于缺乏對網(wǎng)頁內(nèi)容的深度理解和有效的引用管理機制，在合成答案時容易出現(xiàn)信息缺失和歸屬錯誤；而一些網(wǎng)頁Agent系統(tǒng)可能因視覺交互過程中的不穩(wěn)定因素，導(dǎo)致在信息提取和歸屬處理上出現(xiàn)偏差。

討論與啟示

智能體搜索系統(tǒng)的潛力與局限

智能體搜索系統(tǒng)展現(xiàn)出了巨大的潛力。它能夠顯著減輕用戶在信息獲取過程中的認知負擔(dān)，尤其適用于大規(guī)模數(shù)據(jù)搜索和精細信息提取任務(wù)。例如，在學(xué)術(shù)研究領(lǐng)域，智能體搜索系統(tǒng)可以幫助研究人員快速收集和整合大量文獻資料，提高研究效率；在商業(yè)領(lǐng)域，它能夠為企業(yè)決策提供及時、準確的市場情報支持。

然而，當前智能體搜索系統(tǒng)仍面臨一些挑戰(zhàn)。在處理時間變化任務(wù)時，部分系統(tǒng)可能因動態(tài)網(wǎng)頁更新監(jiān)測的延遲而無法及時獲取最新信息；在實時信息交互方面，某些系統(tǒng)對交互指令的執(zhí)行精度不足，導(dǎo)致信息提取不完整或不準確。此外，現(xiàn)有模型在長距離推理和規(guī)劃能力上也存在一定局限，面對多步驟復(fù)雜任務(wù)時，可能出現(xiàn)規(guī)劃不合理、推理不準確的問題，影響最終答案的質(zhì)量。

未來發(fā)展方向

智能體搜索系統(tǒng)的進一步發(fā)展，首先需要加強實時網(wǎng)頁瀏覽和交互能力。開發(fā)更高效的網(wǎng)頁動態(tài)監(jiān)測算法，能夠?qū)崟r捕捉網(wǎng)頁內(nèi)容的細微變化，確保信息的時效性；同時優(yōu)化交互指令的執(zhí)行精度，提升系統(tǒng)在復(fù)雜網(wǎng)頁環(huán)境中的操作能力。

優(yōu)化長距離推理和規(guī)劃是關(guān)鍵。借鑒人類認知模型，改進智能體的規(guī)劃策略，使其能夠更好地處理多步驟復(fù)雜任務(wù)，從整體上把握任務(wù)目標，合理安排搜索路徑和信息整合方式。

提高答案合成的準確性至關(guān)重要。引入更先進的自然語言處理技術(shù)，確保信息整合的完整性和正確性，使答案內(nèi)容豐富，而且邏輯嚴密、表達清晰。

實操性建議

對于希望利用 Mind2Web 2 基準測試來評估和優(yōu)化智能體搜索系統(tǒng)，以下是一些具體建議：

1. 任務(wù)設(shè)計 ：根據(jù) Mind2Web 2 的任務(wù)設(shè)計原則，結(jié)合自身需求設(shè)計評估任務(wù)。確保任務(wù)具有現(xiàn)實性、長期性、艱巨性、客觀性和可驗證性。例如，如果要評估智能體搜索系統(tǒng)在金融領(lǐng)域的信息獲取能力，可以設(shè)計一個任務(wù)，要求系統(tǒng)收集某只股票在過去一年內(nèi)的價格走勢、重大新聞事件、公司財務(wù)報告關(guān)鍵數(shù)據(jù)等信息，并整合成一份投資分析報告。

2. 評估指標選擇 ：參考 Mind2Web 2 的評估指標體系，選擇適合自己的評估指標。除了部分完成率、成功率等常見指標外，還可以根據(jù)任務(wù)特點增加一些特定指標，如答案的深度（信息的詳細程度）、廣度（覆蓋的方面）等。

3. 利用 Agent-as-a-Judge 框架 ：學(xué)習(xí) Mind2Web 2 中 Agent-as-a-Judge 框架的構(gòu)建方法，開發(fā)自己的評判智能體。在構(gòu)建過程中，注重信息提取和驗證環(huán)節(jié)的優(yōu)化，提高評判智能體的準確性。例如，在信息提取環(huán)節(jié)，可以嘗試使用不同的自然語言處理模型，看看哪種模型在提取特定類型信息時效果最好；在驗證環(huán)節(jié)，可以結(jié)合多種驗證方法，如基于網(wǎng)頁內(nèi)容的驗證、基于邏輯推理的驗證等，提高驗證結(jié)果的可靠性。

4. 根據(jù)評估結(jié)果優(yōu)化智能體搜索系統(tǒng) ：在獲得評估結(jié)果后，深入分析系統(tǒng)的優(yōu)勢和不足。針對存在的問題，采取相應(yīng)的優(yōu)化措施。如果系統(tǒng)在時間變化任務(wù)上表現(xiàn)不佳，可以優(yōu)化網(wǎng)頁更新監(jiān)測模塊，提高對動態(tài)信息的捕捉能力；如果答案合成存在錯誤，可以改進信息整合算法，加強答案的邏輯性和連貫性。

下圖展示的 GUI 工具截圖，能夠直觀呈現(xiàn)智能體答案、預(yù)緩存網(wǎng)頁、評分規(guī)則以及評判智能體評估結(jié)果，借助此類工具可更高效地進行評估與分析工作。

一個用于可視化代理回答、預(yù)緩存網(wǎng)頁、評分標準以及評判代理評估結(jié)果的圖形用戶界面工具的截圖

人類與智能體搜索系統(tǒng)的協(xié)同工作

在與人類參與者的表現(xiàn)對比分析中，進一步探討人類如何與智能體搜索系統(tǒng)協(xié)同工作。在復(fù)雜信息獲取任務(wù)中，人類可以先利用智能體搜索系統(tǒng)提供的初步答案進行快速了解和初步判斷，然后發(fā)揮自己的批判性思維和背景知識優(yōu)勢，對答案進行深入分析和驗證。例如，在進行商業(yè)決策時，智能體搜索系統(tǒng)可以快速收集市場數(shù)據(jù)、競爭對手信息等，為決策者提供基礎(chǔ)數(shù)據(jù)支持；決策者則可以結(jié)合自己對市場的理解和經(jīng)驗，對這些數(shù)據(jù)進行深入解讀，識別潛在的機會和風(fēng)險，從而做出更明智的決策。

同時，人類還可以通過與智能體搜索系統(tǒng)的交互，幫助系統(tǒng)更好地理解任務(wù)需求和優(yōu)化搜索策略。例如，當智能體搜索系統(tǒng)對某個任務(wù)的語義理解存在偏差時，用戶可以通過反饋機制糾正系統(tǒng)的理解，引導(dǎo)系統(tǒng)更準確地獲取所需信息。這種人機協(xié)作模式可以充分發(fā)揮人類和智能體搜索系統(tǒng)各自的優(yōu)勢，提高整體的信息獲取效率和質(zhì)量。

總結(jié)

Mind2Web 2 基準測試及 Agent-as-a-Judge 評估框架為智能體搜索系統(tǒng)的評估與發(fā)展開辟了新路徑。它們搭建起量化評估的標尺，讓不同系統(tǒng)性能可比，為技術(shù)優(yōu)化錨定方向。Mind2Web 2 以真實復(fù)雜的任務(wù)為藍本，全面透視智能體搜索系統(tǒng)的能耐與短板。

這份研究其實還有一個意義就是給我們一個對AI系統(tǒng)的評估示范。它為我們在面對復(fù)雜的 AI 系統(tǒng)評估時，提供了一種科學(xué)、嚴謹且具有可操作性的范例。傳統(tǒng)的 AI 系統(tǒng)評估往往側(cè)重于單一維度的性能指標，如準確率、召回率等，而 Mind2Web 2 及其評估框架則展現(xiàn)了多維度、綜合性評估的范式。從任務(wù)設(shè)計層面，它依據(jù)現(xiàn)實性、長期性、艱巨性、客觀性和可驗證性等原則精心構(gòu)建任務(wù)，確保評估場景貼近實際應(yīng)用，評估結(jié)果具備現(xiàn)實指導(dǎo)價值。這種任務(wù)設(shè)計思路啟示我們在評估 AI 系統(tǒng)時，不能僅著眼于實驗評測環(huán)境下的理想條件，而應(yīng)讓評估任務(wù)盡可能模擬真實世界中的復(fù)雜情境，這樣才能精準衡量 AI 系統(tǒng)在實際部署中可能遇到的挑戰(zhàn)。

在評估指標方面，Mind2Web 2 綜合考量了部分完成率、成功率、Pass@3、平均完成時間和平均答案長度等多元指標，全面展現(xiàn)了智能體搜索系統(tǒng)在任務(wù)完成度、效率以及答案質(zhì)量等各方面的表現(xiàn)。這不同于以往單純追求某一指標最大化的評估方式，而是更注重對系統(tǒng)綜合性能的刻畫，有利于我們更全面地了解 AI 系統(tǒng)的能力邊界。同時，其創(chuàng)新性的 Agent-as-a-Judge 評估框架，運用樹狀評分規(guī)則對復(fù)雜答案進行逐層分解評估，為處理長周期、復(fù)雜任務(wù)的 AI 系統(tǒng)評估提供了全新的視角和方法。這一框架不僅能夠精準判斷答案的正確性，還能細致分析答案中每個信息點的來源可靠性，為 AI 系統(tǒng)的優(yōu)化升級指明了具體方向，讓我們在評估過程中既能把握整體性能，又能深入剖析細節(jié)問題，為 AI 系統(tǒng)的持續(xù)改進提供了有力支撐。

了解了 Mind2Web 2 與智能體搜索系統(tǒng)后，LLM 在信息獲取領(lǐng)域的效率還是令人興奮的。智能體搜索系統(tǒng)憑自主智能，正重塑知識獲取途徑。從早期簡單搜索 API，到如今能攻克長周期復(fù)雜任務(wù)的 Deep Research 系統(tǒng)，這種技術(shù)躍遷是革命性的。但挑戰(zhàn)猶存，時間變化任務(wù)處理、實時信息交互能力提升等難題待解。

Mind2Web 2 評估展現(xiàn)不同智能體搜索系統(tǒng)優(yōu)劣，人機對比鮮明。技術(shù)進步不能只盯著效率提升，還需在復(fù)雜性、準確性、可靠性上協(xié)同精進。誤差分析披露的常見錯誤及分布，為系統(tǒng)優(yōu)化點明關(guān)鍵。

責(zé)任編輯：龐桂玉來源：覺察流