首個開源多模態Deep Research智能體,超越多個閉源方案
首個開源多模態Deep Research Agent來了。
整合了網頁瀏覽、圖像搜索、代碼解釋器、內部 OCR 等多種工具,通過全自動流程生成高質量推理軌跡,并用冷啟動微調和強化學習優化決策,使模型在任務中能自主選擇合適的工具組合和推理路徑。
假設你讓一個 AI 回答這樣一個問題:
“在這張圖所示動物的 Wikipedia 頁面上,2020 年之前帶有 ‘visual edit’ 標簽的修訂次數是多少?”

聽起來不復雜,但要得到正確答案,需要經過多個環節:
1 從圖像中識別出動物(它是一只海鸚Atlantic puffin,而不是外形相似的鵜鶘、企鵝或海鷗)。2 找到對應的 Wikipedia 頁面并進入歷史版本記錄。3 篩選出 2020 年之前帶有 “visual edit” 標簽的版本,并進行精確計數。
從上面案例可以看出,要解決這類問題,光有感知和理解還不夠,Agent還需要能夠制定計劃、靈活調用不同工具、在推理過程中不斷驗證和修正方向。
這類跨模態、跨工具、多步驟的任務,需要具備深度研究(Deep Research)能力的Agent才能有效應對。
WebWatcher 的核心方法
WebWatcher 的技術方案覆蓋了從數據構建到訓練優化的完整鏈路,核心目標是讓多模態Agent在高難度多模態深度研究任務中具備靈活推理和多工具協作能力。整個方法包含三大環節:
1 多模態高難度數據生成:構建具備復雜推理鏈和信息模糊化的訓練數據;
2 高質量推理軌跡構建與后訓練:生成貼近真實多工具交互的推理軌跡,并通過監督微調(SFT)完成初步能力對齊。然后利用 GRPO 在復雜任務環境中進一步提升模型的決策能力與泛化性;
3 高難度基準評測:構建并使用 BrowseComp-VL 對模型的多模態深度推理能力進行驗證。
1. 多模態高難度數據生成
現有大多數 VQA 數據集集中于單步感知任務,缺乏規劃性與深度推理需求,難以支撐多模態深度研究代理的訓練。為此,研究團隊設計了一個全自動多模態數據生成流程,目標是在真實互聯網知識分布下生成復雜、跨模態、鏈路不確定的任務樣本。

隨機游走收集跨模態知識鏈研究團隊在多源網頁(文本、圖片、混合頁面)中進行隨機游走采樣,構建多領域實體圖譜。不同于傳統的線性多跳問答鏈,這種圖譜連接稠密、路徑不固定,問題的解決路線難以預設,逼迫模型探索性地組合視覺信息。
信息模糊化提升不確定性在生成問題時,研究團隊刻意隱藏關鍵信息(如將“2019 年”替換為“21 世紀初”、將實體名改為描述性短語),并在視覺部分引入模糊指代詞描述,使得模型無法依賴簡單模式匹配,必須進行跨模態推理。
文本-視覺聯合轉換所有復雜問題(QA) 樣本通過 QA-to-VQA 轉換模塊擴展為多模態版本,將圖譜中的部分實體或關系替換為圖片、圖表或網頁截圖,使問題天然依賴跨模態理解能力。經過多階段過濾,包括語義合理性檢查、視覺相關性驗證、推理鏈長度控制,研究團隊得到了一個大規模、高質量的多模態推理數據集,能夠覆蓋多種復雜推理模式。
2. 高質量推理軌跡構建與后訓練
在高難度訓練數據的基礎上,模型還需要學習如何調用工具和如何在推理中動態切換策略。然而,現有推理模型在長鏈多工具任務中存在兩個問題:
1 思維鏈條冗長、模板化,缺乏跨任務的適應性;2 工具調用格式和角色差異大,直接采集到的軌跡難以直接用于訓練。
為此,研究團隊提出了Action-Observation 驅動的軌跡生成方法:
- 收集真實的多工具交互軌跡;
- 保留其 Action-Observation 結構,但控制 Thought 部分,確保每一步推理都簡潔、行動導向,而非冗長的模板化解釋;
- 使用規則過濾與 LLM 輔助審查,剔除低質量軌跡。
隨后,研究團隊基于這些高質量軌跡進行監督微調(SFT),讓 WebWatcher 在訓練初期快速掌握多模態 ReAct 式推理和工具調用的基本模式,為后續的強化學習階段打下基礎。
在完成冷啟動后,WebWatcher進入強化學習階段,用GRPO進一步提升多模態Agent在復雜環境下的決策能力。模型嚴格結合格式正確性與答案準確性雙重標準設計獎勵,對多步工具調用的連貫性和最終答案的準確性均予以關注,從而提升多模態決策鏈的可靠性。
3. BrowseComp-VL:多模態深度研究基準
為了全面驗證 WebWatcher 的能力,研究團隊提出了BrowseComp-VL,它是 BrowseComp 在視覺-語言任務上的擴展版本,設計目標是逼近人類專家的跨模態研究任務難度。該基準具有以下特點:
- 任務長且信息模糊化:問題往往包含多個模糊實體描述,需要跨網頁、跨模態搜索與整合;- 多工具協作必要性:任務無法僅靠感知或文本檢索完成,必須結合網頁瀏覽、圖像檢索、OCR、代碼執行等多種工具;- 真實網絡環境:測試樣本來自真實網頁與圖像資源,保持復雜性與不可預測性。

實驗結果:刷新多模態推理與信息檢索新紀錄
在多輪嚴格評測中,WebWatcher 在四大核心領域全面領先于當前主流的開源與閉源多模態大模型,顯示出其在復雜推理、信息檢索、知識整合以及聚合類信息尋優等任務上的強勁實力。

復雜推理(HLE-VL)在人類終極考試(Humanity’s Last Exam,HLE-VL)這一多步復雜推理基準上,WebWatcher以13.6%的Pass@1分數一舉奪魁,大幅領先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)、Qwen2.5-VL-72B(8.6%)等代表性模型。充分證明了其在高難度知識融合與鏈式決策中的推理能力。
信息檢索能力(MMSearch)在更貼近真實多模態搜索的MMSearch評測中,WebWatcher 同樣表現卓越,Pass@1得分高達55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)等大幅領先,展現了極高的檢索精準性和復雜場景下的信息聚合能力。
知識+檢索整合(LiveVQA)LiveVQA是知識推理與外部信息獲取深度協同的典型場景。WebWatcher的Pass@1成績達到58.7%,領先Gemini2.5-flash(41.3%)、Qwen2.5-VL-72B(35.7%)和GPT-4o(34.0%),充分體現了其在知識調用、事實核查與實時信息融合等多維技能上的系統性優勢。
信息尋優與聚合(BrowseComp-VL)在最具綜合挑戰的BrowseComp-VL基準(信息聚合型任務)上,WebWatcher 以27.0%的平均得分(Pass@1)遙遙領先,于GPT-4o(13.4%)、Gemini2.5-flash(13.0%)、Qwen2.5-VL-72B(11.5%)、Claude-3.7(11.2%)等國內外主流旗艦模型,成績提升超過一倍。該基準涵蓋了跨網頁、多實體、模糊表達等嚴苛考驗,彰顯了WebWatcher 在復雜信息尋優與聚合領域的絕對能力優勢。
綜合來看,WebWatcher不僅在單一任務維度實現領先,更在復合型任務、跨模態復雜推理及真實信息檢索等方面,奠定了新一代開源多模態Agent的領先地位。
arxiv:https://arxiv.org/abs/2508.05748
github倉庫:https://github.com/Alibaba-NLP/WebAgent




































