終結數據荒!智源開源首個Deep Research數據合成框架InfoSeek
近日,北京智源人工智能研究院(簡稱「智源研究院」)發布開源數據集InfoSeek,成為首個面向深度研究(Deep Research)場景的大規模開源數據集。
在這一工作中,智源研究團隊揭示了深度研究問題與層級約束滿足問題(Hierarchical Constraint Satisfaction Problem)之間的數學等價關系,并由此提出了基于「擴散-回溯」過程的數據合成方法,實現了深度研究訓練數據的大規模自動擴增。
利用上述方法,研究團隊總計合成了包含5萬條訓練樣本的數據集InfoSeek,并據此訓練出參數規模僅3B的智能體模型。
在BrowseComp-Plus基準測試中,該模型取得了16.5%的準確率,性能已接近Gemini、Sonnet 4.0等領先商業模型,充分驗證了該方法在深度研究任務上的有效性與潛力。
相關數據集與數據合成方法現已面向社區開放,為推動該領域研究提供了堅實基礎。
資源鏈接:
數據集:
https://huggingface.co/datasets/Lk123/InfoSeek
代碼倉庫:
https://github.com/VectorSpaceLab/InfoSeek
技術報告:
https://arxiv.org/abs/2509.00375
簡介
從撰寫行業調研報告到梳理復雜的學術脈絡,我們對大模型的期待早已超越了簡單的問答。
由此,誕生了「深度研究」(Deep Research)問題。
與傳統的QA任務不同,這類問題需要更高維度的推理和檢索,往往需要重復多輪以下步驟:問題拆解、多元信息獲取、結果整合。
然而,模型/智能體在這類任務上的表現尚不盡人意,其中一個關鍵的障礙是缺乏高質量訓練數據。
現有數據集或難度較低,或結構單一,難以教會模型如何像人類專家一樣,面對一個龐大而模糊的問題,層層深入,最終找到答案。
為彌補這一缺失,智源研究院推出了一個專為Deep Research構建的數據合成框架與首個開源數據集InfoSeek,為推動這一領域的更進一步發展提供了堅實基礎。
傳統QA大多為單一/多約束滿足問題(Condition Satisfaction Problem),只需要使用一次或數次檢索就能獲得答案;
多跳問題(Multi-hop Problem)是NLP中一直較有挑戰的一類任務,其具有的鏈式結構,需要依次解決多個單一約束滿足問題并推理出最終答案。
如下圖所示,基于這兩類問題,智源研究院提出將深度研究問題定義為層級約束滿足問題(Hierarchical Condition Satisfaction Problem),以涵蓋深度研究所具有的多層級、多分枝的復雜結構。

圖1. 各類QA任務的定義與示例
基于這一定義,團隊設計了能夠自動化的智能體pipeline。
通過「擴散」的方式,從一個根節點出發,構造出HCSP的樹狀結構,并通過「回溯」,從葉子節點倒推回根節點來確認每個HCSP的正確性和有效性。

圖2. InfoSeek構造HCSP的智能體流程示意圖
智源研究院將這一構造方法,和通過其構造的50k條高質量QA數據全部開源,并通過使用這一批數據來進行模型訓練,在數個難度極高的QA基準上驗證了InfoSeek的有效性。
數據集
智源研究院開源的InfoSeek數據集包含超過5萬條樣本。其中數據主要集中在需要4–6中間節點的問題上。為了驗證其難度,研究人員使用Qwen2.5-72B模型并采用CoT進行測試,結果顯示其整體失敗率高達91.6%。
值得一提的是,InfoSeek的數據構造流程支持這一數據集的持續擴容。同時,可以進一步包含更多的中間節點來繼續加大問題的難度。

表格1. InfoSeek開源數據集統計信息
實驗
基于InfoSeek訓練的模型在BrowseComp-Plus上取得了非常突出的成績。
與沒有經過額外微調的Qwen3,和在傳統QA數據集NQ、HotpotQA上訓練的Search-R1模型相比,基于InfoSeek訓練的模型在面對BrowseComp中的困難問題時,能夠通過大幅提高搜索次數,以檢索需要的信息。
其帶來的助力也直接體現在了正確率的提升上,16.5%的準確率取得了當前開源模型的最佳效果,并且能夠與Gemini、Sonnet 4.0等商業模型媲美。

圖3. 各模型在BrowseComp-Plus基準上的表現,基于InfoSeek訓練的3B模型的表現與當前的主流商業模型媲美
同時,以HotpotQA等為代表的傳統QA基準,通過高質量的多跳問題來評估模型進行多輪的推理和檢索工具調用的能力。
智源研究院使用InfoSeek數據所訓練的模型,在多個多跳QA的benchmark上取得了非常亮眼的表現,進一步驗證了InfoSeek的有效性。

圖4. 各模型在多跳QA基準上的表現
總結
數據的質量決定了模型的高度。
InfoSeek為開源社區提供了高質量的訓練數據和數據合成框架,為未來Deep Research的發展提供助力。
智源研究院也會在這一領域持續深耕,未來期待與更多科研機構及產業伙伴合作,共同推動檢索與人工智能的發展。
歡迎研究者與開發者關注并使用InfoSeek及后續系列工作,共建開放繁榮的開源生態。

































