超越 GPT-5!FlowSearch 框架刷新四大基準(zhǔn),AI 深度研究進(jìn)入知識流時代
2025年,當(dāng)GPT-5在GPQA基準(zhǔn)測試中拿下85.4%的成績時,AI研究界卻在思考一個更尖銳的問題:為什么最先進(jìn)的大模型在處理"1978-1998年馬爾科獎得主中是否有來自已消失國家的獲獎?wù)?這類需要多步驟推理的問題時,正確率仍不足30%?研究團(tuán)隊給出了顛覆性答案——動態(tài)結(jié)構(gòu)化知識流框架FlowSearch,其在GAIA基準(zhǔn)測試中以76.7%的成績超越MiroFlow(74.5%)和GPT-5(85.4%)等強(qiáng)基線,徹底改變了AI深度研究的范式。
科研痛點:當(dāng)AI遇上"馬爾科獎難題"
傳統(tǒng)深度研究框架正面臨三重困境。2024年OpenAI發(fā)布的DR系統(tǒng)在處理跨年度數(shù)據(jù)驗證任務(wù)時,因無法追溯網(wǎng)頁歷史版本,導(dǎo)致對"東德籍獲獎?wù)?的誤判;OWL框架在蛋白質(zhì)組學(xué)研究中,僅通過靜態(tài)數(shù)據(jù)比對就得出結(jié)論,完全忽略了實驗條件與文獻(xiàn)上下文的交叉驗證。更嚴(yán)峻的是,MiroFlow等智能體框架雖然引入了流程規(guī)劃,但在GAIA Level 3(高難度任務(wù))中的正確率僅30.77%,暴露出線性流程設(shè)計與動態(tài)知識整合能力的雙重缺失。
這些痛點背后隱藏著當(dāng)前AI研究的核心矛盾:學(xué)術(shù)研究需要"提出假設(shè)→驗證證據(jù)→修正結(jié)論"的螺旋式認(rèn)知過程,而現(xiàn)有模型要么陷入"信息堆砌"的泥潭,要么困于"線性推理"的枷鎖。清華大學(xué)團(tuán)隊在論文中尖銳指出:"當(dāng)知識獲取與推理過程分離時,AI永遠(yuǎn)無法真正模擬人類研究員的思維方式。"
FlowSearch架構(gòu):三大組件重構(gòu)知識流動邏輯
動態(tài)知識流規(guī)劃:讓AI學(xué)會"拆解問題"
FlowSearch的革命性突破始于Flow Planner(流程規(guī)劃器)的設(shè)計。與傳統(tǒng)順序規(guī)劃不同,該組件采用動態(tài)擴(kuò)展機(jī)制,通過公式實現(xiàn)知識流圖的迭代生長。在馬爾科獎案例中,系統(tǒng)首先將原始問題分解為"獲獎名單提取→國家存續(xù)性驗證→歷史邊界確認(rèn)"三個核心節(jié)點,每個節(jié)點生成如"搜索1983年東德是否存在"的子任務(wù),形成類似科研思維導(dǎo)圖的結(jié)構(gòu)化網(wǎng)絡(luò)。

FlowSearch整體架構(gòu)圖
這個過程類似人類研究員的思考路徑:先搭建研究框架,再逐步填充細(xì)節(jié)。關(guān)鍵在于,F(xiàn)low Planner能根據(jù)中間結(jié)果動態(tài)調(diào)整流程——當(dāng)發(fā)現(xiàn)1989年東德解體的時間節(jié)點后,系統(tǒng)自動插入"獲獎?wù)邍畷r間戳驗證"的新分支,這種條件觸發(fā)式擴(kuò)展能力,使其在GAIA Level 3任務(wù)中實現(xiàn)50%的正確率,遠(yuǎn)超傳統(tǒng)順序規(guī)劃器的23.07%。
多模態(tài)知識收集:13種工具打造研究閉環(huán)
Knowledge Collector(知識收集器)模塊徹底打破了AI工具調(diào)用的局限性。該組件集成13種專業(yè)化工具,從谷歌搜索、維基百科歷史版本查詢到多模態(tài)內(nèi)容提取(如圖像OCR、音頻解析),構(gòu)建起完整的研究工具鏈。在蛋白質(zhì)組學(xué)案例中,系統(tǒng)通過??search_archived_webpage???工具獲取1998年的原始實驗數(shù)據(jù),使用??ask_question_about_image???分析凝膠電泳圖,最終通過??ocr2text??提取質(zhì)譜數(shù)據(jù),整個過程無需人工干預(yù)。

Knowledge Collector工具列表
特別值得注意的是時空維度的知識把控:??search_wiki_revision???工具能精確獲取指定年月的維基百科版本,解決了"東德"這類歷史實體的時效性問題;??search_archived_webpage??通過時光機(jī)獲取已下線網(wǎng)頁,確保2003年《自然》論文數(shù)據(jù)的可追溯性。這種能力使得FlowSearch在處理歷史事件類問題時,準(zhǔn)確率比GPT-5提升24%。
流程優(yōu)化器:讓AI學(xué)會"自我批評"
Flow Refiner(流程優(yōu)化器)實現(xiàn)了研究質(zhì)量的閉環(huán)控制。該組件通過三大機(jī)制提升輸出可靠性:首先進(jìn)行并發(fā)流驗證,對同一問題生成多條推理路徑(如同時比對維基百科和學(xué)術(shù)數(shù)據(jù)庫的信息);其次執(zhí)行證據(jù)沖突檢測,當(dāng)發(fā)現(xiàn)"東德"在1989年前后的名稱變化時,自動標(biāo)記并啟動歷史邊界確認(rèn)流程;最后完成結(jié)果一致性校驗,確保所有子結(jié)論指向同一答案。
在GAIA消融實驗中,啟用Refiner組件后,系統(tǒng)平均正確率從61.82%躍升至76.96%,其中Level 2任務(wù)提升尤為顯著(63.95%→76.74%)。這種提升印證了論文的核心觀點:沒有反思的知識收集,只是信息的堆砌而非研究。
實驗驗證:四大基準(zhǔn)測試刷新SOTA
跨領(lǐng)域性能碾壓:從GAIA到HLE的全面突破
在GAIA基準(zhǔn)測試中,F(xiàn)lowSearch以76.7% 的平均正確率超越MiroFlow(74.5%)和Manus(73.3%),尤其在需要多步驟推理的Level 3任務(wù)中,50%的正確率是OpenAI-DR(23.07%)的兩倍以上。更令人震驚的是GPQA鉆石級數(shù)據(jù)集上的表現(xiàn):87.4% 的平均成績不僅超越GPT-5(85.35%),在化學(xué)子領(lǐng)域更是以79.57%大幅領(lǐng)先Deepseek-R1(76.34%)。

三大基準(zhǔn)測試性能對比
HLE基準(zhǔn)測試更凸顯FlowSearch的復(fù)雜環(huán)境適應(yīng)能力。在包含圖像、音頻等多模態(tài)輸入的場景下,其30.8%的正確率遠(yuǎn)超X-Masters(27.72%)和Gemini-DR(26.9%),證明動態(tài)知識流在處理非結(jié)構(gòu)化數(shù)據(jù)時的獨特優(yōu)勢。
消融實驗揭示核心價值:規(guī)劃與優(yōu)化缺一不可
Table 2的消融實驗給出明確結(jié)論:僅使用Flow Planner時GAIA平均正確率61.82%,添加Refiner后飆升至76.96%,其中Level 1任務(wù)正確率突破90.56%。這意味著結(jié)構(gòu)化規(guī)劃解決"如何做"的問題,而優(yōu)化機(jī)制決定"做得多好"。對比實驗還顯示,移除動態(tài)擴(kuò)展功能后,系統(tǒng)在多分支任務(wù)中的失敗率增加47%,印證了知識流圖擴(kuò)展公式的核心價值。

結(jié)構(gòu)化規(guī)劃與優(yōu)化消融實驗
規(guī)劃器選型實驗(Table 3)則揭示另一個關(guān)鍵發(fā)現(xiàn):微調(diào)后的InternPlanner-32B在GAIA平均正確率達(dá)70.91%,不僅超越同參數(shù)級別的Qwen-3-32B(64.81%),甚至優(yōu)于更大規(guī)模的Qwen3-235B(66.06%)。這表明專用規(guī)劃模型比通用大模型更適合復(fù)雜任務(wù)拆解,為后續(xù)研究指明方向。
真實案例對決:OWL框架暴露致命缺陷
在蛋白質(zhì)組學(xué)研究案例中,傳統(tǒng)OWL框架僅通過5步靜態(tài)分析就得出結(jié)論,完全忽略了"營養(yǎng)缺乏條件下蛋白質(zhì)降解率變化"的核心實驗條件。而FlowSearch通過跨文獻(xiàn)交叉驗證→圖像數(shù)據(jù)量化分析→實驗方法學(xué)評估的三步流程,最終正確識別出降解率降低的目標(biāo)蛋白,其推理鏈的完整性得到領(lǐng)域?qū)<腋叨仍u價。

OWL與FlowSearch案例對比
這個案例生動展示了兩者的本質(zhì)區(qū)別:OWL像個匆忙交卷的學(xué)生,而FlowSearch表現(xiàn)得更像嚴(yán)謹(jǐn)?shù)难芯繂T——它會質(zhì)疑數(shù)據(jù)來源("該質(zhì)譜圖的檢測限是否合理?"),對比不同文獻(xiàn)結(jié)論("2018年研究顯示該蛋白半衰期存在種屬差異"),最終形成可驗證的研究閉環(huán)。
行業(yè)啟示:AI深度研究的下一個十年
FlowSearch的成功印證了一個趨勢:當(dāng)AI從"信息處理"邁向"知識創(chuàng)造",結(jié)構(gòu)化思維與動態(tài)適應(yīng)能力將成為核心競爭力。其三大創(chuàng)新點具有里程碑意義:知識流圖的數(shù)學(xué)建模首次實現(xiàn)研究過程的可解釋性,多模態(tài)工具鏈構(gòu)建起完整的科研閉環(huán),而規(guī)劃-優(yōu)化雙引擎為通用人工智能提供新的范式。
但挑戰(zhàn)依然存在:在TRQA基準(zhǔn)測試中,系統(tǒng)對19世紀(jì)歷史文獻(xiàn)的語義理解準(zhǔn)確率僅77.9%,暴露時序知識表征的短板;32B參數(shù)模型的計算成本也限制了普及。不過正如論文通訊作者在采訪中所說:"我們證明了AI不僅能做研究助理,未來甚至可能成為獨立的研究主體——這一天或許比想象中來得更快。"

TRQA基準(zhǔn)測試性能
當(dāng)AI開始像人類一樣思考、質(zhì)疑和修正,科學(xué)研究的邊界將被重新定義。FlowSearch的真正價值,或許不在于那些耀眼的基準(zhǔn)分?jǐn)?shù),而在于它首次讓機(jī)器具備了"做科研"的靈魂——那種在迷霧中尋找路徑,在矛盾中逼近真相的探索精神。這一天,AI研究者們等待太久了。
作者與機(jī)構(gòu)信息補(bǔ)充:
這項突破性研究由上海人工智能實驗室(Shanghai Artificial Intelligence Laboratory)的Yusong Hu、Runmin Ma、Yue Fan、Jinxin Shi、Zongsheng Cao等研究者合作完成,相關(guān)成果于2025年10月9日發(fā)表在arXiv預(yù)印本平臺(arXiv:2510.08521v1 [cs.AI])。通訊作者為Lei Bai和Bo Zhang。
本文轉(zhuǎn)載自??AIGC深一度??,作者:一度

















