精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體

發(fā)布于 2025-8-6 07:30
瀏覽
0收藏

當(dāng) AI 被要求寫(xiě)一份關(guān)于 “2025 年生物醫(yī)學(xué)突破” 的深度報(bào)告時(shí),它為何總是東拼西湊、漏洞百出?谷歌團(tuán)隊(duì)發(fā)現(xiàn),問(wèn)題出在 AI 不會(huì)像人類(lèi)一樣 “反復(fù)打磨”—— 而他們新提出的 TTD-DR 框架,竟讓 AI 學(xué)會(huì)了 “先寫(xiě)初稿、再查資料、逐句修改” 的研究員式工作法,性能直接碾壓現(xiàn)有系統(tǒng)。這個(gè)框架究竟是如何運(yùn)作的?

摘要&解讀

在大型語(yǔ)言模型(LLMs)的驅(qū)動(dòng)下,深度研究智能體正在迅速發(fā)展;然而,當(dāng)使用通用的測(cè)試時(shí)縮放算法生成復(fù)雜、長(zhǎng)篇的研究報(bào)告時(shí),其性能往往會(huì)停滯不前。受人類(lèi)研究迭代性質(zhì)的啟發(fā)——包括搜索、推理和修訂的循環(huán),我們提出了測(cè)試時(shí)擴(kuò)散深度研究智能體(TTD-DR)。這個(gè)新穎的框架將研究報(bào)告生成概念化為一個(gè)擴(kuò)散過(guò)程。TTD-DR以初步草稿啟動(dòng)這一過(guò)程,該草稿是一個(gè)可更新的框架,作為指導(dǎo)研究方向的動(dòng)態(tài)基礎(chǔ)。然后,草稿通過(guò)“去噪”過(guò)程進(jìn)行迭代優(yōu)化,該過(guò)程由檢索機(jī)制動(dòng)態(tài)提供信息,在每個(gè)步驟中整合外部信息。核心過(guò)程通過(guò)在智能體工作流的每個(gè)組件上應(yīng)用自進(jìn)化算法得到進(jìn)一步增強(qiáng),確保為擴(kuò)散過(guò)程生成高質(zhì)量的上下文。這種以草稿為中心的設(shè)計(jì)使報(bào)告撰寫(xiě)過(guò)程更及時(shí)、更連貫,同時(shí)減少迭代搜索過(guò)程中的信息丟失。我們證明,我們的TTD-DR在需要密集搜索和多跳推理的多種基準(zhǔn)測(cè)試中取得了最先進(jìn)的結(jié)果,顯著優(yōu)于現(xiàn)有的深度研究智能體。

研究貢獻(xiàn)

1. 提出測(cè)試時(shí)擴(kuò)散深度研究智能體(TTD-DR)框架,首次將研究報(bào)告生成建模為擴(kuò)散過(guò)程,模仿人類(lèi)迭代研究行為,提升報(bào)告的及時(shí)性和連貫性。

2. 設(shè)計(jì)雙核心機(jī)制

? 基于檢索的去噪:以初始草稿為“噪聲”起點(diǎn),迭代通過(guò)檢索外部信息修訂草稿,動(dòng)態(tài)引導(dǎo)研究方向。

? 組件級(jí)自進(jìn)化:對(duì)工作流各環(huán)節(jié)(計(jì)劃、問(wèn)題、答案等)生成多變體,通過(guò)環(huán)境反饋優(yōu)化并融合,減少信息丟失。

3. 僅依賴通用搜索工具即可實(shí)現(xiàn)高性能,無(wú)需整合專有工具(如多模態(tài)、網(wǎng)頁(yè)瀏覽),增強(qiáng)實(shí)用性。

4. 建立嚴(yán)格評(píng)估方法,結(jié)合人類(lèi)標(biāo)注與校準(zhǔn)的LLM評(píng)判,驗(yàn)證了TTD-DR在長(zhǎng)文本報(bào)告和多跳推理任務(wù)中的優(yōu)勢(shì)。

實(shí)現(xiàn)設(shè)計(jì)

1.骨干深度研究智能體:三階段工作流

? 階段1(研究計(jì)劃生成):生成結(jié)構(gòu)化計(jì)劃,確定報(bào)告關(guān)鍵領(lǐng)域。

? 階段2(迭代搜索與合成):循環(huán)生成搜索問(wèn)題→檢索并總結(jié)答案,直至覆蓋計(jì)劃。

? 階段3(最終報(bào)告生成):整合計(jì)劃和問(wèn)答信息,生成完整報(bào)告。

2.組件級(jí)自進(jìn)化

? 生成多個(gè)初始輸出變體(如答案、問(wèn)題),通過(guò)不同參數(shù)(溫度、top_k)擴(kuò)展搜索空間。

? 基于LLM評(píng)判的環(huán)境反饋(評(píng)分+ critique)修訂變體,重復(fù)迭代。

? 交叉融合多變體,整合最優(yōu)信息形成高質(zhì)量輸出。

3.報(bào)告級(jí)基于檢索的去噪

? 初始草稿作為“噪聲”輸入,結(jié)合用戶查詢和研究計(jì)劃生成。

? 迭代循環(huán):用當(dāng)前草稿生成搜索問(wèn)題→檢索信息→修訂草稿(補(bǔ)充新信息/驗(yàn)證現(xiàn)有內(nèi)容)。

? 最終基于完整修訂歷史和檢索結(jié)果生成“去噪”報(bào)告。

實(shí)驗(yàn)結(jié)果

1.性能超越現(xiàn)有系統(tǒng):在LongForm Research(勝率69.1%)、DeepConsult(勝率74.5%)等長(zhǎng)文本任務(wù)中,顯著優(yōu)于OpenAI Deep Research、Perplexity等;在HLE-search(正確率33.9%)、GAIA(正確率69.1%)等多跳推理任務(wù)中,也高于對(duì)比系統(tǒng)。

2.消融研究驗(yàn)證機(jī)制有效性

? 僅骨干智能體性能優(yōu)于帶搜索的LLM,但不及OpenAI系統(tǒng)。

? 加入自進(jìn)化后,長(zhǎng)文本任務(wù)勝率提升至60%+,多跳任務(wù)正確率接近或超過(guò)OpenAI。

? 加入基于檢索的去噪后,所有任務(wù)性能進(jìn)一步躍升,達(dá)到最佳結(jié)果。

3.效率優(yōu)勢(shì):帕累托前沿分析顯示,TTD-DR在相同延遲下性能更優(yōu),且每增加單位延遲的性能提升幅度(斜率)高于其他系統(tǒng),驗(yàn)證了測(cè)試時(shí)縮放的高效性。

1. 引言

在最近先進(jìn)的大型語(yǔ)言模型的支持下,構(gòu)建深度研究(DR)智能體在研究和工業(yè)界都迅速受到關(guān)注。這些智能體展現(xiàn)出令人矚目的能力,包括生成新想法(Hu等人,2024;Si等人,2024)、通過(guò)搜索工具有效收集信息(Jin等人,2025;Li等人,2025a),以及在起草研究報(bào)告或論文之前執(zhí)行分析或?qū)嶒?yàn)(Yamada等人,2025;Zheng等人,2024)。現(xiàn)有的深度研究智能體主要利用測(cè)試時(shí)縮放方法,如思維鏈(CoT)(Wei等人,2022)、n中選優(yōu)采樣(Ichihara等人,2025)、蒙特卡洛樹(shù)搜索(?wiechowski等人,2022)、辯論機(jī)制(Liang等人,2023)和自我優(yōu)化循環(huán)(Madaan等人,2023)。盡管取得了令人印象深刻的進(jìn)展,但大多數(shù)流行的公共深度研究智能體(Alzubi等人,2025;Researcher,2025;Roucher等人,2025)在整合這些測(cè)試時(shí)算法和各種工具時(shí),缺乏由人類(lèi)寫(xiě)作認(rèn)知行為驅(qū)動(dòng)的精心設(shè)計(jì),并且通常缺乏賦予人類(lèi)研究人員能力的有原則的草稿、搜索和反饋機(jī)制。這表明當(dāng)前深度研究智能體工作存在根本性限制,并凸顯了需要一個(gè)更具凝聚力、專門(mén)為模仿或超越人類(lèi)研究能力而構(gòu)建的深度研究智能體框架。

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

圖1 | 我們的方法受到人類(lèi)自然寫(xiě)作過(guò)程的啟發(fā),包括規(guī)劃、起草和對(duì)草稿的多次修訂。

先前的認(rèn)知研究表明,當(dāng)人類(lèi)撰寫(xiě)復(fù)雜主題時(shí),他們不會(huì)遵循線性進(jìn)程,即從第一個(gè)詞寫(xiě)到最后一個(gè)詞。如圖1(Chitwood,2022)所示,人們通常首先制定一個(gè)高層次的計(jì)劃,然后根據(jù)該計(jì)劃起草研究報(bào)告,隨后進(jìn)行多輪修訂(Flower和Hayes,1981)。關(guān)鍵的是,在修訂階段,作者經(jīng)常會(huì)查閱文獻(xiàn)或使用搜索工具來(lái)收集補(bǔ)充信息,以完善和強(qiáng)化他們的論點(diǎn)(Catalano,2013)。

我們觀察到這種人類(lèi)寫(xiě)作模式與結(jié)合檢索的擴(kuò)散模型中的采樣過(guò)程(Zhang等人,2023)之間存在顯著相似性。打個(gè)比方,一個(gè)訓(xùn)練有素的擴(kuò)散模型最初生成一個(gè)帶噪聲的草稿,然后去噪模塊在檢索工具的幫助下,將這個(gè)草稿修訂為更高質(zhì)量(或更高分辨率)的輸出。受這種擴(kuò)散采樣范式(Shen等人,2025;Yang等人,2022)的啟發(fā),我們?yōu)樯疃妊芯恐悄荏w提出了測(cè)試時(shí)擴(kuò)散(TTD)。我們的框架將整個(gè)研究報(bào)告生成精心建模為一個(gè)迭代擴(kuò)散過(guò)程,模仿人類(lèi)的認(rèn)知模式。由于 vanilla 擴(kuò)散采樣在為復(fù)雜研究任務(wù)生成高質(zhì)量輸出方面可能效果不佳,我們專門(mén)設(shè)計(jì)了我們的TTD深度研究智能體,包含兩種機(jī)制,如圖2所示并詳細(xì)說(shuō)明如下。

(a)基于檢索的去噪(Zhang等人,2023):主要基于大型語(yǔ)言模型內(nèi)部知識(shí)起草的初始研究報(bào)告經(jīng)過(guò)迭代優(yōu)化。去噪后的草稿與研究計(jì)劃(階段1)一起指導(dǎo)下游研究方向。每個(gè)去噪步驟都通過(guò)有針對(duì)性的外部信息檢索(階段2)得到增強(qiáng),顯著提高了準(zhǔn)確性和全面性。(b)自進(jìn)化(Lee等人,2025;Novikov等人,2025):除了通過(guò)草稿進(jìn)行報(bào)告級(jí)別的擴(kuò)散外,智能體工作流中的每個(gè)單獨(dú)組件(例如,計(jì)劃、問(wèn)題、答案和報(bào)告生成)都經(jīng)歷自己的優(yōu)化過(guò)程。這鼓勵(lì)探索多樣化的知識(shí),減少每個(gè)單元智能體在漫長(zhǎng)智能體軌跡中的信息丟失,從而為報(bào)告擴(kuò)散提供更有利的上下文。這兩種算法的復(fù)雜相互作用和協(xié)同組合對(duì)于實(shí)現(xiàn)高質(zhì)量的研究成果至關(guān)重要。

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

圖2 | 我們的測(cè)試時(shí)擴(kuò)散深度研究智能體(TTD-DR)框架示意圖,旨在通過(guò)草稿模仿人類(lèi)研究的迭代性質(zhì)。用戶查詢同時(shí)啟動(dòng)初步草稿和研究計(jì)劃。這個(gè)不斷演變的草稿與研究計(jì)劃一起,動(dòng)態(tài)地為搜索問(wèn)題的生成和后續(xù)的信息檢索提供指導(dǎo),確保及時(shí)性和連貫性,同時(shí)減少信息丟失。然后,檢索到的信息被用于去噪和完善初始草稿,形成一個(gè)持續(xù)的反饋循環(huán)。整個(gè)工作流通過(guò)自進(jìn)化算法進(jìn)一步優(yōu)化,以提高研究計(jì)劃、生成的問(wèn)題、答案和最終報(bào)告的質(zhì)量,展示了擴(kuò)散和自進(jìn)化在實(shí)現(xiàn)卓越研究成果方面的協(xié)同力量。

先前的工作主要集中在科學(xué)論文寫(xiě)作智能體(Chen等人,2025;Gottweis等人,2025;Lu等人,2024;Tang等人,2025;Yamada等人,2025),特別強(qiáng)調(diào)生成學(xué)術(shù)出版物。最近,范圍已擴(kuò)大到通用研究智能體(Li等人,2025b;Zheng等人,2025),旨在更廣泛的信息查找和推理用例。與這些現(xiàn)有努力相比,我們的工作引入了一種為更廣泛應(yīng)用而設(shè)計(jì)的深度研究智能體。具體而言,我們開(kāi)發(fā)了一個(gè)研究助手,能夠?yàn)椴煌袠I(yè)領(lǐng)域(包括金融、生物醫(yī)學(xué)、娛樂(lè)和技術(shù))的復(fù)雜研究問(wèn)題生成有用且全面的報(bào)告(Han等人,2024),類(lèi)似于OpenAI(2025)、Perplexity(2025)和Grok(2025)提供的深度研究產(chǎn)品。我們的框架針對(duì)當(dāng)前最先進(jìn)的大型語(yǔ)言模型無(wú)法僅通過(guò)其內(nèi)部知識(shí)或傳統(tǒng)搜索工具完全解決的、需要大量搜索和推理的用戶查詢。我們總結(jié)了以下主要貢獻(xiàn):

? 我們提出了測(cè)試時(shí)擴(kuò)散深度研究智能體(TTD-DR),這是一種新穎的測(cè)試時(shí)擴(kuò)散框架,能夠?qū)ρ芯繄?bào)告進(jìn)行迭代起草和修訂,從而更及時(shí)、連貫地整合信息,同時(shí)減少研究過(guò)程中的信息丟失。

? 我們僅使用大多數(shù)智能體系統(tǒng)容易獲取的搜索工具對(duì)TTD-DR進(jìn)行壓力測(cè)試,無(wú)需整合額外的專有工具(例如,多模態(tài)、網(wǎng)頁(yè)瀏覽)。

我們?yōu)樯疃妊芯恐悄荏w建立了嚴(yán)格的評(píng)估方法,采用全面的指標(biāo)和專家評(píng)估員。我們的實(shí)驗(yàn)表明,TTD-DR在需要撰寫(xiě)長(zhǎng)篇綜合研究報(bào)告或需要多跳搜索和推理以確定簡(jiǎn)潔答案的任務(wù)中,顯著優(yōu)于各種領(lǐng)先的研究智能體。我們進(jìn)行了全面的消融研究和深入分析,以闡明TTD-DR各組件的單獨(dú)貢獻(xiàn),并證明其在超越領(lǐng)先深度研究智能體方面的有效性。

2. 測(cè)試時(shí)擴(kuò)散深度研究智能體(TTD-DR)

我們的方法,即測(cè)試時(shí)擴(kuò)散深度研究智能體(TTD-DR),受到人類(lèi)研究迭代性質(zhì)的啟發(fā),包括規(guī)劃、起草、信息搜索和修訂的循環(huán)。我們將復(fù)雜研究報(bào)告的生成概念化為一個(gè)擴(kuò)散過(guò)程,其中初始的、帶噪聲的草稿逐步優(yōu)化為高質(zhì)量的最終輸出。這通過(guò)兩個(gè)協(xié)同作用的核心機(jī)制實(shí)現(xiàn):(1)通過(guò)基于檢索的去噪進(jìn)行報(bào)告級(jí)優(yōu)化,整個(gè)報(bào)告草稿在此過(guò)程中不斷演變;(2)通過(guò)自進(jìn)化進(jìn)行組件級(jí)優(yōu)化,提高研究工作流中每個(gè)步驟的質(zhì)量。

TTD-DR框架旨在解決現(xiàn)有深度研究智能體的局限性。如圖3所示,許多公共智能體,如Huggingface Open DR(Roucher等人,2025)、GPT研究智能體(Researcher,2025)和Open Deep Research(Alzubi等人,2025)采用線性或并行的規(guī)劃、搜索和生成過(guò)程。這可能導(dǎo)致全局上下文的丟失,并在研究過(guò)程中錯(cuò)過(guò)關(guān)鍵的依賴關(guān)系。我們以草稿為中心的迭代方法保持了連貫性,并為研究方向提供了動(dòng)態(tài)指導(dǎo),減少了信息丟失。來(lái)自O(shè)penAI(2025)、Perplexity(2025)和Grok(2025)的專有深度研究智能體在很大程度上仍然是黑箱。

2.1. 骨干深度研究智能體

圖4展示了我們的骨干深度研究智能體,它由三個(gè)主要階段組成,包含智能體框架的幾個(gè)關(guān)鍵組件:?jiǎn)卧笮驼Z(yǔ)言模型智能體、工作流和智能體狀態(tài)。我們?cè)敿?xì)解釋如下。

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

圖3 | 我們的方法與其他開(kāi)源深度研究智能體的比較。(a)Huggingface Open DR(Roucher等人,2025)利用輕量級(jí)規(guī)劃器確定后續(xù)行動(dòng),例如調(diào)用搜索或?yàn)g覽工具,并重復(fù)這些行動(dòng)直到找到答案。(b)GPT研究智能體(Researcher,2025)也采用輕量級(jí)規(guī)劃器并行生成和執(zhí)行多個(gè)搜索查詢,然后由生成器將檢索到的文檔合成為報(bào)告。(c)Open Deep Research(Research,2025)使用規(guī)劃器概述最終報(bào)告的結(jié)構(gòu),然后為每個(gè)部分單獨(dú)進(jìn)行迭代研究,之后再將它們組合起來(lái)。(d)我們的TTD-DR引入了草稿去噪機(jī)制。與Open Deep Research不同,TTD-DR避免為每個(gè)部分進(jìn)行單獨(dú)搜索以保持全局上下文,并使用基于RAG的答案生成器處理檢索到的文檔,然后將其保存用于最終報(bào)告生成。

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

圖4 | 我們的骨干深度研究智能體按上述三個(gè)階段運(yùn)行。階段1生成詳細(xì)的研究計(jì)劃,概述最終報(bào)告的結(jié)構(gòu)并指導(dǎo)信息搜索。階段2迭代生成搜索問(wèn)題(2a),然后使用類(lèi)RAG系統(tǒng)從檢索到的文檔中合成精確的答案(2b),而不是保存原始數(shù)據(jù)。最后,階段3綜合所有收集到的信息以生成最終報(bào)告。每個(gè)階段都可以使用第2.2節(jié)詳細(xì)介紹的自進(jìn)化算法進(jìn)行單獨(dú)優(yōu)化。

階段1:研究計(jì)劃生成是一個(gè)專用的單元大型語(yǔ)言模型智能體,在收到用戶查詢后生成結(jié)構(gòu)化的研究計(jì)劃。該計(jì)劃概述了最終報(bào)告所需的一系列關(guān)鍵領(lǐng)域,作為指導(dǎo)后續(xù)信息收集過(guò)程的初始框架。一旦生成研究計(jì)劃,它將被保存在智能體階段中,然后傳輸給其子智能體。

階段2:迭代搜索與合成是嵌套在其父級(jí)順序工作流中的循環(huán)工作流。它包含兩個(gè)子智能體:搜索問(wèn)題生成(階段2a)根據(jù)研究計(jì)劃、用戶查詢和先前搜索迭代的上下文(即過(guò)去的問(wèn)題和答案)制定搜索查詢。答案搜索(階段2b)搜索可用來(lái)源(如谷歌搜索)以找到相關(guān)文檔并返回總結(jié)的答案。這個(gè)循環(huán)(階段2a→階段2b)持續(xù)進(jìn)行,直到研究計(jì)劃得到充分覆蓋或達(dá)到最大迭代次數(shù)。

階段3:最終報(bào)告生成是其父級(jí)順序工作流(階段2→階段3)中的一個(gè)單元大型語(yǔ)言模型智能體,通過(guò)綜合所有收集到的結(jié)構(gòu)化信息——階段1的計(jì)劃和階段2的一系列問(wèn)答對(duì),生成全面且連貫的最終報(bào)告。

2.2. 組件級(jí)自進(jìn)化

上面介紹的骨干深度研究智能體確定了整體研究方向(階段1),并為最終報(bào)告撰寫(xiě)(階段3)提供了上下文和信息(階段2)。我們?cè)鰪?qiáng)每個(gè)階段智能體的性能,以找到并保留高質(zhì)量的上下文。為實(shí)現(xiàn)這一目標(biāo),我們利用自進(jìn)化算法來(lái)改進(jìn)每個(gè)階段的智能體。圖5展示了我們提出的算法,其靈感來(lái)自最近的自進(jìn)化工作(Lee等人,2025;Novikov等人,2025)。這里我們以搜索答案生成為例,但該算法可以應(yīng)用于所有階段智能體,如計(jì)劃生成、搜索問(wèn)題甚至最終報(bào)告生成,以提高它們的輸出質(zhì)量。該算法在并行工作流中實(shí)現(xiàn),包含以下順序和循環(huán)工作流。

1.初始狀態(tài):最左側(cè)的塊生成多個(gè)不同的輸出變體(例如,一個(gè)搜索查詢的幾個(gè)可能答案),這些變體以先前階段的輸出為條件。每個(gè)塊由一個(gè)單元大型語(yǔ)言模型智能體實(shí)現(xiàn),允許使用不同的參數(shù)(例如,溫度、top_k)采樣多個(gè)答案,以探索更大的搜索空間。理想情況下,這會(huì)導(dǎo)致發(fā)現(xiàn)潛在更有價(jià)值的信息。

2.環(huán)境反饋:每個(gè)答案變體都由作為評(píng)判者的大型語(yǔ)言模型進(jìn)行評(píng)估,利用自動(dòng)評(píng)分器評(píng)估諸如有用性和全面性等指標(biāo)。這些評(píng)分器不僅提供適應(yīng)度分?jǐn)?shù),還生成有助于改進(jìn)答案的文本評(píng)論。

3.修訂步驟:根據(jù)上一步的分?jǐn)?shù)和反饋,每個(gè)變體進(jìn)行修訂步驟,以朝著更好的適應(yīng)度分?jǐn)?shù)調(diào)整。“環(huán)境反饋”和“修訂”步驟重復(fù)進(jìn)行,直到滿足停止標(biāo)準(zhǔn),形成一個(gè)循環(huán)工作流。

4.交叉融合:最后,多個(gè)修訂后的變體被合并為一個(gè)高質(zhì)量的輸出。這個(gè)合并過(guò)程整合了所有進(jìn)化路徑中的最佳信息,為主要報(bào)告生成過(guò)程提供了更優(yōu)的上下文。合并提示可以在附錄A.5中找到。


谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

圖5 | 應(yīng)用于搜索答案(圖4中的階段2b)的組件級(jí)自進(jìn)化示意圖。該過(guò)程從初始答案的多個(gè)變體開(kāi)始。每個(gè)變體然后經(jīng)歷一個(gè)自進(jìn)化階段,首先與環(huán)境交互以獲得適應(yīng)度分?jǐn)?shù)和反饋。然后根據(jù)反饋進(jìn)行修訂。這個(gè)過(guò)程重復(fù)直到達(dá)到最大迭代次數(shù)。最后,來(lái)自所有階段的多個(gè)修訂變體被合并以產(chǎn)生最終答案。

雖然自進(jìn)化提高了每個(gè)組件輸出的質(zhì)量,但這些信息要到搜索過(guò)程完成后才會(huì)整合到最終報(bào)告中。這種延遲促使我們采用第二種機(jī)制,即基于檢索的去噪,它更及時(shí)、連貫地整合智能體的發(fā)現(xiàn),以有效指導(dǎo)研究方向。

2.3. 報(bào)告級(jí)基于檢索的去噪

受擴(kuò)散模型中采樣過(guò)程的啟發(fā),即帶噪聲的圖像被迭代優(yōu)化,我們提示大型語(yǔ)言模型根據(jù)用戶的查詢生成初始草稿報(bào)告。如圖2所示,該草稿作為“帶噪聲”的起點(diǎn)。然而,正如先前工作所指出的,讓模型在沒(méi)有外部上下文的情況下對(duì)自己的輸出進(jìn)行去噪可能導(dǎo)致收斂緩慢和次優(yōu)結(jié)果(Shen等人,2025;Yoon等人,2025;Zhang等人,2023)。對(duì)于需要來(lái)自搜索工具的外部信息來(lái)改進(jìn)草稿的復(fù)雜研究查詢,情況尤其如此。這一觀察促使我們?cè)O(shè)計(jì)與第2.1節(jié)介紹的骨干深度研究工作流直接相連的檢索增強(qiáng)去噪過(guò)程。

具體而言,如算法1所示,我們將當(dāng)前草稿報(bào)告輸入到骨干深度研究工作流的階段2a,以指導(dǎo)下一個(gè)搜索查詢的生成(第2行)。在階段2b獲得合成答案后(第4行),新信息被用于修訂報(bào)告草稿, either by adding new details or by verifying existing information(第6行)。這個(gè)將去噪后的報(bào)告反饋回來(lái)生成下一個(gè)搜索查詢的過(guò)程在一個(gè)連續(xù)的循環(huán)中重復(fù)。草稿逐步“去噪”,直到搜索過(guò)程結(jié)束,此時(shí)最終智能體根據(jù)所有歷史搜索答案和修訂生成最終報(bào)告(階段3)。

算法1 基于檢索的去噪

輸入:??,M,P,R0,Q,A ?查詢,所有智能體,計(jì)劃,初始帶噪聲草稿,搜索問(wèn)題和答案的歷史
1: for ??∈{1,...,??} do ???:最大修訂步驟數(shù)
2: ????= MQ (??, P, R???1, Q, A) ?生成下一個(gè)問(wèn)題以解決R??中的差距
3: ?????Q
4: ????= MA (????) ?檢索外部信息以提供具體的去噪增量
5: ?????A
6: R??= MR (??, R???1, Q, A) ?從先前的草稿中去除“噪聲”(不精確性、不完整性)
7: if exit_loop then
8: break ?如果調(diào)用exit_loop,則停止修訂
9: end if
10: end for

總之,這個(gè)連續(xù)的反饋循環(huán)——不斷演變的草稿指導(dǎo)搜索,而搜索又完善草稿——確保報(bào)告保持連貫,研究不偏離軌道。最終的“去噪”報(bào)告在搜索過(guò)程結(jié)束后生成,基于所有修訂和檢索到的答案的完整歷史。組件級(jí)自進(jìn)化和報(bào)告級(jí)擴(kuò)散過(guò)程之間的協(xié)同作用至關(guān)重要,使TTD-DR能夠取得最先進(jìn)的結(jié)果。

3. 實(shí)驗(yàn)設(shè)置

為了嚴(yán)格評(píng)估我們的測(cè)試時(shí)擴(kuò)散深度研究智能體(TTD-DR),我們建立了一個(gè)全面的實(shí)驗(yàn)框架。本節(jié)詳細(xì)介紹了評(píng)估指標(biāo)、用于基準(zhǔn)測(cè)試的數(shù)據(jù)集以及我們實(shí)現(xiàn)的細(xì)節(jié)。

3.1. 評(píng)估指標(biāo)

我們的深度研究智能體本質(zhì)上是一個(gè)復(fù)雜的多智能體系統(tǒng)。該系統(tǒng)的每個(gè)階段生成冗長(zhǎng)的響應(yīng),最終智能體將這些響應(yīng)連貫地組合起來(lái),為用戶生成全面的報(bào)告。

評(píng)估長(zhǎng)篇大型語(yǔ)言模型響應(yīng)和復(fù)雜的智能體軌跡面臨重大挑戰(zhàn),因?yàn)樾枰?yàn)證的事實(shí)數(shù)量龐大,長(zhǎng)期邏輯依賴關(guān)系復(fù)雜,以及大型語(yǔ)言模型和人類(lèi)評(píng)判者固有的主觀性(Han等人,2024;Li等人,2024;Si等人,2024)。為了確保我們?cè)u(píng)估員的質(zhì)量和效率,我們收集高質(zhì)量的人類(lèi)判斷注釋,校準(zhǔn)與人類(lèi)偏好一致的作為評(píng)判者的大型語(yǔ)言模型,并使用校準(zhǔn)后的作為評(píng)判者的大型語(yǔ)言模型作為最終評(píng)估員。我們?cè)谙旅嫣峁┰u(píng)估指標(biāo)的更多細(xì)節(jié)。

? 有用性和全面性是評(píng)估長(zhǎng)篇大型語(yǔ)言模型響應(yīng)(特別是研究輸出)最常用的兩個(gè)指標(biāo)(Coelho等人,2025;Lim等人,2025;Schmidgall等人,2025)。因此,我們采用這兩個(gè)指標(biāo),并基于它們構(gòu)建一個(gè)新的并排質(zhì)量比較框架。有用性由四個(gè)標(biāo)準(zhǔn)定義:1)滿足用戶意圖,2)易于理解(流暢性和連貫性),3)準(zhǔn)確性,4)適當(dāng)?shù)恼Z(yǔ)言。全面性定義為沒(méi)有缺失關(guān)鍵信息。如有需要,允許通過(guò)網(wǎng)絡(luò)搜索更好地理解查詢。確定報(bào)告有用性和全面性水平的指南可以在附錄A.1中找到。

并排質(zhì)量比較(也稱為成對(duì)評(píng)估)是評(píng)估長(zhǎng)篇大型語(yǔ)言模型響應(yīng)的廣泛采用的方法(Han等人,2024;Li等人,2024;Liu等人,2024;Si等人,2024)。評(píng)估員被要求在考慮有用性和全面性的情況下,在兩個(gè)報(bào)告(A和B)之間表達(dá)偏好,使用以下量表:1)好得多,如果A既比B更有用又更全面;2)更好,如果A比B更有用且與B同樣全面,或者A比B更全面且與B同樣有用;3)稍好,如果A更有用但不如B全面;否則,選擇4)大致相同,如果上述條件都不滿足。當(dāng)B比A好時(shí),邏輯相同。我們定制的人類(lèi)注釋界面可以在附錄A.2中找到。每對(duì)都進(jìn)行兩次評(píng)分,以計(jì)算人類(lèi)評(píng)估員之間的一致性。然后,我們部署一個(gè)具有相同人類(lèi)指令的作為評(píng)判者的大型語(yǔ)言模型,以與人類(lèi)評(píng)分保持一致。我們?cè)谙乱恍」?jié)中討論更多校準(zhǔn)細(xì)節(jié)。

正確性用于我們的多跳短篇問(wèn)答任務(wù)(Phan等人,2025)。對(duì)于此類(lèi)任務(wù),我們可以簡(jiǎn)單地提示大型語(yǔ)言模型將我們智能體產(chǎn)生的長(zhǎng)篇答案與給定的 ground-truth 進(jìn)行比較。我們遵循標(biāo)準(zhǔn)評(píng)估提示1,首先從大型語(yǔ)言模型的響應(yīng)中提取單個(gè)答案,然后將提取的答案與 ground-truth 進(jìn)行比較。

3.2. 作為評(píng)判者的大型語(yǔ)言模型校準(zhǔn)

由于LongForm Research和DeepConsult基準(zhǔn)中沒(méi)有長(zhǎng)篇響應(yīng)的 ground truth,進(jìn)行可擴(kuò)展評(píng)估的常見(jiàn)做法是利用作為評(píng)判者的大型語(yǔ)言模型(Coelho等人,2025;Han等人,2024;Lim等人,2025;Schmidgall等人,2025;Si等人,2024)。然而,大多數(shù)先前的深度研究智能體工作沒(méi)有專門(mén)將作為評(píng)判者的大型語(yǔ)言模型的質(zhì)量與人類(lèi)評(píng)估員進(jìn)行校準(zhǔn),這引發(fā)了對(duì)自動(dòng)評(píng)估器可靠性的質(zhì)疑。

相比之下,我們通過(guò)將我們深度研究智能體的200份報(bào)告與OpenAI深度研究的報(bào)告進(jìn)行比較,使作為評(píng)判者的大型語(yǔ)言模型與人類(lèi)評(píng)分保持一致。然后,我們使用與人類(lèi)評(píng)估中相同的評(píng)估提示進(jìn)行并排比較,然后計(jì)算自動(dòng)評(píng)分器與人類(lèi)評(píng)估員之間的一致性分?jǐn)?shù)。附錄A.3中的表3提供了關(guān)于我們選擇Gemini-1.5-pro作為作為評(píng)判者的大型語(yǔ)言模型的詳細(xì)信息和結(jié)果。

對(duì)于用于評(píng)估HLE和GAIA數(shù)據(jù)集的正確性自動(dòng)評(píng)分器,我們沒(méi)有將其與人類(lèi)評(píng)分進(jìn)行校準(zhǔn)。這是因?yàn)檫@些任務(wù)存在官方評(píng)估提示,并且我們通過(guò)遵循原始提示與研究界保持一致。此外,這兩個(gè)基準(zhǔn)中的所有答案都有明確的 ground-truth 答案,簡(jiǎn)化了大型語(yǔ)言模型響應(yīng)正確性的判斷。因此,我們使用Gemini-1.5-pro作為評(píng)估模型,無(wú)需對(duì)這些特定任務(wù)進(jìn)行進(jìn)一步的人類(lèi)校準(zhǔn)。

3.3. 數(shù)據(jù)

我們選擇的基準(zhǔn)側(cè)重于兩個(gè)廣泛的任務(wù)。1)需要研究智能體生成長(zhǎng)篇綜合報(bào)告的復(fù)雜查詢(LongForm Research和DeepConsult)2)需要廣泛搜索和推理才能回答的多跳查詢(HLE和GAIA)。這兩個(gè)類(lèi)別都符合我們構(gòu)建通用、現(xiàn)實(shí)世界研究助手的目標(biāo),類(lèi)似于OpenAI深度研究(OpenAI,2025)和Perplexity深度研究(Perplexity,2025)。值得注意的是,這兩個(gè)任務(wù)可能需要多達(dá)20個(gè)搜索步驟(跳)才能完全解決用戶查詢,如附錄中的圖7a和12a所示。如果不需要廣泛搜索(例如,只需要幾個(gè)搜索步驟),其他數(shù)據(jù)集則不在本工作的范圍內(nèi),例如長(zhǎng)篇RAG-QA(Han等人,2024;Stelmakh等人,2022)和短篇多跳QA(Trivedi等人,2022;Yang等人,2018)。這也適用于不針對(duì)通用研究報(bào)告生成的數(shù)據(jù)集,例如AI-Researcher(Tang等人,2025)。此外,我們專注于搜索工具的使用,將其他工具(如瀏覽和編碼)的整合推遲到未來(lái)的工作中。

LongForm Research。為了將我們的深度研究智能體系統(tǒng)與其他基線進(jìn)行基準(zhǔn)測(cè)試,我們首先精心挑選了一組需要搜索和復(fù)雜推理的授權(quán)現(xiàn)實(shí)世界查詢。這個(gè)數(shù)據(jù)集最能代表我們的目標(biāo)用例,即用戶需要深入研究以創(chuàng)建有用且全面的報(bào)告。這個(gè)評(píng)估集包含205個(gè)查詢,涵蓋多個(gè)行業(yè)領(lǐng)域,如圖6所示。

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

圖6 | 評(píng)估集的查詢領(lǐng)域分布:LongForm Research(左)和HLE-search(右),均展示了多樣化的領(lǐng)域覆蓋。

DeepConsult(Lim等人,2025)是一組用于深度研究的商業(yè)和咨詢相關(guān)提示。查詢集涵蓋廣泛的主題,包括營(yíng)銷(xiāo)、金融、技術(shù)趨勢(shì)和商業(yè)規(guī)劃。

人類(lèi)終極考試(HLE)(Phan等人,2025)是一個(gè)包含2500個(gè)極具挑戰(zhàn)性的問(wèn)題的基準(zhǔn),涉及數(shù)十個(gè)學(xué)科領(lǐng)域,旨在作為廣泛學(xué)術(shù)能力的最終封閉式基準(zhǔn)。我們專注于純文本子集,將多模態(tài)留待未來(lái)研究。我們將這個(gè)數(shù)據(jù)集命名為HLE-full。

HLE-search。HLE數(shù)據(jù)集中的大量查詢不需要廣泛搜索即可解決。為了更好地基準(zhǔn)測(cè)試我們的搜索與推理目標(biāo)用例,我們從HLE中識(shí)別出最需要搜索能力的查詢。具體而言,我們提示Gemini-1.5-pro模型將所有查詢分為[a]純推理和[b]需要搜索兩類(lèi)。使用的提示可以在附錄A.4中找到。最后,我們從[b]類(lèi)中隨機(jī)抽樣200個(gè)查詢。如表2所示,大型語(yǔ)言模型在這個(gè)精心挑選的子集上的性能明顯低于完整集合。其問(wèn)題領(lǐng)域分布也可以在圖6中找到。因此,我們認(rèn)為HLE-search作為我們研究重點(diǎn)的基準(zhǔn)更為合適。

表1 | 在本表中,我們展示了TTD-DR在LongForm Research、DeepConsult、HLE和GAIA數(shù)據(jù)集上與不同基線系統(tǒng)的性能比較。勝率(%)是基于OpenAI深度研究計(jì)算的。正確性是通過(guò)系統(tǒng)預(yù)測(cè)與參考答案的匹配度計(jì)算的。對(duì)于HLE-full上的Grok DeeperSearch,沒(méi)有提供公開(kāi)數(shù)據(jù),并且由于研究預(yù)算和Grok DeeperSearch的每日抓取限制,我們無(wú)法抓取全部2000個(gè)查詢。


LongForm Research 勝率

DeepConsult 勝率

HLE-Search 正確率

HLE-Full 正確率

GAIA 正確率

OpenAI 深度研究

-

-

29.1

26.6

67.4

Perplexity 深度研究

21.8

32.0

14.5

21.1

54.5

Grok 深度搜索

16.1

16.0

19.3

-

47.9

GPT-研究智能體

18.3

9.4

2.0

4.1

37.7

Open 深度搜索

2.6

2.2

3.0

0.4

20.9

TTD-DR(我們的)

69.1

74.5

33.9

34.3

69.1

GAIA(Mialon等人,2023)是另一個(gè)評(píng)估人工智能處理現(xiàn)實(shí)世界問(wèn)題的公共基準(zhǔn),包含三個(gè)難度級(jí)別的問(wèn)題。完成這些任務(wù)需要推理、多模態(tài)流暢性、網(wǎng)頁(yè)瀏覽和工具使用能力等。我們使用評(píng)估集與其他基線進(jìn)行比較。

3.4. 實(shí)現(xiàn)細(xì)節(jié)

智能體框架。為了實(shí)現(xiàn)我們的TTD-DR,我們需要一個(gè)模塊化且易于擴(kuò)展的智能體系統(tǒng),能夠利用領(lǐng)先的大型語(yǔ)言模型(如Gemini-2.5-pro)無(wú)縫編排工作流、調(diào)用工具和執(zhí)行任務(wù)。谷歌智能體開(kāi)發(fā)工具包(ADK)2是最近發(fā)布的智能體開(kāi)發(fā)平臺(tái),滿足所有這些要求。第2節(jié)中描述的所有組件都可以使用ADK輕松實(shí)現(xiàn)。因此,我們選擇基于ADK構(gòu)建我們的深度研究智能體。

我們將最大基于檢索的去噪步驟固定為20。自進(jìn)化算法的其他超參數(shù)可以在附錄A.6中找到。我們使用谷歌搜索3的基礎(chǔ)來(lái)實(shí)現(xiàn)階段2b中的RAG系統(tǒng)。

3.5. 對(duì)比系統(tǒng)

我們將我們的RA系統(tǒng)與市場(chǎng)上領(lǐng)先的RA智能體進(jìn)行比較:OpenAI深度研究(OpenAI,2025)、Perplexity深度研究(Perplexity,2025)、Grok深度搜索(Grok,2025)、Open深度搜索(Alzubi等人,2025)和GPT-研究智能體(Researcher,2025)。對(duì)于不支持API的深度研究智能體,我們手動(dòng)抓取并保存它們的原始輸出。

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

圖7 | LongForm Research的深度研究智能體性能與延遲之間的帕累托前沿。左:從左到右的點(diǎn)表示增加更多搜索/修訂步驟,最多20步,這表明在相似的延遲下,我們的性能優(yōu)于或與其他深度研究智能體相當(dāng)。右:從左到右的點(diǎn)表示1)帶搜索工具的Gemini-2.5-pro,2)骨干深度研究智能體,3)+自進(jìn)化和4)+基于檢索的擴(kuò)散,這表明我們的最終算法在測(cè)試時(shí)縮放方面效率最高(斜率最陡)。

在消融研究中,我們與基線大型語(yǔ)言模型Gemini-2.5-pro和Gemini-2.5-flash以及它們包含簡(jiǎn)單搜索工具(簡(jiǎn)單RAG)的變體進(jìn)行比較。對(duì)于我們的深度研究智能體,我們比較以下內(nèi)容。1)骨干深度研究智能體是我們的骨干深度研究智能體,沒(méi)有任何測(cè)試時(shí)縮放算法。2)+自進(jìn)化和3)+基于檢索的去噪是兩個(gè)通過(guò)我們提出的測(cè)試時(shí)縮放算法增強(qiáng)的深度研究智能體變體。我們的深度研究智能體使用Gemini-2.5-pro作為基礎(chǔ)模型。所有其他基線智能體使用它們的默認(rèn)大型語(yǔ)言模型(例如,OpenAI深度研究使用o3)。

4. 結(jié)果與分析

4.1. 主要結(jié)果

表1展示了我們的TTD-DR與其他深度研究系統(tǒng)的性能比較。我們的TTD-DR在所有基準(zhǔn)測(cè)試中始終取得優(yōu)異結(jié)果。具體而言,與OpenAI深度研究相比,我們的方法在兩個(gè)長(zhǎng)篇研究報(bào)告生成任務(wù)的并排比較中分別達(dá)到69.1%和74.5%的勝率。此外,在三個(gè)需要廣泛研究的短篇 ground-truth 答案數(shù)據(jù)集上,它分別比OpenAI深度研究高出4.8%、7.7%和1.7%。圖8進(jìn)一步展示了兩個(gè)長(zhǎng)篇研究任務(wù)的有用性和全面性自動(dòng)評(píng)分器分?jǐn)?shù),其中我們的TTD-DR也超過(guò)了OpenAI深度研究,特別是在LongForm Research數(shù)據(jù)集上。

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

表2顯示了我們深度研究智能體的消融研究。顯然,即使是具有強(qiáng)大推理能力的最先進(jìn)大型語(yǔ)言模型,如Gemini-2.5-flash和Gemini-2.5-pro,在沒(méi)有任何搜索工具的情況下性能也很差。例如,在精心挑選的HLE-Search數(shù)據(jù)集上,盡管Gemini-2.5-pro在完整的HLE集合上表現(xiàn)相對(duì)較好(20.9%),但準(zhǔn)確率僅為8.6%。當(dāng)配備搜索工具時(shí),兩個(gè)基礎(chǔ)大型語(yǔ)言模型的性能都顯著提高,盡管它們的結(jié)果仍然遠(yuǎn)低于OpenAI深度研究。

現(xiàn)在,考察三個(gè)智能體深度研究智能體,基本深度研究智能體比帶搜索工具的大型語(yǔ)言模型有顯著改進(jìn),但仍然不如OpenAI深度研究。通過(guò)添加提出的自進(jìn)化算法,我們觀察到在LongForm Research和DeepConsult上,我們的系統(tǒng)分別以60.9%和59.8%的勝率超過(guò)OpenAI深度研究。在兩個(gè)HLE數(shù)據(jù)集上的正確率也比OpenAI深度研究分別提高了1.5%和2.8%,盡管我們?cè)贕AIA上仍然落后4.4%。最后,整合基于檢索的擴(kuò)散在所有基準(zhǔn)測(cè)試中都比OpenAI深度研究有顯著提升。

此外,我們繪制了我們系統(tǒng)的帕累托前沿,以研究延遲和性能之間的權(quán)衡。在圖7b中,x軸表示秒的log10。左y軸顯示我們的TTD-DR在LongForm Research上相對(duì)于OpenAI深度研究的勝率。從左到右的數(shù)據(jù)點(diǎn)分別表示帶搜索工具的Gemini-2.5-pro、DR-Agent-Base、+自進(jìn)化和+基于檢索的擴(kuò)散,延遲逐漸增加。凸形,特別是最后兩個(gè)點(diǎn)的上升趨勢(shì)斜率,表明我們提出的兩種算法每單位延遲增加提供了更多的性能提升。這表明基于檢索的去噪和自進(jìn)化都是高效的測(cè)試時(shí)縮放算法。

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

圖8 | OpenAI深度研究與我們的TTD-DR在LongForm Research(左)和DeepConsult(右)基準(zhǔn)上的單方面評(píng)估指標(biāo)比較。TTD-DR的報(bào)告往往比其他深度研究智能體更有用和更全面。

4.2. 分析

本節(jié)更深入地理解我們提出的兩種方法如何為深度研究智能體的改進(jìn)做出貢獻(xiàn)。

自進(jìn)化相對(duì)于骨干深度研究的改進(jìn)。圖9顯示了DeepConsult上搜索查詢和答案的累積復(fù)雜性比較。復(fù)雜性通過(guò)大型語(yǔ)言模型(Gemini-2.5-pro)提取的關(guān)鍵點(diǎn)來(lái)衡量。我們觀察到自進(jìn)化顯著增加了搜索過(guò)程的復(fù)雜性,這豐富了收集到的信息,從而提高了最終報(bào)告的質(zhì)量。

我們的最終擴(kuò)散算法允許修訂和保存中間報(bào)告,使我們能夠評(píng)估報(bào)告質(zhì)量的逐步提升,如圖7a所示。隨著我們通過(guò)增加更多搜索和修訂步驟來(lái)增加計(jì)算資源,我們相對(duì)于OpenAI深度研究取得了越來(lái)越顯著的收益。HLE-Search的結(jié)果可以在附錄A.11中找到。接下來(lái),我們旨在理解在自進(jìn)化算法的基礎(chǔ)上,基于檢索的去噪算法對(duì)這些改進(jìn)的貢獻(xiàn)。

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

圖9 | 階段2生成的搜索問(wèn)題(左)和答案(右)的復(fù)雜性,由大型語(yǔ)言模型使用附錄中的提示A.7和A.8提取的關(guān)鍵點(diǎn)數(shù)表示。自進(jìn)化鼓勵(lì)搜索問(wèn)題和答案的多樣性,這增強(qiáng)了可用信息的豐富性,從而解釋了最終質(zhì)量的改進(jìn)。

基于檢索的去噪相對(duì)于自進(jìn)化的改進(jìn)。圖10a顯示了DeepConsult上的累積搜索查詢新穎性比較。新穎性通過(guò)生成的累積新點(diǎn)數(shù)的百分比來(lái)衡量(由Gemini-2.5-pro使用提示A.9提取)。我們可以觀察到,通過(guò)將修訂后的報(bào)告用于指導(dǎo)新查詢的探索,基于檢索的去噪在整個(gè)搜索和修訂過(guò)程中將查詢新穎性提高了超過(guò)12個(gè)百分點(diǎn)。在圖10b中,我們展示了早期搜索和修訂步驟中報(bào)告在答案中的歸因(使用Gemini-2.5-pro和提示A.10計(jì)算)。值得注意的是,在步驟9,基于檢索的去噪已經(jīng)整合了最終報(bào)告信息的51.2%,并且在勝率上比自進(jìn)化(20個(gè)搜索步驟)高出4.2%(圖10c中的最后一點(diǎn))。這些結(jié)果表明,基于檢索的去噪有效地利用了早期階段的信息,導(dǎo)致在智能體學(xué)習(xí)最有效的時(shí)候及時(shí)保存知識(shí),如圖7a所示。

谷歌重新定義Deep Researcher能力:測(cè)試時(shí)擴(kuò)散能力增強(qiáng)深度研究智能體-AI.x社區(qū)

圖10 | 基于檢索的去噪與自進(jìn)化算法之間的比較。(a):階段2生成的搜索查詢中累積新點(diǎn)的百分比(提示A.9),這表明基于檢索的去噪算法指導(dǎo)生成更多未探索的搜索查詢。(b):最終報(bào)告在階段2搜索答案中的累積信息歸因(提示A.10),這表明我們的最終方法在早期搜索階段及時(shí)整合了信息。(c)顯示了基于檢索的去噪早期步驟與具有20個(gè)步驟的自進(jìn)化之間的性能差距。僅用9個(gè)步驟,基于檢索的去噪已經(jīng)整合了最終報(bào)告信息的51.2%,并且在勝率上比具有20個(gè)步驟的自進(jìn)化高出4.2%。

5. 相關(guān)工作

我們回顧了啟發(fā)我們深度研究智能體的相關(guān)工作。

測(cè)試時(shí)計(jì)算縮放。Baek等人(2024);Lu等人(2024);Zheng等人(2024)是早期利用搜索工具和測(cè)試時(shí)迭代優(yōu)化算法構(gòu)建研究助手/科學(xué)家智能體的努力。最近,Gottweis等人(2025)提出了一種用于生物醫(yī)學(xué)研究的AI合作科學(xué)家智能體,整合了測(cè)試時(shí)算法,如辯論機(jī)制以生成新想法、錦標(biāo)賽以比較和排名研究假設(shè)以及自我批判以完善研究提案。Schmidgall等人(2025)構(gòu)建了一個(gè)端到端的科學(xué)論文寫(xiě)作智能體,在其智能體工作流的每個(gè)階段都具有自我反思能力。值得注意的是,他們啟用了一個(gè)副駕駛模式,人類(lèi)可以介入并提供反饋,這被證明可以提高整體論文質(zhì)量。Yamada等人(2025)設(shè)計(jì)了一個(gè)機(jī)器學(xué)習(xí)研究智能體,通過(guò)整合樹(shù)搜索推理算法,能夠撰寫(xiě)被ICLR研討會(huì)接受的完整研究論文。Tang等人(2025)提出了一種多智能體系統(tǒng),能夠回顧文獻(xiàn)、生成新想法、發(fā)明新算法、進(jìn)行實(shí)驗(yàn)并起草可發(fā)表的論文。類(lèi)似地,DeerFlow(2025)利用一個(gè)包含規(guī)劃器、協(xié)調(diào)器、研究員和報(bào)告員的多智能體系統(tǒng),對(duì)通用用戶查詢產(chǎn)生全面的響應(yīng)。

在測(cè)試時(shí)算法中,自進(jìn)化(Lee等人,2025;Novikov等人,2025;Qiu等人,2025)最近成為設(shè)計(jì)包括深度研究在內(nèi)的各種智能體系統(tǒng)的流行框架。我們的自進(jìn)化算法與這種方法有共同的精神,特別是在其進(jìn)行多次自我批判和自我完善的能力方面。然而,TTD-DR與自進(jìn)化的不同之處在于:1)我們的框架從根本上由人類(lèi)認(rèn)知行為驅(qū)動(dòng),并且我們利用檢索增強(qiáng)擴(kuò)散過(guò)程與人類(lèi)寫(xiě)作過(guò)程之間的共性來(lái)開(kāi)發(fā)我們的測(cè)試時(shí)擴(kuò)散深度研究;2)自進(jìn)化改進(jìn)了各個(gè)智能體,以提供高質(zhì)量的上下文信息來(lái)輔助主要的去噪算法。先前的工作中沒(méi)有明確建模人類(lèi)認(rèn)知行為以及自進(jìn)化與基于檢索的去噪之間的相互作用。

智能體調(diào)優(yōu)。最近的一些工作探索通過(guò)訓(xùn)練改進(jìn)深度研究智能體。早期工作專注于構(gòu)建能夠進(jìn)行深度搜索和推理的智能體RAG系統(tǒng)。Guan等人(2024)提出了一種多任務(wù)學(xué)習(xí)目標(biāo),結(jié)合組件級(jí)SFT數(shù)據(jù)和模型反饋,聯(lián)合訓(xùn)練其智能體RAG系統(tǒng)中的每個(gè)模塊。Jin等人(2025)將搜索行動(dòng)和大型語(yǔ)言模型最終響應(yīng)轉(zhuǎn)換為單個(gè)序列輸入,并使用最終響應(yīng)獎(jiǎng)勵(lì)端到端訓(xùn)練RAG系統(tǒng)。最近,Li等人(2025b)、Zheng等人(2025)、Shi等人(2025)和Kimi-Researcher(2025)利用強(qiáng)化學(xué)習(xí)訓(xùn)練研究助手智能體,使其能夠利用搜索和瀏覽工具收集信息并撰寫(xiě)報(bào)告。在我們的工作中,我們專注于測(cè)試時(shí)計(jì)算,并將智能體調(diào)優(yōu)留待未來(lái)工作。

大型語(yǔ)言模型擴(kuò)散模型。傳統(tǒng)的大型語(yǔ)言模型訓(xùn)練范式利用自回歸目標(biāo)來(lái)訓(xùn)練模型和采樣輸出。大型語(yǔ)言模型擴(kuò)散模型試圖通過(guò)打破從第一個(gè)標(biāo)記到最后一個(gè)標(biāo)記采樣的假設(shè)來(lái)提高最先進(jìn)大型語(yǔ)言模型的可擴(kuò)展性。大型語(yǔ)言模型擴(kuò)散模型經(jīng)過(guò)訓(xùn)練,首先生成完整的“帶噪聲”草稿,然后它們迭代地將多個(gè)標(biāo)記去噪為完整的高質(zhì)量草稿(Gemini,2025;Nie等人,2025;Yang等人,2022)。由于高度可并行化的生成處理,這一工作線有潛力在保持質(zhì)量的同時(shí)實(shí)現(xiàn)更高的效率。我們的工作受到大型語(yǔ)言模型擴(kuò)散模型的啟發(fā),在測(cè)試時(shí)報(bào)告撰寫(xiě)中引入去噪機(jī)制,但與它們不同的是,我們不訓(xùn)練我們的智能體;相反,我們假設(shè)大型語(yǔ)言模型智能體經(jīng)過(guò)精心設(shè)計(jì)以執(zhí)行去噪任務(wù)。

6. 結(jié)論

具有測(cè)試時(shí)擴(kuò)散能力的深度研究智能體(TTD-DR)是一種新穎的研究報(bào)告生成框架,受人類(lèi)研究迭代性質(zhì)的啟發(fā)。該智能體通過(guò)將報(bào)告生成概念化為擴(kuò)散過(guò)程,解決了現(xiàn)有深度研究智能體的局限性。TTD-DR以初步草稿啟動(dòng),該草稿是一個(gè)可更新的框架,指導(dǎo)研究方向。然后,該草稿通過(guò)“去噪”過(guò)程進(jìn)行迭代優(yōu)化,該過(guò)程由檢索機(jī)制動(dòng)態(tài)提供信息,在每個(gè)步驟中整合外部信息。核心過(guò)程通過(guò)在智能體工作流的每個(gè)組件上應(yīng)用自進(jìn)化算法得到進(jìn)一步增強(qiáng),確保為擴(kuò)散過(guò)程生成高質(zhì)量的上下文。

TTD-DR框架在各種需要密集搜索和多跳推理的基準(zhǔn)測(cè)試中取得了最先進(jìn)的結(jié)果,顯著優(yōu)于現(xiàn)有的深度研究智能體。它在生成綜合長(zhǎng)篇研究報(bào)告和為多跳搜索和推理任務(wù)確定簡(jiǎn)潔答案方面表現(xiàn)出卓越的性能。該框架以草稿為中心的設(shè)計(jì)指導(dǎo)報(bào)告撰寫(xiě)過(guò)程更及時(shí)、更連貫,同時(shí)減少迭代搜索過(guò)程中的信息丟失。

參考資料

? 標(biāo)題:Deep Researcher with Test-Time Diffusion

? 作者:Rujun Han*, Yanfei Chen*, Zoey CuiZhu, Lesly Miculicich, Guan Sun, Yuanjun Bi, Weiming Wen, Hui Wan, Chunfeng Wen, Solène Ma?tre, George Lee, Vishy Tirumalashetty, Emily Xue, Zizhao Zhang, Salem Haykal, Burak Gokturk, Tomas Pfister, Chen-Yu Lee

? 單位:1Google Cloud AI Research, 2Google Cloud

? 標(biāo)簽:深度研究智能體、大型語(yǔ)言模型(LLMs)、測(cè)試時(shí)擴(kuò)散、自進(jìn)化、檢索增強(qiáng)、自然語(yǔ)言處理、多跳推理

? 概述:本文提出了 Test-Time Diffusion Deep Researcher (TTD-DR) 框架,將研究報(bào)告生成視為擴(kuò)散過(guò)程,通過(guò)基于檢索的去噪和組件級(jí)自進(jìn)化模仿人類(lèi)迭代研究行為,在多個(gè)復(fù)雜研究任務(wù)基準(zhǔn)上超越現(xiàn)有方法。

? 鏈接:https://arxiv.org/pdf/2507.16075

本文轉(zhuǎn)載自????????旺知識(shí)??,作者:旺知識(shí)

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
亚洲欧洲三级电影| 日日夜夜一区二区| 日韩大陆毛片av| 国产真实乱子伦| av天在线观看| 国产成人综合视频| 97在线看福利| 麻豆视频免费在线播放| 999久久久精品一区二区| 日韩欧美亚洲成人| 国产大尺度在线观看| 色窝窝无码一区二区三区成人网站 | 亚洲二区精品| 视频在线一区二区| 黄色正能量网站| 国产精品一区免费在线 | 爱情电影社保片一区| 尹人成人综合网| 中文字幕av一区二区三区谷原希美| 深爱五月综合网| 成人动漫一区| 亚洲一区二区三区中文字幕| 日韩精品一区二区三区色偷偷| 国产激情久久久久久熟女老人av| 久久一区欧美| 久久久久久亚洲精品不卡| 色偷偷男人天堂| 伊人久久大香线蕉av不卡| 日韩一级高清毛片| 狠狠干狠狠操视频| 国产综合色区在线观看| 精品国产1区2区| 九九久久九九久久| 欧美精品日韩少妇| 国产亚洲短视频| 精品国产免费人成电影在线观...| 一级做a爰片久久毛片16| 久久高清免费观看| 91av在线免费观看| 久久久精品视频免费| 欧美在线国产| 色阁综合伊人av| 91在线无精精品白丝| 无码少妇一区二区三区| 亚洲电影av在线| 中文字幕一区二区三区人妻在线视频| 国产精品4hu.www| 欧美色网站导航| 99热手机在线| 91欧美精品| 精品视频在线看| 黄色手机在线视频| 国产成人毛片| 欧美精品乱人伦久久久久久| 视频在线观看免费高清| 91成人抖音| 欧美肥妇毛茸茸| 一级做a爱视频| 日韩成人18| 精品欧美乱码久久久久久 | 视频欧美精品| 91精品久久久久久久91蜜桃| 91香蕉国产线在线观看| 中文在线综合| 日韩av中文字幕在线播放| 中文在线一区二区三区| 国产在线日韩精品| www.日韩不卡电影av| 精品在线观看一区| 久久久久久美女精品| 欧美黑人xxxⅹ高潮交| 成年人免费看毛片| 老司机午夜免费精品视频| 国产精品aaaa| 国产精品女人久久久| 午夜毛片在线| 91精品国产成人观看| 久久中文字幕在线视频| 久久影院一区二区| 久久精品电影| 国产一区玩具在线观看| 精品人妻少妇AV无码专区| 成人午夜av影视| 另类小说综合网| 天天综合视频在线观看| 亚洲精品中文在线观看| 精品视频在线观看一区| 日韩天堂在线| 欧美一区二区精品在线| 日本国产在线视频| 国产伦精品一区二区三区视频| 在线观看日韩视频| 国产a免费视频| 久久av在线| 91亚洲精品一区| 午夜视频在线播放| 日本一二三四高清不卡| 欧美黄网在线观看| 中文字幕在线直播| 7799精品视频| 欧美无人区码suv| 青青草97国产精品麻豆| 欧美大学生性色视频| 老熟妇一区二区三区| 国产成人小视频| 视频在线观看成人| 国产直播在线| 欧美一区二区在线看| v8888av| 欧美一区高清| 国产精品va在线播放| 亚洲伦理在线观看| 国产精品久久久久一区 | 在线不卡日本v二区707| 色综合天天做天天爱| 亚洲成人激情小说| 成人高清电影网站| 欧美亚洲国产日本| 不卡视频免费在线观看| 日本一二三不卡| 日本日本19xxxⅹhd乱影响| 亚洲精品成a人ⅴ香蕉片| 日韩经典第一页| 久久久精品99| 国产精品亚洲一区二区三区在线| 婷婷久久伊人| 成人性生活av| 日韩福利视频在线观看| 精品无码黑人又粗又大又长| 国产伦精一区二区三区| 亚洲制服欧美久久| 日韩欧美一区二区三区在线观看| 亚洲国产美女精品久久久久∴| 青青草成人免费| 精品一二三四在线| 亚洲激情一区二区| 欧美大片1688网站| 亚洲一级片在线看| 探花视频在线观看| 99久久精品国产麻豆演员表| 黄色三级中文字幕| 日韩精品三级| 欧美成人性色生活仑片| 99热这里精品| 亚洲三级在线观看| 想看黄色一级片| 性欧美欧美巨大69| 亚洲精品欧美极品| 羞羞网站在线看| 日韩三级.com| 久久久久久久久久久网| 成人免费高清在线| 僵尸世界大战2 在线播放| av一级亚洲| 欧美激情综合色| 日本精品久久久久久| 亚洲成人你懂的| 亚洲激情 欧美| 一本一本久久| 欧美日韩一区在线播放| 视频在线日韩| 久色乳综合思思在线视频| 国产日韩欧美中文字幕| 一区二区三区四区中文字幕| 深田咏美中文字幕| 午夜在线播放视频欧美| 日韩一本精品| 色综合视频一区二区三区日韩| 免费av一区二区| 男人天堂综合网| 欧美性xxxxx| 久久婷婷五月综合| 久久精品国产成人一区二区三区 | 在线日韩一区二区| 国产精品综合激情| 国产精品12区| 久久免费视频3| 成人3d精品动漫精品一二三| 亚洲伊人一本大道中文字幕| 波多一区二区| 亚洲人成电影网站| 国产农村妇女毛片精品久久| 午夜精品一区二区三区三上悠亚| 国产精品20p| 国产精品中文字幕一区二区三区| 精品无码国模私拍视频| 欧美色爱综合| 国产欧美综合精品一区二区| 国产麻豆一区| 久久久久久这里只有精品| 人成免费电影一二三区在线观看| 欧美日韩国产天堂| 国产午夜免费视频| 欧美国产精品v| 亚洲av无码专区在线播放中文| 噜噜噜在线观看免费视频日韩| 国产高清免费在线| 夜夜春成人影院| 亚洲xxxx18| 伊人色综合一区二区三区影院视频| 最近2019中文字幕在线高清| 熟妇人妻av无码一区二区三区| 欧美日韩综合色| 亚洲精品午夜国产va久久成人| 最新国产の精品合集bt伙计| 波多野结衣一本| 国产成人免费视频网站高清观看视频| 久久综合久久色| 韩日精品视频| 中文字幕一区综合| 欧美日韩播放| 国产在线一区二| 国产乱码精品一区二区三区亚洲人| 亲爱的老师9免费观看全集电视剧| 性欧美videoshd高清| 中文字幕综合在线| 神马久久久久| 精品国产免费视频| 国产露脸91国语对白| 色8久久精品久久久久久蜜| 国产一级视频在线播放| 中文字幕亚洲在| a天堂中文字幕| www.成人在线| 免费国偷自产拍精品视频| 男人的天堂久久精品| 日韩精品一区二区三区久久| 亚洲精品欧洲| 日韩极品视频在线观看| 亚洲精品成人| 在线观看日韩片| 日韩欧美视频专区| 欧美成人在线免费观看| 欧美人妖在线观看| 精品久久久久亚洲| 国产日韩三级| 国产精品久久亚洲7777| 天堂va欧美ⅴa亚洲va一国产| 91影视免费在线观看| 九七电影院97理论片久久tvb| 国产精品日韩在线一区| 影视一区二区三区| 国产精品啪视频| 成人精品动漫| 国产精品一区二区3区| 国产精品久久久久久吹潮| 国产精品久久久久免费a∨| 亚洲精品一级二级| 国产精品日本精品| 国产毛片精品久久| 成人激情黄色网| 免费精品一区| 国产精品theporn88| 欧美a级网站| 久久精品第九区免费观看| 午夜a一级毛片亚洲欧洲| 欧美日韩精品中文字幕一区二区| 九九热精品视频在线观看| 日韩久久不卡| 久久影院100000精品| 五月天综合婷婷| 国产精品mv在线观看| 成人在线播放网址| 国产精品久久久亚洲一区| 欧美 激情 在线| 美国三级日本三级久久99| 日本高清免费在线视频| 豆国产96在线|亚洲| 800av在线播放| 久久精品网站免费观看| 极品尤物一区二区| 一区二区三区欧美在线观看| 日韩视频免费观看高清| 在线观看国产精品网站| 国产麻豆免费视频| 精品国产91久久久久久久妲己| 无码国产伦一区二区三区视频 | 丝袜亚洲另类丝袜在线| 日本特黄a级片| 国产精品一级二级三级| 亚洲熟妇无码av| 亚洲欧美在线另类| 国产在线观看成人| 色婷婷av一区二区三区大白胸| 中文字幕一区二区在线视频| 日韩一区二区免费高清| 日韩三级电影网| 日韩视频在线一区| av伦理在线| 国产精品日韩欧美大师| 激情亚洲另类图片区小说区| 色视频一区二区三区| 欧美国产精品| 日韩在线第三页| 国产成人精品免费网站| 少妇无套高潮一二三区| 一区二区三区欧美视频| 国产日韩久久久| 精品国产自在久精品国产| 国产午夜精品一区理论片| 欧美日韩国产二区| 先锋欧美三级| 高清不卡一区二区三区| 日韩欧美在线中字| 久久久噜噜噜www成人网| 国内成人精品2018免费看| 欧美另类z0zx974| 亚洲影院理伦片| 夜夜狠狠擅视频| 亚洲热线99精品视频| 超碰97免费在线| 91精品视频大全| 加勒比久久综合| 亚洲熟妇无码一区二区三区| 国产一区二区精品在线观看| 娇妻被老王脔到高潮失禁视频| 五月激情综合婷婷| 亚洲成a人片77777精品| 久久精品国产69国产精品亚洲| 成人黄色免费短视频| 国产一区在线观| 亚洲无线视频| 免费人成视频在线播放| 国产精品第四页| 亚洲中文无码av在线| 精品亚洲国产视频| 好吊日av在线| www 成人av com| 中文字幕一区二区三三| 午夜一级免费视频| 国产精品国产馆在线真实露脸| 狠狠人妻久久久久久综合| 亚洲精品成人网| xxx.xxx欧美| 春色成人在线视频| 欧美三区不卡| 国模大尺度视频| 亚洲精品国产品国语在线app| 国产精品乱码一区二区| 精品国产一区二区三区在线观看 | 欧美aaa免费| 97se亚洲综合| 狠狠爱综合网| 日本精品一二三区| 亚洲线精品一区二区三区| 成人午夜福利视频| 久久久久国色av免费观看性色| 日韩中文字幕在线一区| 人人妻人人澡人人爽欧美一区双| 国产精品白丝jk白祙喷水网站| 少妇影院在线观看| 欧美成人欧美edvon| 超碰在线97国产| 美女被啪啪一区二区| 丝袜脚交一区二区| 日本不卡一区视频| 91精品欧美久久久久久动漫| 怡红院在线播放| 国产精品视频福利| 国产情侣一区| 在线不卡av电影| 欧美卡1卡2卡| 少女频道在线观看免费播放电视剧| 岛国视频一区免费观看| 亚洲精品国产日韩| 中文字幕成人动漫| 欧美日韩一级二级三级| 亚洲丝袜精品| 久久久亚洲综合网站| 日韩高清不卡一区二区| 翔田千里88av中文字幕| 精品国产一区二区精华| 午夜欧美激情| 中国成人亚色综合网站| 岛国精品在线播放| 欧美精品一二三四区| 少妇高潮久久77777| 免费观看亚洲天堂| 国产无套内射久久久国产| 国产精品久久久久久久久图文区| 高h调教冰块play男男双性文| 日本高清不卡在线| **女人18毛片一区二区| 一边摸一边做爽的视频17国产 | 国产精品久久无码一三区| 色综合久综合久久综合久鬼88| 美女扒开腿让男人桶爽久久动漫| 手机看片福利日韩| 亚洲综合色视频| 国产三级在线| 97超碰人人看人人| 肉肉av福利一精品导航| 欧美国产在线看| 中文在线不卡视频| 超碰地址久久| 中文字幕 日韩 欧美| 狠狠做深爱婷婷久久综合一区 | 深爱激情综合网| 一区二区在线免费观看视频| 日本黄色一区二区|