阿里通義DeepResearch技術報告解讀:3.3B激活,刷新5大榜單,開源深度研究智能體技術新標桿!
我們在做長周期科研型Agent時,曾連續卡殼兩個核心問題:一是標注多步推理軌跡的成本高到離譜——為了訓練模型“分解問題→搜文獻→驗證結論”的流程,標注千條高質量科研級軌跡花了近萬元,還達不到訓練所需的規模;二是RL訓練后期總出現“策略崩潰”——明明前期模型能正常調用工具,越訓反而越容易陷入“重復搜同一關鍵詞”的死循環。直到看到阿里Tongyi Lab發布的Tongyi DeepResearch技術報告,才發現他們不僅用全自動化方案解決了數據標注難題,還通過分階段訓練讓305億參數量模型僅激活33億/Token,效率遠超同類型閉源模型(比如OpenAI o3)。

我們解讀最新技術,文末有相關信息。

如果你也在做Agent開發、長上下文推理或科研級信息檢索,這篇論文值得仔細拆解——它不僅給出了可復現的技術方案,還開源了模型、框架和工具鏈,相當于把“AI研究員”的訓練手冊直接擺在了桌面上。
一、先搞懂:Deep Research Agent的3個核心科研痛點
在聊方案前,得先明確一個前提:“Deep Research Agent”和普通問答模型完全不是一回事。普通模型比如ChatGPT-4o能回答已知問題,但面對“2024年某西部礦區發現的新礦物,其成分與19世紀某紀念幣的金屬成分是否存在關聯”這類需要多步推理、實時搜信息、跨源驗證的問題,就會束手無策。而Deep Research Agent要做的,正是模擬人類研究員的工作流:從問題拆解到信息檢索,再到結論合成,全程自主完成。
但實際開發中,這三類痛點幾乎是所有團隊的“必踩坑”:
1. 數據瓶頸:科研級軌跡標注“又貴又慢”
訓練Agent需要大量“問題→多步行動→結論”的軌跡數據,但科研級問題的標注難度遠超普通NLP任務。比如要標注“驗證某歷史人物的軍事單位與貨幣發行的關聯”,標注員不僅要懂歷史背景,還要還原“先搜人物履歷→確認軍事單位→查貨幣發行年份→驗證沖突時間”的完整邏輯鏈。論文里引用Wei et al. 2025的研究指出,這類數據的標注成本是普通對話數據的10倍以上,中小團隊根本扛不住。
更麻煩的是,自然數據里幾乎沒有這類軌跡——你沒法從網頁上直接爬取“研究員思考+行動”的完整記錄,只能靠人工造,這就陷入了“要訓練模型先有數據,要有數據先有模型”的死循環。
2. 訓練不穩定:從“會做事”到“亂做事”的策略崩潰
我們之前用Llama2-7B做Agent微調時,遇到過一個詭異現象:前5個epoch模型還能正常規劃步驟(比如先搜“某礦物成分”再對比“紀念幣成分”),到第6個epoch突然開始“瞎操作”——反復調用搜索工具搜同一個關鍵詞,或者跳過關鍵驗證步驟直接給結論。這就是論文里說的“policy collapse(策略崩潰)”。
后來才明白,問題出在“訓練范式”上:普通LLM是先預訓練再指令微調,但Agent需要“會行動”的直覺(比如什么時候該搜、什么時候該總結),而通用預訓練數據里沒有這種“Agent偏置”。直接在通用LLM上做RL訓練,就像讓沒學過實驗操作的學生直接進實驗室,很容易走偏。
3. 效率與成本:大模型“吃資源”卻不“干活”
之前試過用13B參數量的模型做Deep Research,結果發現兩個問題:一是全參激活時單條軌跡推理要10多秒,訓練一輪要一周;二是長上下文(比如64K)下,模型會“記不住前面的搜索結果”,導致推理斷裂。而閉源模型比如OpenAI DeepResearch雖然效果好,但既看不到中間過程,也沒法部署到私有環境,科研和產業落地都受限。
二、Tongyi DeepResearch的核心方案:從“數據→訓練→環境”的全鏈路破局
這篇論文最讓我驚艷的,不是某一個單點創新,而是把“數據合成、分階段訓練、環境設計”串成了一個閉環——就像給AI研究員設計了一套“從入門到精通”的培養體系,每個環節都解決了前面提到的痛點。

1. 先解決數據:全自動化合成,不用人工標注
他們設計了一套“全自動數據合成流水線”,相當于造了一個“AI標注員”,能批量生成科研級的Agent軌跡。核心邏輯分三步,每一步都針對性解決數據問題:

?第一步:生成科研級問題——不是簡單的“what/why”問題,而是需要多步推理的復雜問題。比如論文里的案例:“某18世紀游記改編的廣播劇提到英國某港口走私猖獗,該港口還出了個16世紀紳士,其妻子因謀殺他被處決;19世紀初該港口有人獲商業專利,同年某收藏家獲油墨研磨專利,且某德國家族獲貴族頭銜——這個貴族頭銜的德語稱謂是什么?”(答案是Fürstenstand)。
生成這類問題的關鍵是“實體錨定”——先建一個包含實體(人物、地點、事件)和關聯知識的知識庫,再隨機抽樣實體組合成問題,保證問題的復雜性和真實性。這就像研究員設計實驗時,會基于已有文獻的知識點組合出新課題,而不是憑空捏造。
?第二步:生成Agent行動軌跡——針對每個問題,自動生成“思考(Thought)→行動(Action)→觀察(Observation)”的完整鏈。比如問題分解階段,用開源模型生成“先查游記對應的港口→再查該港口的16世紀人物→接著查19世紀專利年份”的規劃步驟;推理階段,還會用“長度過濾+答案一致性驗證”確保推理鏈沒錯(比如搜出港口是多佛爾,就不會把其他港口的人物混進來)。
這里有個細節很關鍵:他們把“決策”單獨作為一種行動類型。比如模型在“繼續搜還是總結結論”時,會生成“當前已有港口、人物、專利年份的信息,缺少貴族頭銜的德語稱謂,需要再搜‘19XX年德國家族貴族頭銜 德語’”的決策過程。這恰好解決了我們之前模型“不知道什么時候停”的問題——因為數據里明確包含了決策邏輯,模型能學到“判斷是否需要繼續行動”的直覺。

?第三步:驗證數據質量——合成的數據不是直接用,而是通過“自動驗證”過濾低質量樣本。比如數學問題會檢查計算步驟是否正確,歷史問題會驗證時間線是否一致。這比人工驗證快10倍以上,還能保證數據分布穩定——不會出現“有的樣本簡單,有的樣本超難”的情況。
2. 再解決訓練:中訓+后訓,避免策略崩潰
傳統方案要么只做“預訓練→后訓”,要么直接在通用LLM上微調,而他們加了一個“Agentic Mid-training(中訓)”階段,相當于給模型加了“Agent啟蒙課”,從根本上解決訓練不穩定的問題。


整個訓練流程分三階段,像極了研究生的培養路徑:
訓練階段 | 核心目標 | 具體操作 | 類比研究員培養 |
預訓練(基礎) | 語言能力+世界知識 | Qwen3-30B-A3B-Base模型(305億總參) | 本科階段學基礎學科 |
中訓(Agent啟蒙) | 培養Agent偏置 | 分兩階段持續預訓練: | 研究生入門:學科研范式(查文獻、寫提綱) |
后訓(實戰優化) | 提升實戰能力 | 1. SFT(監督微調):用合成的高質量軌跡做冷啟動,保證模型先“會做事” | 跟著導師做課題:通過實戰改實驗方案 |
這里有兩個關鍵創新點,直接解決了我們之前的訓練痛點:
?中訓階段的“漸進式上下文”:先練32K再練128K,而不是一上來就用長上下文。我們之前試過直接用64K上下文訓練,模型經常“記不住前面的步驟”,而這種漸進式訓練讓模型先掌握短序列的Agent邏輯,再擴展到長序列,就像研究員先做小實驗,再做大課題,基礎更牢。
?RL階段的“動態數據篩選”:訓練時會自動去掉兩類樣本——“模型每次都做對”的(沒學習價值)和“模型每次都做錯”的(太超綱,容易打擊信心),只留“偶爾對偶爾錯”的中等難度樣本。我們之前就是因為沒篩選樣本,把太多超難樣本混進去,導致模型越訓越亂,而這個方法讓RL訓練的穩定性提升了不少。
3. 最后解決環境:分階段設計,兼顧成本與真實度
Agent訓練不能只靠數據,還需要和環境互動(比如調用搜索工具、訪問網頁),但真實環境貴、模擬環境假,這篇論文用“三種環境”解決了這個矛盾:
?Prior World Environment(先驗世界環境):不用真實工具,靠模型已有的知識生成“模擬反饋”。比如模型調用“搜索‘多佛爾港口 16世紀人物’”,環境直接返回“多佛爾港口16世紀有XXX人物,其妻子因謀殺被處決”的模擬結果。這種環境零成本、無限量,適合中訓階段練基礎動作,就像研究員先在“虛擬實驗室”里練操作流程,再進真實實驗室。
?Simulated Environment(模擬環境):基于2024年維基百科數據建本地知識庫,用RAG工具模擬網頁訪問。比如模型要查“某紀念幣發行年份”,環境會從本地維基數據里提取信息返回。這種環境比真實環境快10倍,成本低,適合RL階段的快速迭代——我們之前用真實搜索API時,光QPS限制就導致訓練中斷過好幾次,而模擬環境完全沒這個問題。
?Real-world Environment(真實環境):對接真實的Google搜索、Google Scholar、Python解釋器等工具,但加了一個“統一沙箱”——就像給工具加了“安全防護網”:比如搜索API超時會自動重試,關鍵數據會緩存,還能切換備用數據源(比如Google搜不到就用Bing)。這個設計解決了真實環境的“不穩定性”,我們之前因為API故障導致的訓練數據污染,在這里幾乎不會發生。
更聰明的是,他們會根據訓練階段切換環境:中訓用Prior World+模擬環境,快速攢經驗;后訓先在模擬環境驗證策略,再到真實環境做最終優化——既省成本,又保證了模型在真實場景的效果。
三、實驗驗證:3.3B激活參數量,干翻閉源模型?
看論文不能只看方案,關鍵要看實驗能不能復現、效果是不是真的好。這篇論文的實驗設計很扎實,覆蓋了7個Deep Research核心 benchmark,還做了不少消融實驗,能直接看到每個創新點的價值。
1. 核心結果:開源模型里的“性能天花板”
先看關鍵benchmark的對比:

幾個關鍵洞察:
?綜合能力第一:在Humanity’s Last Exam(被稱為“人類最后一場考試”,涵蓋歷史、科學等跨領域復雜問題)上,32.9分遠超OpenAI o3的24.9分,甚至比DeepSeek-V3.1高3分——要知道這個benchmark里很多問題需要“搜文獻+理時間線+驗證結論”,模型能拿到這個分數,說明其多步推理能力確實過硬。
?中文能力亮眼:BrowseComp-ZH雖然比OpenAI o3低,但作為開源模型,46.7分已經是優秀的開源模型(這里不得不提DeepSeekV3.1也在BrowseComp中是表現優秀的開源模型)。
?效率優勢明顯:最關鍵的是,Tongyi DeepResearch總參數量305億,但每Token僅激活33億參——相當于用“低配硬件”跑出了“高配效果”。

2. Heavy Mode:靠“多Agent并行”再提性能
論文還提出了一個“Heavy Mode”,解決了“單Agent推理有局限”的問題——就像實驗室里多個研究員分工合作,有人查文獻、有人做實驗、有人分析數據,最后匯總結論。

具體做法是:先讓n個Agent并行處理同一個問題(每個Agent走不同的推理路徑,比如A Agent先搜人物,B Agent先搜港口),每個Agent輸出壓縮后的“報告摘要”(只留關鍵信息,去掉冗余步驟);再讓一個“合成模型”把這些摘要整合,給出最終答案。
這個模式的效果很明顯:在Humanity’s Last Exam上,Heavy Mode把分數從32.9提到了38.3,BrowseComp-ZH從46.7提到58.1——直接追平了OpenAI o3的中文成績。更重要的是,因為每個Agent輸出的是“壓縮摘要”,即使n=5,也不會超出128K上下文限制,這比“拼接全軌跡”的方案高效多了。
四、落地前景與待解挑戰:這篇論文對科研和產業的意義
聊完技術,更要想它的實際價值——對我們做AI科研的人來說,這篇論文的意義不止是“一個新模型”,更是一套“可復現的Deep Research Agent開發范式”。
1. 對科研的價值:降低中小團隊的研究門檻
之前做Agent研究,要么靠閉源API(看不到中間過程,沒法做機理分析),要么自己搭框架(數據、訓練、環境全要自己寫,光調試工具調用就花1個月)。而Tongyi DeepResearch開源了三個關鍵東西:
? 模型權重:在Hugging Face和ModelScope上能直接下載(https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B);
? 訓練框架:包含數據合成、RL訓練的完整代碼:??https://github.com/Alibaba-NLP/DeepResearch??
? 工具鏈:搜索、訪問網頁、解析文件的工具實現,甚至還有模擬環境的維基數據集。
這意味著中小團隊不用從零開始,拿過來改改就能做自己的Agent研究——比如要做“AI輔助材料科研”,直接用他們的數據合成 pipeline 生成“某材料的制備工藝→性能測試→文獻對比”的軌跡,訓練周期從2個月縮短到2周。
2. 對產業的價值:適合私有部署的“AI研究員”
產業場景里,很多企業需要“能在內部網絡用的科研型Agent”——比如藥企要分析臨床試驗數據、車企要查專利文獻,這些都不能用公有云的閉源模型。而Tongyi DeepResearch的優勢在于:
? 可私有部署:代碼和模型全開源,能部署到內部服務器;
? 效率高:3.3B激活參數量,不用頂配GPU也能跑;
? 可定制:數據合成 pipeline 能接入企業私有知識庫(比如藥企的內部文獻庫),生成針對性的訓練數據。
3. 待解的挑戰:不要神化,還有改進空間
客觀說,這篇論文也不是完美的,還有幾個待解決的問題:
? 長上下文局限:128K雖然比很多模型長,但面對“整本學術專著的分析”還是不夠——比如要對比某本書里10個章節的觀點,模型可能記不住前面章節的內容;
? 報告生成質量:目前模型輸出的是“準確的結論”,但缺乏“研究員式的敘事邏輯”(比如為什么這個結論重要、有哪些局限性),這對需要寫科研報告的場景來說還不夠;
? 多模態支持:目前只能處理文本,沒法分析圖片、表格(比如科研論文里的實驗數據圖),而真實科研中多模態信息很重要。
五、總結:這篇論文為什么值得你關注?
如果你是AI研究員,這篇論文給了你一套“從數據到落地”的全鏈路方案,能幫你跳過我們之前踩過的“數據貴、訓練亂、效率低”的坑;如果你是產業界的技術負責人,這篇論文提供了一個“可私有部署、高性價比”的科研型Agent選項,能降低企業的AI落地成本。
最核心的是,它證明了“開源Deep Research Agent也能做到接近閉源模型的效果”——以前大家覺得“Agent是閉源模型的天下”,但這篇論文打破了這個認知,讓更多團隊有機會參與到Agent的研究中。
最后,拋一個我們在復現中遇到的問題:你們在訓練RL階段時,有沒有遇到過“reward突然掉為0”的情況?我們后來發現是模擬環境的知識庫沒及時更新,導致模型搜不到正確信息,進而拿不到獎勵。如果你們也遇到過類似問題,歡迎在評論區交流解決思路。
參考資料
? 標題:Tongyi DeepResearch: An Open-Source Agentic Large Language Model for Long-Horizon Deep Information-Seeking Research Tasks
? 作者:Tongyi DeepResearch Team (Alibaba Group Tongyi Lab)
? 鏈接:https://arxiv.org/pdf/2510.24701
本文轉載自??旺知識??,作者:旺知識

















