阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！

發布于 2025-11-4 07:35

瀏覽

0收藏

我們在做長周期科研型Agent時，曾連續卡殼兩個核心問題：一是標注多步推理軌跡的成本高到離譜——為了訓練模型“分解問題→搜文獻→驗證結論”的流程，標注千條高質量科研級軌跡花了近萬元，還達不到訓練所需的規模；二是RL訓練后期總出現“策略崩潰”——明明前期模型能正常調用工具，越訓反而越容易陷入“重復搜同一關鍵詞”的死循環。直到看到阿里Tongyi Lab發布的Tongyi DeepResearch技術報告，才發現他們不僅用全自動化方案解決了數據標注難題，還通過分階段訓練讓305億參數量模型僅激活33億/Token，效率遠超同類型閉源模型（比如OpenAI o3）。

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！-AI.x社區

我們解讀最新技術，文末有相關信息。

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！-AI.x社區

如果你也在做Agent開發、長上下文推理或科研級信息檢索，這篇論文值得仔細拆解——它不僅給出了可復現的技術方案，還開源了模型、框架和工具鏈，相當于把“AI研究員”的訓練手冊直接擺在了桌面上。

一、先搞懂：Deep Research Agent的3個核心科研痛點

在聊方案前，得先明確一個前提：“Deep Research Agent”和普通問答模型完全不是一回事。普通模型比如ChatGPT-4o能回答已知問題，但面對“2024年某西部礦區發現的新礦物，其成分與19世紀某紀念幣的金屬成分是否存在關聯”這類需要多步推理、實時搜信息、跨源驗證的問題，就會束手無策。而Deep Research Agent要做的，正是模擬人類研究員的工作流：從問題拆解到信息檢索，再到結論合成，全程自主完成。

但實際開發中，這三類痛點幾乎是所有團隊的“必踩坑”：

1. 數據瓶頸：科研級軌跡標注“又貴又慢”

訓練Agent需要大量“問題→多步行動→結論”的軌跡數據，但科研級問題的標注難度遠超普通NLP任務。比如要標注“驗證某歷史人物的軍事單位與貨幣發行的關聯”，標注員不僅要懂歷史背景，還要還原“先搜人物履歷→確認軍事單位→查貨幣發行年份→驗證沖突時間”的完整邏輯鏈。論文里引用Wei et al. 2025的研究指出，這類數據的標注成本是普通對話數據的10倍以上，中小團隊根本扛不住。

更麻煩的是，自然數據里幾乎沒有這類軌跡——你沒法從網頁上直接爬取“研究員思考+行動”的完整記錄，只能靠人工造，這就陷入了“要訓練模型先有數據，要有數據先有模型”的死循環。

2. 訓練不穩定：從“會做事”到“亂做事”的策略崩潰

我們之前用Llama2-7B做Agent微調時，遇到過一個詭異現象：前5個epoch模型還能正常規劃步驟（比如先搜“某礦物成分”再對比“紀念幣成分”），到第6個epoch突然開始“瞎操作”——反復調用搜索工具搜同一個關鍵詞，或者跳過關鍵驗證步驟直接給結論。這就是論文里說的“policy collapse（策略崩潰）”。

后來才明白，問題出在“訓練范式”上：普通LLM是先預訓練再指令微調，但Agent需要“會行動”的直覺（比如什么時候該搜、什么時候該總結），而通用預訓練數據里沒有這種“Agent偏置”。直接在通用LLM上做RL訓練，就像讓沒學過實驗操作的學生直接進實驗室，很容易走偏。

3. 效率與成本：大模型“吃資源”卻不“干活”

之前試過用13B參數量的模型做Deep Research，結果發現兩個問題：一是全參激活時單條軌跡推理要10多秒，訓練一輪要一周；二是長上下文（比如64K）下，模型會“記不住前面的搜索結果”，導致推理斷裂。而閉源模型比如OpenAI DeepResearch雖然效果好，但既看不到中間過程，也沒法部署到私有環境，科研和產業落地都受限。

二、Tongyi DeepResearch的核心方案：從“數據→訓練→環境”的全鏈路破局

這篇論文最讓我驚艷的，不是某一個單點創新，而是把“數據合成、分階段訓練、環境設計”串成了一個閉環——就像給AI研究員設計了一套“從入門到精通”的培養體系，每個環節都解決了前面提到的痛點。

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！-AI.x社區

1. 先解決數據：全自動化合成，不用人工標注

他們設計了一套“全自動數據合成流水線”，相當于造了一個“AI標注員”，能批量生成科研級的Agent軌跡。核心邏輯分三步，每一步都針對性解決數據問題：

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！-AI.x社區

?第一步：生成科研級問題——不是簡單的“what/why”問題，而是需要多步推理的復雜問題。比如論文里的案例：“某18世紀游記改編的廣播劇提到英國某港口走私猖獗，該港口還出了個16世紀紳士，其妻子因謀殺他被處決；19世紀初該港口有人獲商業專利，同年某收藏家獲油墨研磨專利，且某德國家族獲貴族頭銜——這個貴族頭銜的德語稱謂是什么？”（答案是Fürstenstand）。

生成這類問題的關鍵是“實體錨定”——先建一個包含實體（人物、地點、事件）和關聯知識的知識庫，再隨機抽樣實體組合成問題，保證問題的復雜性和真實性。這就像研究員設計實驗時，會基于已有文獻的知識點組合出新課題，而不是憑空捏造。

?第二步：生成Agent行動軌跡——針對每個問題，自動生成“思考（Thought）→行動（Action）→觀察（Observation）”的完整鏈。比如問題分解階段，用開源模型生成“先查游記對應的港口→再查該港口的16世紀人物→接著查19世紀專利年份”的規劃步驟；推理階段，還會用“長度過濾+答案一致性驗證”確保推理鏈沒錯（比如搜出港口是多佛爾，就不會把其他港口的人物混進來）。

這里有個細節很關鍵：他們把“決策”單獨作為一種行動類型。比如模型在“繼續搜還是總結結論”時，會生成“當前已有港口、人物、專利年份的信息，缺少貴族頭銜的德語稱謂，需要再搜‘19XX年德國家族貴族頭銜德語’”的決策過程。這恰好解決了我們之前模型“不知道什么時候停”的問題——因為數據里明確包含了決策邏輯，模型能學到“判斷是否需要繼續行動”的直覺。

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！-AI.x社區

?第三步：驗證數據質量——合成的數據不是直接用，而是通過“自動驗證”過濾低質量樣本。比如數學問題會檢查計算步驟是否正確，歷史問題會驗證時間線是否一致。這比人工驗證快10倍以上，還能保證數據分布穩定——不會出現“有的樣本簡單，有的樣本超難”的情況。

2. 再解決訓練：中訓+后訓，避免策略崩潰

傳統方案要么只做“預訓練→后訓”，要么直接在通用LLM上微調，而他們加了一個“Agentic Mid-training（中訓）”階段，相當于給模型加了“Agent啟蒙課”，從根本上解決訓練不穩定的問題。

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！-AI.x社區

整個訓練流程分三階段，像極了研究生的培養路徑：

訓練階段	核心目標	具體操作	類比研究員培養
預訓練（基礎）	語言能力+世界知識	Qwen3-30B-A3B-Base模型（305億總參）	本科階段學基礎學科
中訓（Agent啟蒙）	培養Agent偏置	分兩階段持續預訓練： 1. 32K上下文：學基礎Agent行為（如簡單工具調用） 2. 128K上下文：學長序列推理（如多輪搜索后總結）注：穿插少量通用預訓練數據，避免丟語言能力	研究生入門：學科研范式（查文獻、寫提綱）
后訓（實戰優化）	提升實戰能力	1. SFT（監督微調）：用合成的高質量軌跡做冷啟動，保證模型先“會做事” 2. RL（強化學習）：在環境中互動，用“答案正確性”做獎勵，優化策略	跟著導師做課題：通過實戰改實驗方案

這里有兩個關鍵創新點，直接解決了我們之前的訓練痛點：

?中訓階段的“漸進式上下文”：先練32K再練128K，而不是一上來就用長上下文。我們之前試過直接用64K上下文訓練，模型經常“記不住前面的步驟”，而這種漸進式訓練讓模型先掌握短序列的Agent邏輯，再擴展到長序列，就像研究員先做小實驗，再做大課題，基礎更牢。

?RL階段的“動態數據篩選”：訓練時會自動去掉兩類樣本——“模型每次都做對”的（沒學習價值）和“模型每次都做錯”的（太超綱，容易打擊信心），只留“偶爾對偶爾錯”的中等難度樣本。我們之前就是因為沒篩選樣本，把太多超難樣本混進去，導致模型越訓越亂，而這個方法讓RL訓練的穩定性提升了不少。

3. 最后解決環境：分階段設計，兼顧成本與真實度

Agent訓練不能只靠數據，還需要和環境互動（比如調用搜索工具、訪問網頁），但真實環境貴、模擬環境假，這篇論文用“三種環境”解決了這個矛盾：

?Prior World Environment（先驗世界環境）：不用真實工具，靠模型已有的知識生成“模擬反饋”。比如模型調用“搜索‘多佛爾港口 16世紀人物’”，環境直接返回“多佛爾港口16世紀有XXX人物，其妻子因謀殺被處決”的模擬結果。這種環境零成本、無限量，適合中訓階段練基礎動作，就像研究員先在“虛擬實驗室”里練操作流程，再進真實實驗室。

?Simulated Environment（模擬環境）：基于2024年維基百科數據建本地知識庫，用RAG工具模擬網頁訪問。比如模型要查“某紀念幣發行年份”，環境會從本地維基數據里提取信息返回。這種環境比真實環境快10倍，成本低，適合RL階段的快速迭代——我們之前用真實搜索API時，光QPS限制就導致訓練中斷過好幾次，而模擬環境完全沒這個問題。

?Real-world Environment（真實環境）：對接真實的Google搜索、Google Scholar、Python解釋器等工具，但加了一個“統一沙箱”——就像給工具加了“安全防護網”：比如搜索API超時會自動重試，關鍵數據會緩存，還能切換備用數據源（比如Google搜不到就用Bing）。這個設計解決了真實環境的“不穩定性”，我們之前因為API故障導致的訓練數據污染，在這里幾乎不會發生。

更聰明的是，他們會根據訓練階段切換環境：中訓用Prior World+模擬環境，快速攢經驗；后訓先在模擬環境驗證策略，再到真實環境做最終優化——既省成本，又保證了模型在真實場景的效果。

三、實驗驗證：3.3B激活參數量，干翻閉源模型？

看論文不能只看方案，關鍵要看實驗能不能復現、效果是不是真的好。這篇論文的實驗設計很扎實，覆蓋了7個Deep Research核心 benchmark，還做了不少消融實驗，能直接看到每個創新點的價值。

1. 核心結果：開源模型里的“性能天花板”

先看關鍵benchmark的對比：

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！-AI.x社區

幾個關鍵洞察：

?綜合能力第一：在Humanity’s Last Exam（被稱為“人類最后一場考試”，涵蓋歷史、科學等跨領域復雜問題）上，32.9分遠超OpenAI o3的24.9分，甚至比DeepSeek-V3.1高3分——要知道這個benchmark里很多問題需要“搜文獻+理時間線+驗證結論”，模型能拿到這個分數，說明其多步推理能力確實過硬。

?中文能力亮眼：BrowseComp-ZH雖然比OpenAI o3低，但作為開源模型，46.7分已經是優秀的開源模型（這里不得不提DeepSeekV3.1也在BrowseComp中是表現優秀的開源模型）。

?效率優勢明顯：最關鍵的是，Tongyi DeepResearch總參數量305億，但每Token僅激活33億參——相當于用“低配硬件”跑出了“高配效果”。

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！-AI.x社區

2. Heavy Mode：靠“多Agent并行”再提性能

論文還提出了一個“Heavy Mode”，解決了“單Agent推理有局限”的問題——就像實驗室里多個研究員分工合作，有人查文獻、有人做實驗、有人分析數據，最后匯總結論。

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！-AI.x社區

具體做法是：先讓n個Agent并行處理同一個問題（每個Agent走不同的推理路徑，比如A Agent先搜人物，B Agent先搜港口），每個Agent輸出壓縮后的“報告摘要”（只留關鍵信息，去掉冗余步驟）；再讓一個“合成模型”把這些摘要整合，給出最終答案。

這個模式的效果很明顯：在Humanity’s Last Exam上，Heavy Mode把分數從32.9提到了38.3，BrowseComp-ZH從46.7提到58.1——直接追平了OpenAI o3的中文成績。更重要的是，因為每個Agent輸出的是“壓縮摘要”，即使n=5，也不會超出128K上下文限制，這比“拼接全軌跡”的方案高效多了。

四、落地前景與待解挑戰：這篇論文對科研和產業的意義

聊完技術，更要想它的實際價值——對我們做AI科研的人來說，這篇論文的意義不止是“一個新模型”，更是一套“可復現的Deep Research Agent開發范式”。

1. 對科研的價值：降低中小團隊的研究門檻

之前做Agent研究，要么靠閉源API（看不到中間過程，沒法做機理分析），要么自己搭框架（數據、訓練、環境全要自己寫，光調試工具調用就花1個月）。而Tongyi DeepResearch開源了三個關鍵東西：

? 模型權重：在Hugging Face和ModelScope上能直接下載（https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B）；

? 訓練框架：包含數據合成、RL訓練的完整代碼：??https://github.com/Alibaba-NLP/DeepResearch??

? 工具鏈：搜索、訪問網頁、解析文件的工具實現，甚至還有模擬環境的維基數據集。

這意味著中小團隊不用從零開始，拿過來改改就能做自己的Agent研究——比如要做“AI輔助材料科研”，直接用他們的數據合成 pipeline 生成“某材料的制備工藝→性能測試→文獻對比”的軌跡，訓練周期從2個月縮短到2周。

2. 對產業的價值：適合私有部署的“AI研究員”

產業場景里，很多企業需要“能在內部網絡用的科研型Agent”——比如藥企要分析臨床試驗數據、車企要查專利文獻，這些都不能用公有云的閉源模型。而Tongyi DeepResearch的優勢在于：

? 可私有部署：代碼和模型全開源，能部署到內部服務器；

? 效率高：3.3B激活參數量，不用頂配GPU也能跑；

? 可定制：數據合成 pipeline 能接入企業私有知識庫（比如藥企的內部文獻庫），生成針對性的訓練數據。

3. 待解的挑戰：不要神化，還有改進空間

客觀說，這篇論文也不是完美的，還有幾個待解決的問題：

? 長上下文局限：128K雖然比很多模型長，但面對“整本學術專著的分析”還是不夠——比如要對比某本書里10個章節的觀點，模型可能記不住前面章節的內容；

? 報告生成質量：目前模型輸出的是“準確的結論”，但缺乏“研究員式的敘事邏輯”（比如為什么這個結論重要、有哪些局限性），這對需要寫科研報告的場景來說還不夠；

? 多模態支持：目前只能處理文本，沒法分析圖片、表格（比如科研論文里的實驗數據圖），而真實科研中多模態信息很重要。

五、總結：這篇論文為什么值得你關注？

如果你是AI研究員，這篇論文給了你一套“從數據到落地”的全鏈路方案，能幫你跳過我們之前踩過的“數據貴、訓練亂、效率低”的坑；如果你是產業界的技術負責人，這篇論文提供了一個“可私有部署、高性價比”的科研型Agent選項，能降低企業的AI落地成本。

最核心的是，它證明了“開源Deep Research Agent也能做到接近閉源模型的效果”——以前大家覺得“Agent是閉源模型的天下”，但這篇論文打破了這個認知，讓更多團隊有機會參與到Agent的研究中。

最后，拋一個我們在復現中遇到的問題：你們在訓練RL階段時，有沒有遇到過“reward突然掉為0”的情況？我們后來發現是模擬環境的知識庫沒及時更新，導致模型搜不到正確信息，進而拿不到獎勵。如果你們也遇到過類似問題，歡迎在評論區交流解決思路。

參考資料

? 標題：Tongyi DeepResearch: An Open-Source Agentic Large Language Model for Long-Horizon Deep Information-Seeking Research Tasks

? 作者：Tongyi DeepResearch Team (Alibaba Group Tongyi Lab)

? 鏈接：https://arxiv.org/pdf/2510.24701

本文轉載自??旺知識??，作者：旺知識

標簽

DeepResearch

開源

智能體

已于2025-11-4 07:35:52修改

贊

回復

舉報

社區頭條

熱門內容榜 ? 最近上榜

回復

51CTO

51CTO博客

51CTO學堂

阿里通義DeepResearch技術報告解讀：3.3B激活，刷新5大榜單，開源深度研究智能體技術新標桿！

一、先搞懂：Deep Research Agent的3個核心科研痛點

1. 數據瓶頸：科研級軌跡標注“又貴又慢”

2. 訓練不穩定：從“會做事”到“亂做事”的策略崩潰

3. 效率與成本：大模型“吃資源”卻不“干活”

二、Tongyi DeepResearch的核心方案：從“數據→訓練→環境”的全鏈路破局

1. 先解決數據：全自動化合成，不用人工標注

2. 再解決訓練：中訓+后訓，避免策略崩潰

3. 最后解決環境：分階段設計，兼顧成本與真實度

三、實驗驗證：3.3B激活參數量，干翻閉源模型？

1. 核心結果：開源模型里的“性能天花板”

2. Heavy Mode：靠“多Agent并行”再提性能

四、落地前景與待解挑戰：這篇論文對科研和產業的意義

1. 對科研的價值：降低中小團隊的研究門檻

2. 對產業的價值：適合私有部署的“AI研究員”

3. 待解的挑戰：不要神化，還有改進空間

五、總結：這篇論文為什么值得你關注？

參考資料

目錄