大模型智能體如何突破規(guī)模化應(yīng)用瓶頸，核心在于Agentic ROI

2025-05-30 15:53:27

上海交通大學聯(lián)合中科大在本文中指出：現(xiàn)階段大模型智能體的主要障礙不在于模型能力不足，而在于其「Agentic ROI」尚未達到實用化門檻。

本文第一作者為上海交通大學計算機學院副教授劉衛(wèi)文，研究方向為大模型智能體，大語言模型，個性化算法等。

近年來，隨著大語言模型的快速發(fā)展，基于其構(gòu)建的大模型智能體（LLM Agents）正逐步從技術(shù)演示走向?qū)嶋H應(yīng)用部署。然而，真正實現(xiàn)規(guī)模化應(yīng)用仍面臨諸多瓶頸。使用范圍主要集中于專業(yè)領(lǐng)域，如代碼生成、科研輔助等。在大眾、高頻、日常的應(yīng)用場景（如電商、個人助理）中，普及率依然較低。這一現(xiàn)象引發(fā)了一個關(guān)鍵問題：

當前制約大模型智能體實際可用性的真正原因是什么？

上海交通大學聯(lián)合中科大在本文中指出：現(xiàn)階段大模型智能體的主要障礙不在于模型能力不足，而在于其「Agentic ROI」尚未達到實用化門檻。

論文題目：The Real Barrier to LLM Agent Usability is Agentic ROI
論文鏈接：https://arxiv.org/pdf/2505.17767

Agentic ROI：大模型智能體實現(xiàn)規(guī)模化應(yīng)用的關(guān)鍵瓶頸

研究團隊提出 Agentic ROI（Agentic Return on Investment）這一核心指標，用于衡量一個大模型智能體在真實使用場景中所帶來的「信息收益」與其「使用成本」之間的比值：

Information Quality：指智能體所生成的信息質(zhì)量，包括準確性、完整性等。
Quality Threshold：指最低可接受的信息質(zhì)量閾值（注：根據(jù)上下文推斷）。
Human Time和 Agent Time：分別指人類與智能體完成對應(yīng)任務(wù)所需的時間。
Interaction Time：指用戶與智能體交互所需要的時間，如用戶進行任務(wù)描述、驗證結(jié)果過程中所消耗的時間。
Expense：指用戶經(jīng)濟成本，如模型調(diào)用、API 使用的開銷。

只有當信息質(zhì)量超過一定閾值，且智能體所節(jié)省的時間和成本之比足夠高時，智能體才真正具備可用性。

如上圖所示，當前大部分 LLM 智能體集中應(yīng)用于人類任務(wù)時間成本高的信息密集型場景（如科研、編程），此類任務(wù)本身就需要大量人力投入，因此即便智能體部分替代也能顯著提高效率。然而，在用戶量龐大的日常場景中（如電商、搜索、助理等），任務(wù)本身較為簡單，交互成本低（如點擊、下滑操作），智能體提升的邊際價值不明顯，反而可能引入額外的交互成本和延遲，從而導(dǎo)致 Agentic ROI 較低。

因此，當前高用戶需求與低 Agentic ROI 之間的矛盾，反映了智能體在日常應(yīng)用中的實用性不足，需進一步優(yōu)化信息價值、智能體任務(wù)完成時間、及交互時間以填補市場空白。

優(yōu)化 Agentic ROI 智能體發(fā)展的「之字形」軌跡

研究團隊提出，LLM 智能體的發(fā)展路徑并非線性增長，而是呈現(xiàn)出一種「先規(guī)模化、后輕量化」的「之字形」發(fā)展模式：首先規(guī)模化（scaling up）參數(shù)規(guī)模、訓練數(shù)據(jù)、推理能力以提升信息質(zhì)量；之后在保證信息質(zhì)量的前提下，輕量化（scaling down）進行模型壓縮、蒸餾、推理優(yōu)化以減少智能體所用時間與調(diào)用成本。我們正處于智能體規(guī)模化發(fā)展的高峰階段，優(yōu)先提升信息質(zhì)量。

基礎(chǔ)模型如 OpenAI 系列模型的發(fā)展也體現(xiàn)了這一「之字形」發(fā)展趨勢：同系列模型如 o1-mini 到 o1 模型表現(xiàn)顯著增強，而新一代小模型如 o3-mini 則在持平 o1 性能的同時顯著降低了推理費用和延遲。

規(guī)模化提升信息質(zhì)量（Scaling Up）

預(yù)訓練規(guī)模化（Pre-training Scaling）

預(yù)訓練階段通過擴大模型規(guī)模、數(shù)據(jù)量和計算資源，使智能體在語言理解、推理和世界知識等基礎(chǔ)能力方面獲得穩(wěn)步提升。而規(guī)模化使用包含任務(wù)結(jié)構(gòu)和操作流程的文檔數(shù)據(jù)（如操作手冊、工作流程指南）能夠幫助模型學習實際任務(wù)的分解邏輯和執(zhí)行順序。此外，隨著上下文窗口的擴展和記憶機制的引入，智能體可以處理更長的交互歷史和用戶偏好，從而提升多輪任務(wù)執(zhí)行的能力。

后訓練規(guī)模化（Post-training Scaling）

后訓練階段（如監(jiān)督微調(diào)和強化學習）使智能體更貼近人類的需求與價值觀。同時，智能體性能提升還依賴于大規(guī)模復(fù)雜環(huán)境（網(wǎng)頁、API 接口）交互軌跡數(shù)據(jù)，使用外部工具進行操作決策。此外，在真實部署中積累的用戶反饋、任務(wù)完成記錄和錯誤修復(fù)數(shù)據(jù)，構(gòu)成了智能體持續(xù)學習與演化的基礎(chǔ)，形成智能體的數(shù)據(jù)飛輪，使其在真實使用中不斷優(yōu)化行為。

推理時規(guī)模化（Test-time Scaling）

推理時規(guī)模化包括：

規(guī)模化推理步驟（Scaling reasoning process），以應(yīng)對復(fù)雜任務(wù)并生成更可靠的輸出；
規(guī)模化多智能體系統(tǒng)（Scaling multi-agent system），通過協(xié)作完成任務(wù)分解與執(zhí)行；
擴展工具調(diào)用（Scaling tool calling），通過多次工具調(diào)用使智能體能夠逐步驗證中間結(jié)果；
擴展推理時訓練（Scaling test-time training），通過利用無標簽測試數(shù)據(jù)實時更新快速適應(yīng)新任務(wù)或用戶需求
有約束條件下直接優(yōu)化 Agentic ROI（Scaling towards Agentic ROI under budget constraints），智能體可在給定預(yù)算約束（如時間、API 成本）下動態(tài)評估每一步操作信息收益，直接整體優(yōu)化 Agentic ROI。

構(gòu)建世界模型（Building World Model）

構(gòu)建真實的「世界模型」對于實現(xiàn)真正規(guī)模化數(shù)據(jù)合成、智能體評估至關(guān)重要。世界模型應(yīng)支持多模態(tài)交互（語言、圖像、文檔、音頻），具備處理多步驟、長時程任務(wù)的能力，并能模擬用戶的多樣化偏好與反饋機制。此外，它還應(yīng)反映現(xiàn)實世界中的不確定性，例如信息不完全、用戶意圖變化、環(huán)境干擾等。

確保魯棒性與安全性（Ensuring Robustness & Security）

確保智能體行為的穩(wěn)健性與安全性也是提升信息質(zhì)量的重要一環(huán)。魯棒性方面，智能體應(yīng)防止獎勵機制被利用，避免出現(xiàn)「獎勵黑客」現(xiàn)象；安全性方面，需要防范訓練數(shù)據(jù)污染、防止反饋被篡改和后門攻擊等。在運行過程中，智能體應(yīng)配備異常檢測和事實核查能力，確保輸出內(nèi)容的準確性與一致性。同時，構(gòu)建行為審計機制和可解釋性工具，可以提升智能體的可控性和可靠性。

輕量化降低智能體時間與成本（Scaling Down）

減少智能體任務(wù)完成時間

引入記憶機制： 引入記憶機制是提高效率的重要手段。具備記憶能力的智能體可以跳過重復(fù)計算，直接調(diào)用以往任務(wù)中積累的知識，從而加快處理速度。這種方式模擬人類專家的行為，依靠經(jīng)驗而非實時推理來完成任務(wù)。模型壓縮： 通過模型壓縮或蒸餾來減少計算資源和推理延遲，是另一個核心方向。借助模型蒸餾等技術(shù)，可以將大模型的能力遷移到更小的模型中，從而在不顯著降低性能的前提下，顯著縮短響應(yīng)時間、減少部署成本。

優(yōu)化推理策略： 智能體的時間消耗不僅來源于計算，還受到推理鏈條長度的影響。如果推理過程過于復(fù)雜或冗余，例如頻繁的自我反思、遞歸規(guī)劃等，可能會延長任務(wù)完成時間而未帶來質(zhì)的提升。因此，更高效的智能體應(yīng)具備「少而精」的思維能力，能夠通過最短路徑達成最優(yōu)解。

基礎(chǔ)設(shè)施優(yōu)化： 硬件層面的升級，如 Groq 和 Cerebras 等新型 AI 芯片，以及軟件層面的優(yōu)化，如 vLLM 和 FlashAttention 等推理引擎，都能顯著提升模型運行速度。只有軟硬件協(xié)同進化，才能真正滿足低延遲、實時響應(yīng)的實際需求，從而提升智能體的整體可用性。

降低成本

降低交互時間： 當前的智能體往往要求用戶提供冗長、明確的指令，這帶來了較高的使用門檻與認知負擔。為此，智能體的交互方式應(yīng)從被動解析輸入，轉(zhuǎn)向主動理解用戶意圖，具備一定程度的目標推理與任務(wù)自完成能力。這種轉(zhuǎn)變不僅可以減少用戶的操作負擔，也有助于提升整體使用體驗。此外，產(chǎn)品設(shè)計上的新范式也有助于進一步降低用戶交互時間。

降低開銷： 智能體的運行費用可能因模型規(guī)模、推理深度、調(diào)用外部工具等因素而迅速上升。尤其在大規(guī)模部署或持續(xù)運行場景下，成本問題尤為突出。因此，未來的智能體需要更智能地管理上下文，合理控制推理復(fù)雜度與工具調(diào)用頻率，確保在保證性能的前提下，盡可能降低資源消耗與使用開銷。

Agentic ROI 提供了一個衡量智能體真實可用性的系統(tǒng)框架，幫助我們超越模型性能的單一維度，轉(zhuǎn)向「實際效益」導(dǎo)向的設(shè)計與評價邏輯。智能體的「可用性」不應(yīng)僅以模型性能定義，而應(yīng)以綜合效益衡量。在實際部署中，Agentic ROI 為我們提供了一個更貼近真實世界的評價維度，幫助我們識別系統(tǒng)中被忽視的「隱藏成本」，并指導(dǎo)我們構(gòu)建真正高效、可用、可負擔的智能體系統(tǒng)。

責任編輯：張燕妮來源：機器之心

智能體模型 AI