忘記大模型,英偉達:小模型才是Agentic AI的未來!
截至 2024 年末,Agentic AI 領(lǐng)域已獲得逾 20 億美元 的初創(chuàng)公司融資,整體估值達 52 億美元,并有望在 2034 年前逼近 2000 億美元。先分享一個AI Agent 2025的發(fā)展趨勢圖譜:Agentic RAG、Voice Agents、CUA、Coding Agents、DeepResearch Agents、Protocols。

但,過去兩年,大模型參數(shù)規(guī)模在狂奔:從 7B → 70B → 400B+,幾乎所有指標(biāo)都在漲。是不是所有場景都適合用大模型,NVIDIA發(fā)布的研究報告顯示:
- 在大多數(shù)Agentic AI場景中,小型語言模型(SLM)已足夠強、更適配、更便宜,理應(yīng)成為默認選擇。
- LLM-to-SLM 遷移不是“可選項”,而是“必然趨勢”。

1. Agentic AI 的“大模型迷信”
- 現(xiàn)狀:2024 年57bn USD砸進云基建,只為支撐通用 LLM API,而當(dāng)年市場規(guī)模僅5.6bn USD(10 倍溢價)。
- 問題:Agent 的絕大多數(shù)調(diào)用其實只做重復(fù)、狹窄、非對話任務(wù),卻硬要調(diào)用 175B 參數(shù)的“巨無霸”。

2. SLM 才是未來
論點 | 一句話總結(jié) |
V1 足夠強 | 7B 模型在代碼生成、工具調(diào)用、指令遵循等關(guān)鍵指標(biāo)上 ≈ 70B LLM |
V2 更適配 | 低時延、可本地部署、單任務(wù) fine-tune 一夜完成 |
V3 更便宜 | 推理、微調(diào)、運維成本全線下降一個量級 |

3. SLM 已經(jīng)能打
模型家族 | 參數(shù)量 | 對標(biāo) LLM 表現(xiàn) | 效率提升 |
Microsoft Phi-3-small | 7B | 追平 70B 級代碼生成 | ↑70× 吞吐 |
NVIDIA Nemotron-H-9B | 9B | 追平 30B Dense LLM | ↓10× FLOPs |
HuggingFace SmolLM2-1.7B | 1.7B | 追平 14B 模型 | 可跑手機端 |
Salesforce xLAM-2-8B | 8B | 工具調(diào)用 SOTA,超越 GPT-4o | — |

4. 經(jīng)濟賬:SLM 碾壓式成本優(yōu)勢
SLMs在延遲、能耗和浮點運算次數(shù)上比LLMs便宜10到30倍,LoRA、DoRA微調(diào)只需少量GPU小時,并能夠在消費級GPU上本地執(zhí)行,

5. 遷移實操:LLM→SLM 6 步算法
步驟 | 動作 | 工具/技巧 |
S1 | 日志采集 | 加密管道 + 匿名化 |
S2 | 數(shù)據(jù)清洗 | PII 自動脫敏、敏感實體替換 |
S3 | 任務(wù)聚類 | 無監(jiān)督聚類發(fā)現(xiàn)高頻子任務(wù) |
S4 | 選型 | 按任務(wù)選 1–10 B 模型家族 |
S5 | 微調(diào) | LoRA/QLoRA/蒸餾,<1 GPU-day |
S6 | 持續(xù)迭代 | 在線日志回流 → 再訓(xùn)練 |

6. 案例研究:三大開源 Agent 的替換潛力
Agent | 可替換比例 | 高潛場景 | 仍需 LLM 的場景 |
MetaGPT | 60% | 代碼補全、模板文檔 | 架構(gòu)設(shè)計、復(fù)雜 Debug |
Open Operator | 40% | 命令解析、固定格式報告 | 多輪對話、跨 API 推理 |
Cradle | 70% | 重復(fù) GUI 點擊序列 | 動態(tài)界面適應(yīng)、異常處理 |
Small Language Models are the Future of Agentic AI
https://arxiv.org/pdf/2506.02153本文轉(zhuǎn)載自??智駐未來??

















