從單一大型語言模型到智能體人工智能:生成式人工智能演進的解讀
生成式人工智能(GenAI)的發(fā)展歷程宛如一場技術(shù)革命的史詩,從最初簡單的單一大型語言模型(LLM)API調(diào)用,逐步演進到如今具備自主決策與協(xié)作能力的智能體系統(tǒng)。這場演進不僅改變了人工智能應用的構(gòu)建方式,更重塑了人類與機器交互的模式。本文將通過可視化的視角,詳細梳理這一演進路徑,解析從單一大型語言模型到智能體人工智能的關鍵里程碑與技術(shù)突破。
生成式人工智能的全景概覽
生成式人工智能的發(fā)展并非一蹴而就,而是經(jīng)歷了多個階段的迭代與突破?;厮萑昵埃蠖鄶?shù)技術(shù)團隊在構(gòu)建人工智能應用時,依賴的是針對特定任務的模型。例如,為分類任務訓練一個模型,為抽取式問答再訓練另一個模型。這些模型要么是使用scikit-learn或PyTorch等工具從零構(gòu)建,要么是基于預訓練的Transformer模型進行微調(diào),以適應特定任務需求。
這種狀況在GPT-3.5出現(xiàn)后發(fā)生了根本性轉(zhuǎn)變。隨著ChatGPT的推出,開發(fā)者們開始轉(zhuǎn)向通用型大型語言模型,用其來處理曾經(jīng)需要多個專用模型才能完成的任務。這標志著大型語言模型在批處理應用中的首次大規(guī)模應用——使用簡單的提示模板處理數(shù)據(jù)集,而非構(gòu)建復雜的自定義機器學習管道。一夜之間,人們不再需要為每個任務單獨開發(fā)模型,只需設計高質(zhì)量的“提示”即可。
批處理大型語言模型應用
批處理大型語言模型應用代表了生成式人工智能發(fā)展的第一個重要階段,它為后續(xù)的技術(shù)演進奠定了基礎。在這一階段,應用主要通過兩種方式利用大型語言模型的能力:單一大型語言模型API調(diào)用和鏈式大型語言模型調(diào)用。
1.1 用于批處理的單一大型語言模型API調(diào)用應用
這種應用模式的核心在于,使用相同的大型語言模型處理流程來處理多個數(shù)據(jù)項。例如,在對一批電影劇本進行分類時,開發(fā)者會設計一個分類提示模板,然后將所有劇本依次輸入到大型語言模型中,利用其通用能力完成分類任務。這種模式的優(yōu)勢在于能夠輕松擴展大型語言模型的使用范圍,適用于諸如文本分類、情感分析等批量操作。
在實際應用中,上下文或指令可以通過提示模板進行動態(tài)調(diào)整,外部上下文也可以模塊化,以避免冗長、硬編碼的提示。同一批次中的所有數(shù)據(jù)都使用相同的提示模板,確保處理的一致性和效率。這種模式極大地簡化了人工智能應用的開發(fā)流程,降低了技術(shù)門檻,使得更多開發(fā)者能夠利用大型語言模型的能力。
1.2 用于批處理的鏈式大型語言模型應用
隨著應用需求的復雜化,單一大型語言模型API調(diào)用逐漸無法滿足需求,鏈式大型語言模型應用應運而生。在這種模式中,一個大型語言模型調(diào)用的輸出會作為另一個大型語言模型調(diào)用的輸入,形成一個處理鏈條。
以文本分類應用為例,第一個大型語言模型調(diào)用可能負責將文本初步分類為幾個大類,第二個調(diào)用則在大類的基礎上進行更細致的子分類。這種模式展示了如何將邏輯拆分為可重用、模塊化的步驟,提高了應用的靈活性和可擴展性。通過鏈式調(diào)用,開發(fā)者可以構(gòu)建更復雜的處理流程,實現(xiàn)單一模型難以完成的任務。
聊天式大型語言模型應用
聊天式大型語言模型應用是生成式人工智能向更自然、更交互方向發(fā)展的關鍵一步。它使人工智能系統(tǒng)從僵化的問答系統(tǒng)演進為今天的對話式人工智能,極大地提升了用戶體驗。
2.1 無狀態(tài)的單一大型語言模型API調(diào)用響應
這是聊天式應用的最基礎形式,每個響應都僅通過一次大型語言模型調(diào)用生成。這種模式是無狀態(tài)的,意味著系統(tǒng)不保留對話歷史,每次調(diào)用都是獨立的。用戶的查詢會被嵌入到所選大型語言模型的固定提示中,模型根據(jù)該提示生成響應。
例如,當用戶問“日本的首都是什么”時,系統(tǒng)會將這個問題嵌入到預設的提示模板中,調(diào)用大型語言模型得到答案“東京”。但如果用戶接著問“這個國家還有其他什么城市”,系統(tǒng)無法關聯(lián)到上一個問題,也就無法給出相關的日本城市列表。這種模式雖然簡單,但無法提供連貫的對話體驗。
2.2 具有上下文歷史記憶的聊天機器人
隨著大型語言模型上下文窗口的擴大,開發(fā)者開始將對話歷史添加到提示中,以增強對話記憶。這種模式雖然從技術(shù)上講仍然是無狀態(tài)的——聊天歷史需要手動拼接到每個提示中,但它通過將歷史記錄傳遞給每個API調(diào)用來模擬對話的連續(xù)性,每次查詢?nèi)匀恢贿M行一次大型語言模型調(diào)用。
例如,在使用Ollama運行Gemma:7b模型時,當用戶先問“日本的首都是什么”,得到答案“東京”后,再問“這個國家還有其他什么城市”,系統(tǒng)能夠利用之前的對話歷史,正確理解“這個國家”指的是日本,并給出大阪、京都、名古屋等城市名稱。這種模式極大地提升了對話的連貫性和自然度,為現(xiàn)代聊天機器人奠定了基礎。
2.3 檢索增強生成(RAG)聊天機器人
檢索增強生成聊天機器人是聊天式應用的一次重要升級,它結(jié)合了嵌入技術(shù)和向量搜索,使系統(tǒng)能夠生成比單純依賴大型語言模型預訓練知識更準確、更具上下文感知的響應。
在RAG架構(gòu)中,原始文檔(文本或圖像)會被轉(zhuǎn)換為語義豐富的嵌入向量,這些向量被索引到向量數(shù)據(jù)庫中,以便進行快速的相似性搜索。當用戶提出查詢時,系統(tǒng)會先從向量數(shù)據(jù)庫中檢索相關的文檔片段,然后將這些片段作為上下文提供給大型語言模型,輔助其生成答案。這種架構(gòu)的優(yōu)勢在于能夠?qū)⒋鸢富谝阎獢?shù)據(jù)源,有效減少大型語言模型的“幻覺”問題。
文檔分塊是RAG系統(tǒng)中的一個關鍵步驟,它能提高搜索的粒度和檢索準確性。分塊越合理,答案的準確性就越高。同時,嵌入函數(shù)的質(zhì)量也至關重要,嵌入向量對語義的編碼能力越強,答案的準確性也就越高。RAG聊天機器人在企業(yè)場景中得到了廣泛應用,例如作為企業(yè)人力資源聊天機器人,能夠基于公司內(nèi)部文檔為員工提供準確的信息查詢服務。
2.4 大型語言模型+結(jié)構(gòu)化工具或函數(shù)調(diào)用
大型語言模型與工具調(diào)用的結(jié)合,代表了聊天式應用向更具實用性方向的發(fā)展。這種模式使大型語言模型能夠生成行動,而不僅僅是文本。其工作流程通常包括三個步驟:首先,大型語言模型預測需要使用的工具;然后,執(zhí)行該工具;最后,大型語言模型解釋工具的結(jié)果。
在這個過程中,大型語言模型會自主決定何時以及如何調(diào)用外部工具,并預測提供給工具函數(shù)的參數(shù)。工具的結(jié)果會成為后續(xù)推理的上下文,這種設置在一定程度上使大型語言模型具備了智能體的特征。如果“預測正確工具→使用工具→觀察結(jié)果→使用下一個工具/生成響應”的循環(huán)能夠遞歸進行,就形成了智能體人工智能。因此,大型語言模型+工具調(diào)用有時也被稱為單一智能體。
這種模式極大地擴展了大型語言模型的能力邊界,使其能夠完成諸如數(shù)據(jù)分析、網(wǎng)頁查詢、文件操作等原本無法直接完成的任務,為更復雜的應用場景打開了大門。
智能體人工智能應用
智能體人工智能應用代表了生成式人工智能發(fā)展的最新階段,它使系統(tǒng)從單純的文本生成走向了真正的行動執(zhí)行。在這一階段,大型語言模型只是更廣泛架構(gòu)的一部分,該架構(gòu)還包括工具、內(nèi)存和決策機制。
3.0 大型語言模型推理能力的演進
大型語言模型推理能力的發(fā)展為智能體的出現(xiàn)奠定了基礎。這一演進過程主要包括提示工程的興起、兩種關鍵的提示工程方法(CoT和ReAct)以及大型推理模型的出現(xiàn)。
提示工程的發(fā)展始于基本的輸入輸出提示,隨著大型語言模型上下文窗口的擴大,輸入輸出提示演變?yōu)樯贅颖咎崾荆垣@得更好的結(jié)果。推理提示——思維鏈(CoT)和ReAct提示——在少樣本框架的基礎上,通過向大型語言模型概述“思考步驟”,進一步提升了模型的推理能力。
思維鏈提示通過示例向大型語言模型展示逐步思考的過程,引導模型進行分步推理;ReAct提示則將推理與行動結(jié)合起來,使模型能夠在思考過程中決定何時以及如何采取行動。這些提示方法的核心在于通過示例教會大型語言模型分步思考和推理,這種“誘使”大型語言模型“推理”的能力在構(gòu)建智能體時發(fā)揮了重要作用。
大型推理模型(LRMs)是另一個重要發(fā)展方向。與傳統(tǒng)大型語言模型不同,大型推理模型在生成輸出之前會進行內(nèi)部規(guī)劃。傳統(tǒng)大型語言模型的流程是“輸入→大型語言模型→輸出語句→輸入→……→大型語言模型→輸出”,而大型推理模型則是“輸入→大型推理模型→保留規(guī)劃步驟→最終輸出語句”。
大型推理模型在生成文本時,會像人類一樣“先思考再行動”,因此在推理過程中需要更多的“測試時計算資源”。例如,OpenAI的o1和DeepSeek R1都是這類模型的代表。在實際應用中,如果任務需要深度的多步驟邏輯、規(guī)劃或戰(zhàn)略協(xié)調(diào),推理原生的大型語言模型會表現(xiàn)更出色;如果預算和速度更為重要,通過良好的提示工程,通用大型語言模型也可以通過鏈式調(diào)用近似實現(xiàn)推理功能,盡管它缺乏內(nèi)部的“思考者”。
3.1 什么是智能體?
智能體是在大型語言模型基礎上發(fā)展而來的更高級實體。如果說大型語言模型的核心是生成文本,那么智能體則不僅能生成文本,還能做出決策(規(guī)劃)和執(zhí)行行動,大型語言模型是智能體的核心組件。
具體來說:
- 聊天機器人 = 大型語言模型 + 記憶
- RAG聊天機器人 = 大型語言模型 + 記憶 + 矢量化數(shù)據(jù)(源文檔)
- 工具型大型語言模型 = 大型語言模型(大腦) + 函數(shù)調(diào)用(雙手)
正如Aishwarya Naresh在其Substack文章中所指出的:“智能體 = 大型語言模型 + 工具 + 記憶 + 規(guī)劃(下一步行動)”,可以說智能體是在大型語言模型周圍構(gòu)建的工程化封裝。
3.2 單一智能體的架構(gòu)
單一智能體的架構(gòu)相對復雜,它需要具備接收輸入、進行規(guī)劃、調(diào)用工具、存儲記憶和生成輸出的完整能力。一個簡化的單一智能體架構(gòu)工作流程如下:
- 接收用戶查詢和提示模板作為輸入;
- 使用規(guī)劃模塊(如任務分解、思維鏈等)指導執(zhí)行過程,將用戶輸入、記憶和規(guī)劃結(jié)合成最終提示;
- 將提示發(fā)送給大型語言模型,由其決定采取何種行動;
- 大型語言模型選擇工具并基于推理執(zhí)行行動;
- 工具的響應被觀察并反饋給大型語言模型;
- 與短期和長期記憶進行交互,以保持上下文感知;
- 在經(jīng)過推理、工具使用和記憶查詢的遞歸循環(huán)后,生成最終答案。
這種架構(gòu)使單一智能體能夠自主規(guī)劃步驟、調(diào)用工具來完成任務,例如自動生成報告的AI報告生成器,它可以連接各種工具、提示和記憶,完成從數(shù)據(jù)收集到報告撰寫的全流程。
3.3 大型語言模型RAG與智能體RAG
智能體RAG是在傳統(tǒng)大型語言模型RAG基礎上的升級,兩者的核心區(qū)別在于處理流程的靈活性和自主性。
傳統(tǒng)的大型語言模型RAG通常只進行一次大型語言模型API調(diào)用,執(zhí)行固定的流程:嵌入→檢索→響應。大型語言模型僅使用檢索到的上下文生成一次答案,沒有反饋循環(huán),也不具備決策能力,完全依賴于提示設計。
而智能體RAG則不是一次性檢索(即不只是一次大型語言模型API調(diào)用)。智能體在檢索后會反思結(jié)果,如果有必要會重新檢索;如果置信度低,還可以修改或重新執(zhí)行步驟。這種動態(tài)調(diào)整能力使智能體RAG能夠處理更復雜的查詢,提供更準確的結(jié)果。
3.4 什么是多智能體系統(tǒng)?
多智能體系統(tǒng)是由多個智能體組成的協(xié)作網(wǎng)絡,其中每個智能體都有各自的職責,能夠并行運作。多智能體系統(tǒng)主要有兩種實現(xiàn)方式:
- 多智能體協(xié)作:智能體之間相互依賴,共享任務和知識,以解決復雜或順序性問題。例如,在一個產(chǎn)品設計系統(tǒng)中,可能有專門負責市場分析的智能體、負責結(jié)構(gòu)設計的智能體和負責材料選擇的智能體,它們相互協(xié)作完成整個設計過程。
- 多智能體編排:一個或多個編排智能體負責協(xié)調(diào)智能體選擇、任務分配和結(jié)果聚合,遵循既定協(xié)議。例如,在一個客戶服務系統(tǒng)中,可能有一個主智能體負責接收客戶請求,然后根據(jù)請求類型分配給不同的專業(yè)智能體(如技術(shù)支持智能體、賬單查詢智能體等),最后匯總結(jié)果反饋給客戶。
通常,多智能體編排比多智能體協(xié)作更容易控制,許多系統(tǒng)也會采用兩種方式結(jié)合的混合策略。智能體之間通過共享內(nèi)存和諸如A2A等協(xié)議進行跨智能體通信。
3.5 MCP和A2A:這些協(xié)議意味著什么?
在多智能體系統(tǒng)中,協(xié)議起著至關重要的作用,它們確保了智能體之間以及智能體與外部系統(tǒng)之間的有效通信。MCP和A2A是兩種重要的協(xié)議:
- MCP(模型上下文協(xié)議):由Anthropic推出,是一種標準化協(xié)議,用于向大型語言模型提供結(jié)構(gòu)化的實時上下文(如工具和數(shù)據(jù))。它允許一個兼容MCP的人工智能應用使用多個MCP服務器,也支持多個兼容MCP的人工智能應用使用同一個MCP服務器,極大地提高了系統(tǒng)的靈活性和互操作性。
- A2A(智能體到智能體協(xié)議):這是一種開放協(xié)議,為智能體之間的協(xié)作提供了標準方式。A2A和MCP可以結(jié)合使用,構(gòu)建更強大、更靈活的多智能體系統(tǒng)。
這些協(xié)議的出現(xiàn)為多智能體系統(tǒng)的發(fā)展提供了技術(shù)基礎,使得不同智能體和系統(tǒng)能夠無縫協(xié)作,共同完成復雜任務。
專家觀點與關鍵考慮因素
在生成式人工智能的發(fā)展過程中,專家們的見解為技術(shù)應用提供了重要指導。有專家指出:“‘讓我們構(gòu)建一個多智能體系統(tǒng)’——這是錯誤的起點。相反,應該問:‘我們要解決什么問題,我們真的需要智能體人工智能嗎?’——這是一種好得多的方法。”
這一觀點強調(diào)了技術(shù)應用的實用性原則:更簡單的系統(tǒng)往往更好。具體來說:
- RAG大型語言模型聊天機器人是比智能體RAG更好的起點;
- 大型語言模型+工具調(diào)用通常比單一智能體設置更簡單;
- 單一智能體(具有編排模式)在擴展到多智能體之前更值得優(yōu)先考慮;
- 多智能體編排應該先于成熟的多智能體協(xié)作。
同時,專家們也提醒要謹慎對待大型推理密集型模型,其投資回報率仍存在爭議。
在構(gòu)建大型語言模型應用時,有幾個關鍵考慮因素:
- 可觀測性:能夠查看大型語言模型或智能體功能的日志是成功的關鍵;
- 延遲:復雜系統(tǒng)通常伴隨著高延遲,需要在性能和復雜性之間進行權(quán)衡;
- 評估:包括準確性(需要準備清晰的測試問題并進行測試)和成本(如果使用大型語言模型API,需要有跟蹤令牌使用的機制)。
總結(jié)
如今,通過自然語言與產(chǎn)品交互已成為常態(tài),無論是客戶支持助手還是開發(fā)工具,聊天界面通常是用戶首選的參與方式。但正如本文所探討的,生成式人工智能應用遠不止于簡單的聊天。
我們回顧了批處理大型語言模型應用如何通過固定或鏈式提示流程處理數(shù)據(jù)管道;聊天應用如何隨著記憶、檢索(RAG)和工具調(diào)用的發(fā)展變得更具上下文感知和交互性;以及這些發(fā)展如何自然地引領了智能體人工智能的興起——在這一階段,大型語言模型能夠推理、規(guī)劃、調(diào)用工具,并與其他智能體協(xié)作完成任務。
LangGraph和CrewAI等框架,以及MCP和A2A等協(xié)議,正在幫助開發(fā)者構(gòu)建這些具有智能決策能力的系統(tǒng)。智能體人工智能已不再是一個研究概念,它已經(jīng)在為Replit的Ghostwriter和Perplexity的Comet等系統(tǒng)提供動力,這些系統(tǒng)能夠自主閱讀、推理并代表用戶采取行動。
然而,并非每個用例都適合聊天機器人界面。正如一位Redditor所說:“想想亞馬遜或Airbnb——當用戶界面中的過濾器更清晰時,我們?yōu)槭裁催€要費力打字呢?”關鍵在于知道何時構(gòu)建聊天界面,何時構(gòu)建批處理工作流,以及何時構(gòu)建智能體。


































