開發者必學！谷歌和Kaggle推五份重磅報告，解構AI智能體未來

2025-11-18 08:59:21

人工智能新聞

文章深入探討了將基于智能體的系統從原型過渡到企業級解決方案所面臨的挑戰。

谷歌與Kaggle聯手，用為期5天免費的強化課程和5份重磅報告，為全球開發者系統性地描繪了構建AI智能體的完整藍圖。

課程地址：https://www.kaggle.com/learn-guide/5-day-agents

YouTube直播回放：https://www.youtube.com/playlist?list=PLqFaTIg4myu9r7uRoNfbJhHUbLp-1t1YE

該AI智能體強化課程，旨在幫助開發者掌握人工智能的下一個前沿領域，AI智能體。

這并非他們首次合作，今年早些時候的生成式AI強化課程第二版，在短短20天內就吸引了超過28萬名學習者報名，并創下了單周虛擬AI會議最大參與人數的吉尼斯世界紀錄。

此次，他們將焦點對準了更具挑戰性的領域。

課程由谷歌的AI研究人員和工程師親自打造，內容覆蓋了從簡單AI智能體的構建到復雜多智能體系統的設計。

它系統地剖析了智能體的核心架構，工具使用，記憶機制和質量評估，帶領開發者走完從原型驗證到生產部署的全過程。

整個課程設計極為靈活且注重互動。

每天，Kaggle的課程頁面都會發布新的學習材料，包括深度報告，動手實踐的Codelab，以及由NotebookLM制作的播客摘要。

學習者可以在自己的節奏下學習，同時通過Discord社區與來自全球的同行，谷歌的工程師和研究人員進行實時討論和提問。

此外，Kaggle的YouTube頻道每天都會進行直播，邀請來自谷歌，英偉達，Cohere等公司的專家進行分享。

完成所有課程材料后，學員將通過一個頂點項目來應用所學知識，構建屬于自己的AI智能體。

智能體是具備行動力的完整應用

第一天的核心是建立認知，理解什么是AI智能體。

智能體遠不止是一個大語言模型。

傳統的人工智能范式專注于被動和離散的任務，比如回答問題，翻譯文本或生成圖像，每一步都需要人類的明確指令。

我們正在經歷一場范式轉移，從僅僅預測或生成內容的AI，轉向能夠自主解決問題和執行任務的新型軟件。

AI智能體正是這一新前沿的產物。

它是一個完整的應用程序，能夠為了實現特定目標而制定計劃并采取行動。

它將語言模型的推理能力與實際行動的能力相結合，使其能夠處理模型本身無法獨立完成的復雜，多步驟任務。

其最關鍵的能力在于自主工作，它能自行判斷實現目標所需的后續步驟，而無需人類在每一步都進行引導。

報告《智能體簡介》（Introduction to Agents）為我們描繪了這一圖景。文中提出了智能體能力的分類法，并強調了建立智能體運維（Agent Ops）學科的必要性，以確保其可靠性和有效治理。

隨著智能體變得越來越普遍，互操作性成為一個關鍵問題。

智能體需要一個標準化的方式來相互發現，通信和協作。

同時，安全問題也不容忽視。

一個能夠自主行動的系統必須有明確的身份標識和受約束的策略，以防止濫用和意外行為。

當天的Codelab動手環節，學員將使用由Gemini驅動的代理開發套件（ADK），構建第一個AI智能體。

這個智能體被賦予了使用谷歌搜索的能力，從而能用最新的信息來回答問題。

第二個Codelab則聚焦于多智能體系統，學員將學習如何創建由多個專業智能體組成的團隊，并探索不同的協作架構模式。

智能體通過工具與真實世界交互

第二天的主題轉向了智能體如何突破其知識邊界，與外部世界互動。

大語言模型的知識被限制在其訓練數據的時間戳之內。

它們無法獲知今天發生了什么，也無法訪問私有數據庫或執行特定的軟件操作。

工具（Tools）和函數（Functions）正是解決這一問題的關鍵。

它們是智能體可以調用的外部接口，使其能夠執行超越自身內置能力的操作或檢索實時數據。

報告《智能體工具與MCP的互操作性》（Agent Tools & Interoperability with MCP）深入探討了這一領域，闡述了工具的本質，并為設計高效工具提供了最佳實踐和指導方針。

設計一個好的工具需要清晰的描述，讓智能體能夠準確理解其功能和參數。

它還需要穩健的錯誤處理機制，以便在外部系統出現問題時，智能體能夠優雅地處理失敗并進行重試或尋找替代方案。

接著，報告引入了一個至關重要的概念，模型上下文協議（MCP，Model Context Protocol）。

MCP旨在為模型，工具和應用程序之間提供一個標準化的通信層。

它定義了組件架構和通信方式，為構建可互操作的智能體生態系統奠定了基礎。

但MCP的引入也帶來了新的挑戰和風險，尤其是在企業環境中。

當智能體通過MCP連接到高價值的外部系統時，安全問題變得尤為突出。

必須仔細考慮身份驗證，授權，數據隱私和防止惡意使用的機制。企業需要填補這些準備就緒的差距，才能安全地部署功能強大的智能體。

在實踐中，學員將學習如何為自己的智能體創建自定義工具，將普通的Python函數轉化為智能體可以執行的動作。

他們還將使用MCP，并實現一種長時間運行操作的模式。

在這種模式下，智能體可以在等待人類批準后，暫停工具調用，并在獲得許可后繼續執行。

這對于需要人工監督的關鍵任務至關重要。

智能體依靠上下文工程獲得記憶

第三天的焦點是讓智能體擁有記憶，從一個無狀態的應答機器，轉變為能夠進行連貫對話，并記住長期信息的智慧伙伴。

實現這一點的核心技術被稱為上下文工程（Context Engineering）。

它指的是動態地組合和管理智能體上下文窗口內的信息，以創建有狀態和個性化的AI體驗。

上下文窗口是大語言模型進行推理時能夠看到的所有信息，是其短暫意識的全部載體。

報告《上下文工程：會話與記憶》（Context Engineering: Sessions & Memory）系統地闡述了這一主題。

文章將上下文管理分為兩個層面。

會話（Sessions）是承載單次、即時對話歷史的容器。它管理著智能體在一次連續互動中的短期工作記憶。

通過有效地管理會話歷史，智能體可以理解多輪對話中的指代關系和隱含信息，從而進行有邏輯，有條理的交流。

記憶（Memory）則是長期持久化的機制。它允許智能體將關鍵信息跨越不同的會話進行存儲和檢索。

這使得智能體能夠記住用戶的偏好，過往的互動細節，以及在多次對話中積累的知識，從而提供真正個性化的服務。

在Codelab中，學員將首先學習如何通過在ADK（代理開發套件）中進行上下文工程來管理會話歷史，從而構建有狀態的智能體。

他們將看到一個能夠進行連貫，多輪對話的智能體是如何工作的。

在第二個Codenab中，他們將更進一步，為智能體賦予能夠跨會話持久存在的長期記憶。

這就像為智能體建立了一個知識庫，使其能夠不斷學習和成長。

智能體通過可觀測性保證質量

第四天，課程進入了確保智能體質量的硬核領域。

從可預測的，基于指令的傳統軟件，到自主的，面向目標的AI智能體，這是軟件工程幾十年來最深刻的轉變之一。

這種轉變也徹底打破了我們傳統的質量保證模型。

智能體固有的不確定性使其行為難以預測，傳統的測試方法在這里顯得力不從心。

報告《智能體質量》（Agent Quality）為此提供了一份實用指南，提出了一個激進而又根本的原則：智能體質量是一個架構支柱，而不是最后的測試階段。

這意味著質量保證必須從設計之初就融入智能體開發的每一個環節。

實現這一點的技術基礎是可觀測性（Observability）。

可觀測性建立在三個支柱之上。

日志（Logs）是智能體的日記。

它記錄了智能體運行過程中發生的每一個離散事件，比如調用了哪個工具，收到了什么響應。

追蹤（Traces）是智能體的敘事。

它將一系列相關的日志串聯起來，形成一個完整的，端到端的故事。通過追蹤，我們可以清晰地看到智能體為了完成一個目標，從最初的提示到最終的響應，都經歷了怎樣的思考鏈和行動序列。

指標（Metrics）是智能體的健康報告。

它提供了關于智能體性能和行為的量化數據，比如響應延遲，工具調用成功率，成本消耗等。

這三大支柱共同構成了一個持續的反饋循環。

當智能體出現問題時，我們可以通過追蹤來理解其決策過程，通過日志來定位具體的失敗點，并通過指標來衡量問題的影響范圍。

在此基礎上，我們可以采用更先進的評估方法。

例如，使用LLM即評委（LLM-as-a-Judge）的可擴展方法，讓另一個強大的語言模型來評估智能體的響應質量和工具使用情況。

同時，結合人在回路（HITL，Human-in-the-Loop）的評估，讓真人專家對智能體在復雜或模糊場景下的表現進行打分，以獲得更細致的反饋。

當天的Codelab將指導學員如何利用日志，追蹤和指標，來獲得對智能體決策過程的完全可見性，從而能夠調試故障，并理解智能體行為背后的原因。

在第二個Codelab中，學員將學習如何實施評估框架，來為智能體的響應質量和工具使用情況打分。

智能體通過工程化走向生產

第五天，也是課程的最后一天，主題是如何將智能體從本地的原型，轉變為可部署，可擴展，可信賴的生產級服務。

報告《從原型到生產》（Prototype to Production）為AI智能體的整個運營生命周期提供了全面的技術指南。

在前一天評估和可觀測性的基礎上，進一步探討了如何通過穩健的持續集成/持續部署（CI/CD）流水線和可擴展的基礎設施，來建立將智能體推向生產所需的信任。

文章深入探討了將基于智能體的系統從原型過渡到企業級解決方案所面臨的挑戰。

這不僅是技術挑戰，也包括成本，安全和治理等多方面的考量。

報告中特別關注了代理到代理（A2A，Agent2Agent）的互操作性協議。

如果說MCP（模型上下文協議）解決了智能體與工具之間的通信問題，那么A2A協議則專注于解決多個獨立智能體之間如何進行通信和協作。

這為構建由多個專業智能體組成的復雜系統，共同解決一個宏大問題提供了可能。

在Codelab實踐中，學員將學習如何使用A2A（代理到代理）協議來構建一個由多個獨立智能體組成的系統，這些智能體可以相互通信和協作。

最后，在一個可選的環節中，學員將學習如何將自己構建的智能體部署到谷歌云（Google Cloud）上的Vertex AI智能體引擎（Agent Engine），將其從本地機器上的一個程序，轉變為一個可擴展的，生產就緒的服務。

這五天的旅程，從一個基礎的概念開始，層層遞進，最終觸及了將AI智能體投入真實世界應用的核心工程問題。

它讓開發者充分了解前沿知識，更培養了構建未來智能的思維方式。

報告免費下載：

《Introduction to Agents》：https://c.sumw.com.cn/marketingResearchDetails?id=1989265443698806786

《Agent Tools & Interoperability with MCP》：https://c.sumw.com.cn/marketingResearchDetails?id=1989270084448718850

《Context Engineering: Sessions, Memory》：https://c.sumw.com.cn/marketingResearchDetails?id=1989263339366158338

《Agent Quality》：https://c.sumw.com.cn/marketingResearchDetails?id=1989268830104358914

《Prototype to Production》：https://c.sumw.com.cn/marketingResearchDetails?id=1989267883324116993

責任編輯：張燕妮來源： AIGC開放社區

智能體 AI 開發者