Google 雲端技術頻道(Google Cloud Tech)近日上線了一支 8 分鐘的教學影片,透過 Google 開源的 ADK 框架,從零開始建構一個具備規劃、驗證、寫作與自動重試機制的部落格文章生成 Agent。這支影片不只示範了 ADK 的寫法,也清楚說明了當代 AI Agent 的運作原理與三種基本設計模式,內容深入淺出相當值得學習,在這邊為大家做簡單的整理與翻譯。
Google ADK (Agent Development Kit)是 Google Cloud 在 2025 年 NEXT 大會上推出的開源框架,定位為建構多 Agent 協作系統的基礎設施。它採用 Pythonic 的簡潔設計,支援階層式 Agent 結構,並提供 CLI、Web UI、API Server 與 Python API 四種互動方式。ADK 同時也是 Google 自家產品 Agentspace 與 Customer Engagement Suite 背後的底層框架。
不同於市面上許多強調「單一超級 Agent」的框架,Google ADK 的核心理念是:讓多個專業化的小型 Agent 各自負責單一任務,再透過根 Agent(Root Agent)進行協調與派發。這種架構能有效避免指令過載(instruction overload)與輸出品質下降的問題。
AI Agent 的本質:不只是聊天,而是能決策與行動
影片開場先釐清了 AI Agent 與傳統聊天機器人的本質差異。傳統聊天機器人只會產生一次性回應,而 Agent 會分析使用者的請求、判斷需要哪些步驟、可能呼叫 API、執行程式碼、觀察結果,再決定下一步要做什麼。
這個循環的核心架構來自一篇經典論文「ReAct:Synergizing Reasoning and Acting in Language Models」,其中的核心理念是語言模型不該一次生成所有文字,而是應該逐步推理、採取行動(如呼叫工具或 API)、觀察結果,然後再決定下一步。這種「推理→行動→觀察→調整」的循環,正是現代 AI Agent 的運作基礎。
影片將 AI Agent 的行為模式歸納為三種基本類型:
- 序列式 Agent(Sequential):像生產線一樣按步驟執行,依序完成第一步、第二步、第三步。優點是可預測,但缺乏靈活性。
- 反應式 Agent(Reactive):根據當下狀態即時決定下一步,可能這次用工具 A、下次用工具 B。優點是靈活,但不會預先規劃。
- 規劃型 Agent(Deliberative / Planning):先暫停下來擬定計畫再執行。例如訂機票:你不會亂買一張機票,而是先確定日期、飯店,再依序執行。適用於有多步驟依賴關係的任務。
Google ADK 的核心設計:輕量、Pythonic、可擴充
Google ADK 的設計哲學非常簡潔:開發者只要定義 Agent 的邏輯、它能使用的工具、以及資料處理的方式,ADK 就會自動處理狀態管理、工具呼叫協調與底層 LLM 的互動。這種「Pythonic 簡潔性」讓建構多 Agent 協作系統變得直觀且易於維護。
ADK 支援多種 Agent 類型。影片中使用了三種:LlmAgent(由 LLM 驅動的核心 Agent)、LoopAgent(工作流程式 Agent,會自動處理重試與驗證迴圈)、以及透過 agent_tool.AgentTool 將子 Agent 包裝為工具供根 Agent 呼叫。這三種組合已經足以涵蓋大部分常見的 Agent 應用場景。
ADK 也具備可擴充性,如果需要更複雜的行為,開發者可以透過繼承 BaseAgent 來撰寫自訂 Agent,不受限於內建類型。
實戰:8 分鐘建構部落格寫作 Agent
影片的實作部分完整示範了如何使用 ADK 建構一個多步驟的部落格寫作 Agent。整個系統由三個層級構成:
第一層:規劃與驗證迴圈。首先建立一個 Blog Planner Agent,它的任務是將使用者給定的主題轉換為結構化的 Markdown 大綱(包含標題、引言簡介、4-6 個章節附要點、結論)。為了確保輸出品質,再加入一個 Outline Validation Checker Agent,專門檢查大綱是否完整:如果有遺漏就回傳「retry」並說明原因,通過則回傳「OK」。這兩個 Agent 被包裝在一個 LoopAgent(Robust Blog Planner)中,最多重試三次。
第二層:寫作與驗證迴圈。接下來建立 Blog Writer Agent,它會從共享狀態中讀取剛剛產生的大綱,將其轉換為完整的 Markdown 部落格文章。指令中明確要求:預設讀者為軟體工程師、跳過基礎知識、專注於實用見解、同時說明「怎麼做」與「為什麼」。同樣加入一個 Blog Post Validation Checker 形成第二個 LoopAgent(Robust Blog Writer),確保文章品質達標。
第三層:根 Agent 整合。最後將上述兩個 LoopAgent 包裝為工具,讓根 Agent(Blogger)擁有兩個工具入口。根 Agent 的指令非常簡單:當使用者提供主題時,先呼叫 Planner Tool 產生大綱,再呼叫 Writer Tool 寫出完整文章,最後附加三個替代標題與兩段適用於 Twitter 長度的宣傳文案。
這個設計的關鍵在於:透過 LoopAgent 的驗證重試機制,即使模型偶爾遺漏了某些要求,系統也有容錯能力可以自動修正。而將子 Agent 包裝為工具的做法,則讓根 Agent 的工作流程變得乾淨可控。詳細內容大家可以看 Google Cloud Tech 的官方教學影片(記得打開 cc 字幕,有中文說明):
從單一 Agent 到多 Agent 協作
這個範例雖然只有一個主 Agent 和它的子任務,但 Google ADK 的真正優勢在於建構多 Agent 協作系統。Google Cloud 官方部落格展示了另一個更具代表性的案例「旅遊規劃系統」:由 FlightAgent(訂機票)、HotelAgent(訂飯店)、SightseeingAgent(規劃景點)三個專業 Agent 組成,再由一個 TripPlanner 根 Agent 進行協調。
在初版設計中,根 Agent 會依次呼叫各個子 Agent(先訂機票、再訂飯店、再排行程),但這兩個任務其實彼此獨立、可以平行執行。ADK 的靈活架構讓開發者可以根據任務間的依賴關係自由選擇串行或平行執行策略,最大化系統效率。
ADK 還支援階層式委派(hierarchical delegation):根 Agent 可以根據使用者的問題,自動判斷該將控制權交給哪個子 Agent。關鍵在於每個 Agent 的 description 欄位:LLM 會根據這些描述來決定任務路由。這也意味著撰寫清晰、明確的 Agent 描述是 ADK 開發中的關鍵技能。
Google ADK 的開源生態與資源
ADK 的 GitHub 倉庫與完整文件已上線(adk.dev),支援 Python 與 TypeScript 兩種語言的 SDK。PyPI 套件名為 google-adk,可透過 pip 直接安裝。開發者可以選擇 CLI、Web UI、API Server 或 Python API 四種互動方式與 Agent 溝通:差異僅在於啟動方式,Agent 的核心邏輯程式碼完全一致。
結語
這支 8 分鐘的教學影片雖然篇幅不長,但涵蓋了從 Agent 理論到 ADK 實作的全部關鍵環節:ReAct 架構的原理、三種 Agent 行為模式、ADK 的 LoopAgent 驗證重製機制、以及將子 Agent 包裝為工具的實務技巧。對於正在評估或剛開始使用 Agent 框架的開發者來說,這是一個很好的入門起點。Google ADK 作為開源框架,其輕量化設計與 Google 產品的背書,讓它在與 LangChain、CrewAI 等既有框架的競爭中,具備了明確的定位:尤其適合需要與 Google Cloud 生態系深度整合的企業應用。







