Google DeepMind 於 6 月 24 日正式宣布,Computer Use 功能現在已內建於 Gemini 3.5 Flash 模型中,不再需要像過去一樣呼叫獨立的電腦使用預覽模型。這是目前 Gemini 系列最新也最完整的 Computer Use 整合方案。這項變更代表開發者可以直接在 Gemini 3.5 Flash 的 API 呼叫中啟用電腦操作能力,讓 AI Agent 能夠看見螢幕畫面、進行推理並在瀏覽器、手機與桌面環境中執行操作。產品經理 Mateo Quiros 在 Google 官方部落格 The Keyword 上表示,這項功能在長期任務與企業自動化場景中展現了顯著的效能提升,包括持續性軟體測試與跨應用知識工作等實際應用案例,也包括多種企業場景。
Google 宣布 Gemini 3.5 Flash 正式內建 Computer Use
過去一年,Computer Use 類功能主要是以獨立模型形式存在,開發者需要另外串接特定端點才能使用。Google 在去年 10 月推出的 Gemini 2.5 computer-use-preview 就是在這個模式下運作。如今 Google 把這項能力直接整合進主力模型 Gemini 3.5 Flash 中,代表 Computer Use 從「實驗性功能」升級為「標準配備」,對於正在開發瀏覽器自動化、軟體測試、跨應用工作流程的開發者來說是一個明確的訊號:電腦操作已經是 Gemini 生態系的核心能力。這也讓 Gemini 3.5 Flash 在與 Anthropic Claude 的 Computer Use 功能競爭中,從追趕者一舉變成領先者。
內建工具架構:同一模型,多種能力
Gemini 3.5 Flash 原本就已經支援函式呼叫(Function Calling)以及內建工具如 Google 搜尋與地圖。Computer Use 的加入補上了最後一塊拼圖,讓 AI Agent 不僅能夠查詢資訊,還能實際操作瀏覽器與桌面介面。這種「All-in-One」的模型設計意味著開發者不再需要在多個模型之間切換,單一 API 呼叫就能同時啟用推理、搜尋、地圖定位與電腦操作,大幅降低了 Agent 架構的複雜度。對比 Anthropic 的 Claude 仍將 Computer Use 作為獨立功能提供,Google 的整合策略顯然更為積極。
在技術架構上,Computer Use 在 Gemini 3.5 Flash 中被設計為一個內建工具,而非外部插件。這表示模型可以在自身的推理過程中直接決定何時需要操作電腦、何時需要查詢資訊,不需要外部排程器來協調。這種設計對長時程任務特別有利,例如持續性的軟體測試或跨應用程式的工作流程自動化,模型可以在數十分鐘的操作過程中保持對前後步驟的連貫理解。此外,Gemini 3.5 Flash 作為目前 Google 最受歡迎的模型之一,擁有極低的延遲與高吞吐量,加上 Computer Use 後整體實用性大幅提升。
企業級安全機制:對抗性訓練與提示注入防護
讓 AI 直接操作電腦最令人擔心的就是安全問題,如果模型被惡意提示注入,可能執行刪除檔案、發送郵件或操作金融系統等不該執行的操作。Google 針對 Gemini 3.5 Flash 的 Computer Use 能力採用了目標式對抗性訓練,讓模型在訓練階段就接觸各種提示注入攻擊手法,學習如何在真實環境中辨識並抵禦這類攻擊。此外還提供兩道可選的企業級防護系統:第一,要求使用者針對敏感或不可逆的操作進行明確確認,例如刪除帳戶或轉帳;第二,當模型偵測到間接提示注入(例如來自網頁內容的隱藏指令)時,自動停止任務執行。
Google 建議開發者採取「縱深防禦」策略,將這些內建安全機制與安全的沙箱環境、人在迴路驗證和嚴格的存取控制結合使用。這種多層防護對於企業級部署尤其重要,特別是金融、醫療等高度監管產業。Google 強調這些安全機制只是基礎,開發者應根據自身應用的風險等級進行額外的安全評估。
業界反應與立即體驗
Google 在公告中引用了多家合作夥伴的正面反饋,包括瀏覽器基礎設施公司 Browserbase、開源瀏覽器自動化框架 Browser Use,以及 RPA 大廠 UiPath 的高層。其中 Browserbase 的 Miguel Gonzalez Fernandez 正是先前 gemini.browserbase.com Demo 站的背後推手,該站現在被 Google 官方文章列為立即試玩的推薦管道。UiPath 的 Alvin Stanescu 則指出,Computer Use 的內建化將大幅降低 RPA 流程建置的技術門檻。
有興趣的開發者可以透過以下管道開始使用:Gemini API 文件中有完整的 Computer Use 指南,Google 也提供了 GitHub 上的 reference implementation,以及 Gemini Enterprise Agent Platform 的企業級部署選項。對於只想快速體驗的開發者,Browserbase 託管的 Demo 站可以直接操作,無需撰寫任何程式碼即可體驗。Google 也提供了詳細的 API 文件與快速入門指南,從環境設定到第一個 Computer Use 呼叫,大約只需 10 分鐘就能完成。這意味著從個人開發者到大型企業,都能找到適合自己的導入方式。
結語
Computer Use 從獨立預覽模型升級為 Gemini 3.5 Flash 的內建工具,表面上是產品發布,但背後有更深層的意義:Google 正在把「AI 操作電腦」從附加功能變成基礎能力。當一個模型同時具備推理、搜尋、地圖和電腦操作能力時,開發者可以建構的應用場景將截然不同,從自動化測試到跨應用的知識工作,從個人助理到企業級 Agent。這對於以往需要串接多個模型、編寫大量膠水程式碼的開發者來說,是大幅簡化架構的契機。隨著 Anthropic、Google、OpenAI 相繼推出 Computer Use 功能,2026 年正是 AI Agent 從「對話」跨入「操作」的關鍵轉折年。未來的 AI Agent 將不再只是對話視窗裡的聊天機器人,而是真正能夠在螢幕上代替你操作軟體的數位員工。
