雖說目前 AI 模型的主流是越大越好,但這些大模型只能在擁有超多GPU的大型機房上運行,而且很多敏感資料也不能隨意上傳到雲端伺服器,所以能在本地端運行的小型開源語言模型也是許多 AI 從業者所努力追求的目標。2024 年時,微軟正式啟動小語言模型(Small Language Models, SLMs)的部署策略,首先於 Microsoft Foundry 上推出 Phi 系列模型,並將能在裝置端運行的 Phi Silica 引入 Windows 11 驅動的 Copilot+ PC。近日,微軟再度跨出重要一步,正式發表針對「電腦操作代理(Computer Use Agent, CUA)」設計的首款 SLM:Fara-7B。Fara-7B 僅有 70 億參數,但效能強勁,能在相同規模下達到業界最高表現,且體積足夠輕量,可直接在本地端運行,不再需要所有資料都回傳雲端。
技術解密:Fara-7B 的核心架構與運作邏輯
輕量化與終端運算的優勢
Fara-7B 擁有 70 億參數(7B),在當今模型動輒數千億參數的環境下顯得相當精巧。這種體積優勢使其能夠直接在用戶的裝置(如搭載 NPU 的 Copilot+ PC)上運行。這帶來了兩大顯著優勢:
-
低延遲(Reduced Latency): 省去了將數據傳輸至雲端的往返時間,操作反應更為即時。
-
隱私保障(Improved Privacy): 所有的推理與數據處理皆在本地端完成,用戶的敏感資料無需離開裝置,這對於處理個人帳戶或交易資訊至關重要。
視覺感知:像人類一樣「看」螢幕
與依賴後台「輔助功能樹」(Accessibility Trees)或 HTML 解析來理解網頁結構的傳統自動化腳本不同,Fara-7B 採用了純視覺感知的路徑。它基於 Qwen2.5-VL-7B 模型構建,具備強大的視覺定位(Grounding)能力與長達 128k token 的上下文窗口。
Fara-7B 的運作邏輯是「觀察—思考—行動」(Observe-Think-Act):
-
觀察: 它直接攝取網頁的螢幕截圖。
-
預測: 不需要額外的解析模型,它能直接預測操作目標的座標(Coordinates)。
-
行動: 透過模擬滑鼠點擊(Click)、滾動(Scroll)與鍵盤輸入(Type)來與電腦互動。
在名為 Magentic-UI 的介面中,Fara-7B 進行的實驗性案例展示包括,這些示範充分展現模型的實際應用場景:自動化日常網路流程,例如旅遊預訂、資訊蒐集與價格比較的能力,重點是它體量超小可在本地端運行:
購買 X-Box 海綿寶寶主題手把
Fara-7B 能在 Magentic-UI 中搜尋並購買 Xbox 海綿寶寶控制器,且在結帳等關鍵步驟自動暫停詢問用戶許可:
查詢 Microsoft/Magentic-UI 的 Github 最新三則更新並彙整
透過 Magentic-UI 示範 Fara-7B 在線上尋找相關資訊並進行摘要,並要求 Fara-7B 找出並摘要 Github 上 Microsoft/Magentic-UI 的最新三個 issue。
規劃旅途
在規劃行程時,它能結合 Bing Maps 查詢駕駛時間與 Bing Search 搜尋附近的起司專賣店,展現了跨應用程序的資訊整合能力。
來自多代理系統的知識蒸餾:Fara-7B 的訓練方式
開發電腦使用代理(CUA)最大的瓶頸在於數據。蒐集人類操作電腦的高品質、多步驟數據極為昂貴且耗時。為了解決這個問題,微軟研發了一套基於 Magentic-One 框架的合成數據生成管道,成功構建了包含 145,000 條軌跡(Trajectories)、涵蓋 100 萬個步驟的訓練數據集。
該管道分為三個關鍵階段:
任務提案(Task Proposal): 為了確保任務的多樣性,系統會從真實的網頁索引中提取 URL(如購物、旅遊、餐廳網站)作為「種子」。例如,從一個電影網站 URL 生成「在紐約 AMC Union Square 預訂兩張《唐頓莊園》大結局門票」的具體任務。系統甚至會讓 LLM 代理先探索網站,再根據獲得的資訊優化任務指令。
任務求解(Task Solving): 這是最核心的生成環節。利用 Magentic-One 多代理系統,由一個「協調者代理」(Orchestrator)制定計畫,指揮「網頁瀏覽代理」(WebSurfer)執行瀏覽器操作。如果需要用戶輸入,系統還能調用「用戶模擬器」(UserSimulator)進行多輪互動。這些操作過程、觀察結果與代理的思考過程,被完整記錄下來形成訓練數據。
軌跡驗證(Trajectory Verification): 為了確保數據品質,微軟引入了三重驗證機制:
- 對齊驗證器(Alignment Verifier): 檢查操作軌跡是否符合原始任務意圖。
- 標準驗證器(Rubric Verifier): 根據預設的完成標準對軌跡進行評分。
- 多模態驗證器(Multimodal Verifier): 審查截圖與回應,確認視覺證據支持任務已成功完成。
各項基準測試結果:以輕量模型刷新效能/成本曲線
微軟在多個公開基準測試中評估了 Fara-7B,包括 WebVoyager、Online-Mind2Web、Deepshop,以及微軟新發布的 WebTailBench(專注於求職、比價等長尾任務的基準測試),Fara-7B 皆表現亮眼。
數據顯示,Fara-7B 在多項指標上展現了 State-of-the-Art(SOTA)級別的性能,甚至超越了體積更大的模型或依賴輔助標記(Set-of-Marks, SoM)的 GPT-4o 代理系統。
-
WebVoyager 測試: Fara-7B 取得了 73.5% 的任務成功率,優於 OpenAI computer-use-preview(70.9%)與 UI-TARS-1.5-7B(66.4%)。
-
WebTailBench 測試: 在這個針對現實世界複雜任務的新基準中,Fara-7B 達到 38.4% 的成功率,遠高於 GPT-4o SoM Agent 的 30.0%。
| 模型 | WebVoyager | Online-Mind2Web | DeepShop | WebTailBench |
|---|---|---|---|---|
| SoM Agent (GPT-4o) | 65.1% | 34.6% | 16.0% | 30.0% |
| OpenAI computer-use-preview | 70.9% | 42.9% | 24.7% | 25.7% |
| UI-TARS-1.5-7B | 66.4% | 31.3% | 11.6% | 19.5% |
| Fara-7B | 73.5% | 34.1% | 26.2% | 38.4% |
※ 所有結果均為多次實驗平均值
效率是 Fara-7B 的另一大亮點。在同為 7B 參數級別的比較中,雖然 Fara-7B 與 UI-TARS-1.5-7B 的推理單價相同(基於 Qwen2.5-VL-7B 架構),但 Fara-7B 平均僅需 16 個步驟 即可完成任務,而競品則需約 41 個步驟。這意味著在實際應用中,Fara-7B 能以更少的時間和算力成本達到目標,在成本效益曲線(Pareto Frontier)上開創了新局。
安全與負責任的 AI:人機協作的防護網
賦予 AI 操作電腦的權力伴隨著風險,如誤操作、隱私洩露或被惡意利用。微軟在 Fara-7B 的設計中強調了「透明度」與「用戶控制」的重要性。
關鍵決策點(Critical Points)機制
為了防止 AI 進行不可逆的高風險操作(如發送電子郵件、確認付款),微軟在訓練數據中強制加入了「關鍵決策點」的概念。當 Fara-7B 識別到此類場景時,必須停止並請求用戶批准。這確保了人類始終保留最終決定權。
沙盒環境與拒絕機制
微軟強烈建議在沙盒(Sandboxed)環境中運行 Fara-7B,以便用戶能隨時監控並中斷其行為。此外,模型經過了嚴格的紅隊測試(Red Teaming)與安全數據訓練。在針對拒絕有害任務的 WebTailBench-Refusals 測試中,Fara-7B 展現了 82% 的高拒絕率,能有效識別並拒絕如越獄嘗試、有害內容生成或提示注入(Prompt Injections)等惡意指令。
目前,Fara-7B 定位為實驗性預覽版本(Experimental Release),微軟已將其以 MIT 授權條款在 Microsoft Foundry 與 Hugging Face 上開源(Open-weight)。開發者可以直接下載預先優化過的模型,或透過 Magentic-UI 原型進行測試。
微軟此舉意在降低 CUA 技術的門檻,邀請社群共同參與。Fara-7B 證明了透過純監督式微調(Supervised Fine-tuning),小型模型也能在複雜的代理任務上取得卓越成果。展望未來,隨著多模態基底模型的進化以及強化學習(Reinforcement Learning)技術的引入,能在終端裝置上運行的 AI 代理將會更加強大且可靠。Fara-7B 的問世,不僅是技術參數的提升,更是對未來數位生活的一種預告:一個你的電腦能真正「理解」並「幫你做完」繁瑣雜事的時代,已經觸手可及。


