電腦王阿達

No Result

View All Result

No Result

View All Result

電腦王阿達

No Result

View All Result

Tags: AI 代理 Computer Use Agent CUA Fara-7B LLM Magentic-UI Microsoft SLM 微軟

微軟推出 Fara-7B：能看、能操控電腦的本地端小模型，AI 代理新紀元

by 達小編

2025 年 11 月 25 日

in AI 趨勢與相關新聞

讀取中...

雖說目前 AI 模型的主流是越大越好，但這些大模型只能在擁有超多GPU的大型機房上運行，而且很多敏感資料也不能隨意上傳到雲端伺服器，所以能在本地端運行的小型開源語言模型也是許多 AI 從業者所努力追求的目標。2024 年時，微軟正式啟動小語言模型（Small Language Models, SLMs）的部署策略，首先於 Microsoft Foundry 上推出 Phi 系列模型，並將能在裝置端運行的 Phi Silica 引入 Windows 11 驅動的 Copilot+ PC。近日，微軟再度跨出重要一步，正式發表針對「電腦操作代理（Computer Use Agent, CUA）」設計的首款 SLM：Fara-7B。Fara-7B 僅有 70 億參數，但效能強勁，能在相同規模下達到業界最高表現，且體積足夠輕量，可直接在本地端運行，不再需要所有資料都回傳雲端。

技術解密：Fara-7B 的核心架構與運作邏輯

輕量化與終端運算的優勢

Fara-7B 擁有 70 億參數（7B），在當今模型動輒數千億參數的環境下顯得相當精巧。這種體積優勢使其能夠直接在用戶的裝置（如搭載 NPU 的 Copilot+ PC）上運行。這帶來了兩大顯著優勢：

低延遲（Reduced Latency）： 省去了將數據傳輸至雲端的往返時間，操作反應更為即時。
隱私保障（Improved Privacy）： 所有的推理與數據處理皆在本地端完成，用戶的敏感資料無需離開裝置，這對於處理個人帳戶或交易資訊至關重要。

視覺感知：像人類一樣「看」螢幕

與依賴後台「輔助功能樹」（Accessibility Trees）或 HTML 解析來理解網頁結構的傳統自動化腳本不同，Fara-7B 採用了純視覺感知的路徑。它基於 Qwen2.5-VL-7B 模型構建，具備強大的視覺定位（Grounding）能力與長達 128k token 的上下文窗口。

Fara-7B 的運作邏輯是「觀察—思考—行動」（Observe-Think-Act）：

觀察： 它直接攝取網頁的螢幕截圖。
預測： 不需要額外的解析模型，它能直接預測操作目標的座標（Coordinates）。
行動： 透過模擬滑鼠點擊（Click）、滾動（Scroll）與鍵盤輸入（Type）來與電腦互動。

在名為 Magentic-UI 的介面中，Fara-7B 進行的實驗性案例展示包括，這些示範充分展現模型的實際應用場景：自動化日常網路流程，例如旅遊預訂、資訊蒐集與價格比較的能力，重點是它體量超小可在本地端運行：

購買 X-Box 海綿寶寶主題手把

Fara-7B 能在 Magentic-UI 中搜尋並購買 Xbox 海綿寶寶控制器，且在結帳等關鍵步驟自動暫停詢問用戶許可：

查詢 Microsoft/Magentic-UI 的 Github 最新三則更新並彙整

透過 Magentic-UI 示範 Fara-7B 在線上尋找相關資訊並進行摘要，並要求 Fara-7B 找出並摘要 Github 上 Microsoft/Magentic-UI 的最新三個 issue。

規劃旅途

在規劃行程時，它能結合 Bing Maps 查詢駕駛時間與 Bing Search 搜尋附近的起司專賣店，展現了跨應用程序的資訊整合能力。

來自多代理系統的知識蒸餾：Fara-7B 的訓練方式

開發電腦使用代理（CUA）最大的瓶頸在於數據。蒐集人類操作電腦的高品質、多步驟數據極為昂貴且耗時。為了解決這個問題，微軟研發了一套基於 Magentic-One 框架的合成數據生成管道，成功構建了包含 145,000 條軌跡（Trajectories）、涵蓋 100 萬個步驟的訓練數據集。

該管道分為三個關鍵階段：

任務提案（Task Proposal）： 為了確保任務的多樣性，系統會從真實的網頁索引中提取 URL（如購物、旅遊、餐廳網站）作為「種子」。例如，從一個電影網站 URL 生成「在紐約 AMC Union Square 預訂兩張《唐頓莊園》大結局門票」的具體任務。系統甚至會讓 LLM 代理先探索網站，再根據獲得的資訊優化任務指令。

任務求解（Task Solving）： 這是最核心的生成環節。利用 Magentic-One 多代理系統，由一個「協調者代理」（Orchestrator）制定計畫，指揮「網頁瀏覽代理」（WebSurfer）執行瀏覽器操作。如果需要用戶輸入，系統還能調用「用戶模擬器」（UserSimulator）進行多輪互動。這些操作過程、觀察結果與代理的思考過程，被完整記錄下來形成訓練數據。

軌跡驗證（Trajectory Verification）： 為了確保數據品質，微軟引入了三重驗證機制：

對齊驗證器（Alignment Verifier）： 檢查操作軌跡是否符合原始任務意圖。
標準驗證器（Rubric Verifier）： 根據預設的完成標準對軌跡進行評分。
多模態驗證器（Multimodal Verifier）： 審查截圖與回應，確認視覺證據支持任務已成功完成。

各項基準測試結果：以輕量模型刷新效能/成本曲線

微軟在多個公開基準測試中評估了 Fara-7B，包括 WebVoyager、Online-Mind2Web、Deepshop，以及微軟新發布的 WebTailBench（專注於求職、比價等長尾任務的基準測試），Fara-7B 皆表現亮眼。

數據顯示，Fara-7B 在多項指標上展現了 State-of-the-Art（SOTA）級別的性能，甚至超越了體積更大的模型或依賴輔助標記（Set-of-Marks, SoM）的 GPT-4o 代理系統。

WebVoyager 測試： Fara-7B 取得了 73.5% 的任務成功率，優於 OpenAI computer-use-preview（70.9%）與 UI-TARS-1.5-7B（66.4%）。
WebTailBench 測試： 在這個針對現實世界複雜任務的新基準中，Fara-7B 達到 38.4% 的成功率，遠高於 GPT-4o SoM Agent 的 30.0%。

模型	WebVoyager	Online-Mind2Web	DeepShop	WebTailBench
SoM Agent (GPT-4o)	65.1%	34.6%	16.0%	30.0%
OpenAI computer-use-preview	70.9%	42.9%	24.7%	25.7%
UI-TARS-1.5-7B	66.4%	31.3%	11.6%	19.5%
Fara-7B	73.5%	34.1%	26.2%	38.4%

※ 所有結果均為多次實驗平均值

效率是 Fara-7B 的另一大亮點。在同為 7B 參數級別的比較中，雖然 Fara-7B 與 UI-TARS-1.5-7B 的推理單價相同（基於 Qwen2.5-VL-7B 架構），但 Fara-7B 平均僅需 16 個步驟 即可完成任務，而競品則需約 41 個步驟。這意味著在實際應用中，Fara-7B 能以更少的時間和算力成本達到目標，在成本效益曲線（Pareto Frontier）上開創了新局。

安全與負責任的 AI：人機協作的防護網

賦予 AI 操作電腦的權力伴隨著風險，如誤操作、隱私洩露或被惡意利用。微軟在 Fara-7B 的設計中強調了「透明度」與「用戶控制」的重要性。

關鍵決策點（Critical Points）機制

為了防止 AI 進行不可逆的高風險操作（如發送電子郵件、確認付款），微軟在訓練數據中強制加入了「關鍵決策點」的概念。當 Fara-7B 識別到此類場景時，必須停止並請求用戶批准。這確保了人類始終保留最終決定權。

沙盒環境與拒絕機制

微軟強烈建議在沙盒（Sandboxed）環境中運行 Fara-7B，以便用戶能隨時監控並中斷其行為。此外，模型經過了嚴格的紅隊測試（Red Teaming）與安全數據訓練。在針對拒絕有害任務的 WebTailBench-Refusals 測試中，Fara-7B 展現了 82% 的高拒絕率，能有效識別並拒絕如越獄嘗試、有害內容生成或提示注入（Prompt Injections）等惡意指令。

目前，Fara-7B 定位為實驗性預覽版本（Experimental Release），微軟已將其以 MIT 授權條款在 Microsoft Foundry 與 Hugging Face 上開源（Open-weight）。開發者可以直接下載預先優化過的模型，或透過 Magentic-UI 原型進行測試。

微軟此舉意在降低 CUA 技術的門檻，邀請社群共同參與。Fara-7B 證明了透過純監督式微調（Supervised Fine-tuning），小型模型也能在複雜的代理任務上取得卓越成果。展望未來，隨著多模態基底模型的進化以及強化學習（Reinforcement Learning）技術的引入，能在終端裝置上運行的 AI 代理將會更加強大且可靠。Fara-7B 的問世，不僅是技術參數的提升，更是對未來數位生活的一種預告：一個你的電腦能真正「理解」並「幫你做完」繁瑣雜事的時代，已經觸手可及。

Tags: AI 代理 Computer Use Agent CUA Fara-7B LLM Magentic-UI Microsoft SLM 微軟

您也許會喜歡：

立達合法徵信社-讓您安心的選擇

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技

No Result

View All Result

歡迎手機廠商、iPhone 周邊產品業者、APP軟體開發商洽談合作或產品測試事宜 koc koc.com.tw ｜隱私政策｜主機維護：Fast Line 台灣速連,阿腸數位科技