去年 4 月 Meta 推出 Llama 4 時,可說非常慘烈,當時不僅被踢爆測試成績造假,最強的 Behemoth 版本也一延再延,這也讓執行長 Mark Zuckerberg 對內部團隊幾乎完全失去信心。而之後 Meta 就做了一個大動作,挖來前 Scale AI 執行長 Alexandr Wang 成立全新的 Meta Superintelligence Labs 部門,砍掉重練整個 AI 技術架構,花了整整 9 個月從頭打造新的模型、新的基礎設施、新的資料處理流程。
而這 9 個月的成果,終於在稍早亮相,Meta 正式推出全新「Muse Spark」模型。
Meta 發表全新 AI 模型 Muse Spark:健康與科學推理領先對手,但寫程式還有差距
Muse Spark 是 Meta Superintelligence Labs 推出的第一個模型,跟過去的 Llama 系列不同,這次 Meta 不再只是追求更大,而是採用更有系統的漸進式擴展策略,先推出一個小而精的模型,驗證技術可行之後再逐步放大。
簡單來說,Muse Spark 是一個原生多模態推理模型,能理解文字和圖片。提供兩種模式:「Instant(即時)」和「Thinking(思考)」:
另外還有一個比較特別的「Contemplating(深度思考)」模式,這是 Meta 的獨家設計,它會同時啟動多個 AI 代理一起協作來處理更困難的問題,類似 Gemini 3.1 的 Deep Think 和 GPT 5.4 Pro。
像是在規劃一趟佛羅里達家庭旅遊時,一個代理負責行程安排,另一個比較奧蘭多與佛羅里達群島的差異,第三個則找出適合孩子的活動——全部同時進行,讓你更快得到更完整的答案。

Meta 還特別強調 Muse Spark 在健康領域的能力,找來超過 1,000 名醫師合作,協助整理出專門的訓練資料,讓 Muse Spark 能回覆跟健康相關的問題,包括分析圖表和影像。
還有一點值得一提,根據 Meta 官方說法,Muse Spark 達到同等能力所需要的運算資源,比上一代 Llama 4 Maverick 少了超過 10 倍,代表在訓練效率上有很大的突破。
測試數據部分,根據 Artificial Analysis 的 AI 智慧指數評比,Muse Spark 拿到 52 分,排在全球前 5 名之內,但仍然落後 GPT-5.4 和 Gemini 3.1 Pro(兩者都是 57 分),也些微落後 Claude Opus 4.6(53 分),不過贏過 Claude Sonnet 4.6 和其他主要競爭者:
Meta 有分享許多 Muse Spark 測試數據,幾個重點是:
- 健康領域 HealthBench Hard 測試中,Muse Spark 拿到 42.8 分,超越 GPT-5.4 的 40.1 分
- 圖表理解 CharXiv Reasoning 測試也以 86.4 分拿下第一,贏過 GPT-5.4 的 82.8 分和 Gemini 3.1 Pro 的 80.2 分
- AI 搜尋領域 DeepSearchQA 測試中,Muse Spark 以 74.8 分同樣拿下最高分,略勝 Opus 4.6 的 73.7 分和 GPT-5.4 的 73.6 分
Contemplating 模式中,科學推理 Humanity’s Last Exam 測試拿到 50.2%,搭配工具更達到 58%,兩者都領先 Gemini 3.1 Deep Think 和 GPT5.4 Pro:
不過 Muse Spark 寫程式明顯比較弱,Terminal-Bench 2.0 測試只拿到 59.0 分,GPT-5.4 是 75.1 分、Gemini 3.1 Pro 也有 68.5 分。抽象推理的 ARC-AGI-2 更落後一大截,Muse Spark 為 42.5 分,GPT-5.4 和 Gemini 3.1 Pro 分別是 76.1 分和 76.5 分。
整體來看,Muse Spark 在健康、圖表理解和 AI 搜尋這幾個方面確實很強,多模態能力也有不錯水準,不過程式撰寫、抽象推理和代理任務等項目上,跟頂尖對手還有一段不小的差距。
Meta 自己也坦承「長時間代理任務」和「程式碼工作流程」還有改進空間。
Muse Spark 目前已經上線,可透過 Meta AI App 和 meta.ai 網站使用,提供 Instant 和 Thinking 兩種模式,首波先在美國地區推出。
接下來幾週也會陸續將 Muse Spark 部署到旗下其他平台,包括 WhatsApp、Instagram、Facebook、Messenger,以及 Meta 的 AI 眼鏡。另外也會開放私人 API 預覽給部分合作夥伴使用,但目前還沒有公開的 API 定價資訊。
這裡有一點要注意是,跟過去的 Llama 系列不同,Muse Spark 這次是閉源的,不會公開模型的權重和程式碼。





