許多 OpenClaw 與 Hermes 使用者的中國 AI 公司 MiniMax 於 6 月 1 日正式發表其最新旗艦模型 MiniMax M3,號稱是首款將三大前沿能力:頂尖編碼與代理(Agent)能力、百萬級 token 上下文、以及原生多模態,整合於單一模型的開源權重(open-weights)模型。

MiniMax M3 三大特色一次到位:編碼、百萬上下文、多模態
MiniMax 在官方 X 帳號宣布,M3 是第一款同時達到編碼與代理(Agentic)前沿水準的開源權重模型。其多項基準測試成績相當亮眼:SWE-Bench Pro 達到 59.0%,Terminal Bench 2.1 為 66.0%,SWE-fficiency 為 34.8%,KernelBench Hard 為 28.8%,MCP Atlas 則達到 74.2%。 此外,在自主網頁搜尋基準 BrowseComp 上,M3 以 83.5 分超越了 Anthropic Opus 4.7 的 79.3 分,展現出色的自主瀏覽與資訊檢索能力。
另外,在 SWE-Bench Pro 軟體開發基準測試中,M3 的 59% 成績超越了 OpenAI GPT-5.5 與 Google Gemini 3.1 Pro,僅次於 Anthropic Opus 4.7。
MiniMax Sparse Attention:百萬 token 上下文的關鍵技術
M3 的核心技術突破是全新的注意力機制:MiniMax Sparse Attention(MSA)。傳統的全注意力(full attention)機制下,計算成本會隨輸入長度呈二次方增長。MSA 則透過區塊篩選機制,只對相關的 key-value 區塊進行完整計算,將 KV cache 的計算量降至傳統方法的二十分之一。這使得 M3 可在合理運算成本下處理超長輸入序列。
得益於 MSA 技術,M3 API 支援最高 100 萬 token 的上下文視窗,最低保證 512K token。這相比前代 M2.7 的 20 萬 token 提升了 5 倍之多,也超越了多數同級模型的上下文長度。如此大的上下文視窗足以應付長篇幅的程式碼專案、長時間代理任務與長影片理解等場景,讓 M3 在處理需要長時間連續推理的複雜任務時具備顯著優勢。MiniMax 表示,1M 上下文是為長期代理任務、長程程式碼開發與長影片理解所打造的基礎設施。
在推斷成本方面,MSA 的稀疏注意力機制將 KV cache 計算量降至傳統 full attention 的二十分之一。這不僅讓 M3 能夠處理更長、更複雜的輸入序列,也大幅降低了運算成本與回應延遲,對於需要大量 token 處理的開發者而言是一項實質優勢。
原生多模態:從零開始的訓練策略
不同於多數模型在後期才加入視覺能力,M3 從預訓練階段就採用混合模態資料(interleaved data),將文字與圖片交織在同一個序列中進行訓練。MiniMax 團隊重新設計了資料管線,將訓練資料規模擴展到約 100 兆 token 的量級,實現文字與視覺語意空間的深層對齊。官方強調,多模態是 M3 的原生核心能力,而非表面的附加功能。這意味著 M3 在理解圖表、流程圖與螢幕截圖等視覺資訊時,具備與文字理解相同水準的表現。
自主代理能力實測:12 小時複製 ICLR 論文、9.4 倍 CUDA 加速
MiniMax 展示了三項自主代理的實際測試,凸顯 M3 在長時間任務執行上的能力:
第一項測試中,團隊要求 M3 獨立複現一篇 ICLR 2025 傑出論文:《Learning Dynamics of LLM Finetuning》。M3 連續運作近 12 小時,自主產出 18 次 commit 與 23 張實驗圖表,成功重現論文的核心實驗結果。過程中多模態能力讓它讀懂論文中的圖表與公式,長上下文讓論文、程式碼與實驗記錄可在單一視窗內處理,編碼與代理能力則驅動長時間執行。
第二項測試是 CUDA Kernel 優化。團隊要求 M3 在 NVIDIA Hopper GPU 上最佳化 FP8 GEMM 運算核心,初始只給任務描述與一個無法執行的 Triton 骨架。經歷約 24 小時、147 次迭代、1,959 次工具呼叫後,M3 將硬體峰值利用率從 7.6% 一路提升到 71.3%,實現 9.4 倍加速,全程無需人工介入。
第三項測試 PostTrainBench 中,M3 被要求在 12 小時內獨立對四個基座模型完成資料合成、訓練、評估與迭代的全部流程,而且全程不得有人為干預。最終 M3 獲得 37.1 分,排名第三,僅次於 Opus 4.7(42.4)與 GPT-5.5(39.3),大幅領先其他測試模型。
開源權重與開發者生態
M3 採用開源權重形式對外釋出,開發者可透過 MiniMax API 與 Token Plan 直接使用,也可在 MiniMax Code 桌面端直接體驗。官方宣稱 M3 在工具框架適配方面表現出色,目前已支援 Claude Code、Roo Code、Kilo Code、Cline、Codex CLI、OpenCode、Cursor 等多種主流 AI 編碼工具,開發者可自由選擇自己熟悉的開發環境。
總結
MiniMax M3 以開源權重之姿,同時在編碼代理能力、百萬 token 上下文與原生多模態三個維度達到前沿水準,無論是 59% 的 SWE-Bench Pro 成績、完成自主長達 12 小時的論文複現任務、還是 9.4 倍的 CUDA 核心加速,都展示出 MiniMax 在 AI 基礎模型上的紮實技術實力。對於需要長時間自主執行任務的開發者而言,M3 提供了一個具備競爭力的開源選項,也為 2026 年下半年的 AI 模型競爭格局增添了新的變數。隨著開源模型與封閉模型之間的差距持續縮小,M3 的出現可說是開源 AI 發展的重要里程碑。




