稀宇科技正式開源 MiniMax M2.7：自主訓練 100 輪、30 分鐘內修好生產環境故障

在開源界頗受好評的中國 AI 新創 MiniMax（稀宇科技）正式於 Hugging Face 開源自家最新的 MiniMax M2.7 模型。這是 MiniMax 迄今最強大的開源大語言模型，也是該公司首個能深度參與自身開發流程的「自主進化型」模型。根據官方公布的基準測試數據，M2.7 在軟體工程、專業辦公與多代理協作三大領域均有突破性表現，部分指標已與全球頂級封閉模型並駕齊驅。

We’re delighted to announce that MiniMax M2.7 is now officially open source.
With SOTA performance in SWE-Pro (56.22%) and Terminal Bench 2 (57.0%).

You can find it on Hugging Face now. Enjoy!🤗
huggingface：https://t.co/lyDLCyPqsy
Blog: https://t.co/tTzoxgUTud
MiniMax API:… pic.twitter.com/qzIW5fX8X7

— MiniMax (official) (@MiniMax_AI) April 12, 2026

MoE 架構加持：只啟動必要的專家神經元

M2.7 採用混合專家（Mixture-of-Experts, MoE）架構，透過動態激活所需的專家神經元區塊，而非全模型運行，大幅降低推論成本與延遲。這種設計讓 M2.7 在保持高效能的同時，具備更具競爭力的部署成本。

SWE-Pro 基準測試：56.22%，追上 GPT-5.3-Codex

在軟體工程領域最具指標性的 SWE-Pro 基準測試中，M2.7 拿下 56.22% 的準確率，號稱與 GPT-5.3-Codex 並駕齊驅。SWE-Pro 涵蓋日誌分析、Bug 排查、程式碼安全審查與機器學習除錯等任務，比一般演算法解題更接近真實生產環境。

在其他關鍵評測中：

Terminal Bench 2（複雜系統理解）：57.0%
VIBE-Pro（完整專案交付）：55.6%，幾乎與 Opus 4.6 持平
SWE Multilingual：76.5%
Multi SWE Bench：52.7%

生產環境實測：故障修復時間壓縮至 3 分鐘內

M2.7 的能力不僅停留在基準測試。MiniMax 團隊記錄了模型在真實生產環境中的表現：當系統發出監控警報時，M2.7 能自動關聯監控指標與部署時間線，進行因果推理、執行追蹤數據的統計分析並提出假設、主動連接資料庫驗證根本原因，找出程式碼中缺失的索引遷移檔案，並使用非阻塞式索引建立來止血，整個流程結束後再提交合併請求。MiniMax 指出，該模型已多次將生產事故的修復時間縮短至 3 分鐘以內。

自主進化：100 輪最佳化循環、30% 效能提升

M2.7 最備受矚目的特性，在於其「自我進化」能力。MiniMax 團隊讓 M2.7 自行負責模型程式設計效能的優化工作：模型以完全自主的方式，執行「分析失敗軌跡→規劃變更→修改框架程式碼→運行評估→比較結果→決定保留或回滾」的最佳化循環，總共運行超過 100 輪。

在這個過程中，M2.7 自動發現了多項有效優化策略：系統性搜索溫度（temperature）、頻率 penalty 與 presence penalty 等採樣參數的最優組合；設計更精確的工作流程指引（例如在修復某個 Bug 之後，自動在同一專案其他檔案中搜索相同問題模式）；為代理迴圈新增循環偵測機制。最終，M2.7 在內部評估集中達成 30% 的效能提升。

在 MiniMax 自身的強化學習研究流程中，M2.7 目前已能獨立完成 30%–50% 的端到端工作，人類研究員只需在關鍵環節參與決策與討論。

MiniMax 工程負責人 Skyler Miao 在 X 上表示：「我們刻意訓練模型在規劃與使用者需求確認上表現更好。下一步是引入更複雜的使用者模擬器，進一步擴展這項能力。」

Great observation. We intentionally trained the model to be better at planning and at clarifying requirements with the user. Next step is a more complex user simulator to push this even further. https://t.co/JwT4UifJ98

— Skyler Miao (@SkylerMiao7) March 18, 2026

MLE Bench Lite：機器學習競賽奪牌率 66.6%

MiniMax 團隊也將 M2.7 投入 MLE Bench Lite 測試：這是 OpenAI 開源的評測套件，內含 22 項可在單張 A30 GPU 上運行的機器學習競賽，涵蓋幾乎所有 ML 工作流程階段。

實驗設計極為精簡：僅配備短期記憶、自我回饋與自我優化三個元件。每輪迭代結束後，代理會生成短期記憶標記檔、針對當前結果進行自我批評，並為下一輪提供優化方向。三次獨立實驗，每次給予 24 小時的迭代演化時間。

最終結果：最佳一次實驗奪下 9 金、5 銀、1 銅。三次實驗的平均奪牌率為 66.6%，僅次於 Opus 4.6（75.7%）與 GPT-5.4（71.2%），與 Google Gemini 3.1 並駕齊驅。

專業辦公表現：幻覺率大幅压低至 34%

在專業辦公領域，M2.7 於 GDPval-AA 評測拿下 ELO 1495 分，為目前所有開源可及模型中之最高分。

M2.7 在幻覺控制上也有顯著進步：AA-Omniscience Index 從前代 M2.5 的負 40 分一躍升至正 1 分；幻覺率僅 34%，低於 Claude Sonnet 4.6 的 46% 以及 Gemini 3.1 Pro Preview 的 50%。

Agent Teams：原生多代理協作框架

M2.7 支援 MiniMax 所提出的 Agent Teams 框架，實現原生多代理協作。模型能構建複雜的 Agent 框架，結合動態工具搜索、複雜技能調用，完成高度專業化的生產力任務。

此外，該模型還配備 OpenRoom 互動系統，將 AI 交互從純文字擴展至視覺化介面，支援即時場景反饋與高度擴展性。

模型取得方式

M2.7 現已開源，模型權重已於 Hugging Face 公開，有條件的人可以嘗試自己部屬使用，同時也可透過 MiniMax API 使用。

Tags: ai HuggingFace MiniMax MiniMax M2.7 稀宇科技開源

稀宇科技正式開源 MiniMax M2.7：自主訓練 100 輪、30 分鐘內修好生產環境故障

您也許會喜歡：

網站搜尋

廣告