在人工智慧技術快速迭代的 2026 年,科技巨頭小米於今日凌晨悄一口氣推出了三款自主研發的大型語言模型:MiMo-V2-Pro、MiMo-V2-Omni 以及 MiMo-V2-TTS,同時正式上線了 Xiaomi MiMo Claw 智能助理服務。這一系列動作不僅展現了小米在 AI 基座模型領域的深厚技術積累,更標誌著其正式進軍 AI Agent 應用生態的決心。從旗艦級的基座模型到全模態理解能力,再到高度擬真的語音合成技術,小米正試圖構建一個涵蓋「理解—推理—表達」全鏈路的 AI 生態。
小米發表三大自研 MiMo-V2 系列模型並推出 MiMo Claw 智能助理
MiMo-V2-Pro:為 Agent 時代打造的旗艦基座模型
Xiaomi MiMo-V2-Pro 是小米此次發布的重頭戲產品,專為現實世界中高強度的 Agent 工作場景而設計。該模型擁有超過 1T(一兆)的總參數量,採用 42B(四百二十億)激活參數的混合注意力架構,並支持高達 1M(一百萬 tokens)的超長上下文長度。這一規格使其能夠從容應對大規模代碼庫分析、長篇文檔處理等複雜任務。
Introducing MiMo-V2-Pro & Omni & TTShttps://t.co/qdufHaBJWY pic.twitter.com/m5YFmV37WB
— Xiaomi MiMo (@XiaomiMiMo) March 18, 2026
在性能表現方面,MiMo-V2-Pro 在 Artificial Analysis 排行榜上位列全球第八、中國第二。更值得注意的是,在 OpenClaw、Claude Code 等智能體框架的實測中,該模型能夠在無人工干預的條件下完成複雜工作流編排、長程規劃與精準工具調用,號稱整體使用體感已超越 Claude Sonnet 4.6,逼近 Opus 4.6 的水平。
然而,MiMo-V2-Pro 的真正殺手鐧在於其極具競爭力的定價策略。相較於 Claude Opus 4.6 的高昂使用成本,MiMo-V2-Pro 的 API 定價僅為其五分之一。具體而言,256K 上下文以內的輸入費用為每百萬 tokens 約 NT$ 31.9(USD $1),輸出費用約 NT$ 95.7(USD $3);而 1M 上下文以內的輸入費用約 NT$ 63.8(USD $2),輸出費用約 NT$ 191.4(USD $6)。
此外,MiMo-V2-Pro 現已全面打通中國流行的金山 WebOffice 生態,原生支持 Word、Excel、PPT、PDF 四大主流文檔格式,無縫覆蓋超過 95% 的日常文檔類型。WPS 靈犀也已接入該模型,用戶可直接向靈犀 Claw 提問或佈置任務。
MiMo-V2-Omni:全模態理解的新標杆
MiMo-V2-Omni 是小米面向 Agent 時代推出的全模態基座模型,專為現實世界中複雜的多模態交互與執行場景而生。該模型可無縫接入各種 Agent 框架,實現了從理解到操控的跨越,大幅降低了全模態 Agent 的落地門檻。
在音頻理解方面,MiMo-V2-Omni 支持從環境聲分類、多說話人分離、音頻—視覺聯合推理,到超過 10 小時連續長音頻的深度理解。其綜合表現超越 Gemini 3 Pro,是當前最強的音頻理解基座模型之一。
圖像理解方面,MiMo-V2-Omni 展現出強大的多學科視覺推理與複雜圖表分析能力,號稱超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等頂尖閉源模型水準。而在視頻理解方面,該模型支持原生音視頻聯合輸入,實現真正的多模態視頻理解,具備強大的情境感知與未來推理能力。
憑借這些能力,MiMo-V2-Omni 能夠跨模態理解複雜環境、自主制定並執行計劃、在遇到異常時實時修正策略,最終端到端地交付完整結果。該模型現已開放 API 服務,支持 256K 上下文長度,輸入費用約 NT$ 12.8(USD $0.4)/百萬 tokens,輸出費用約 NT$ 63.8(USD $2)/百萬 tokens。
MiMo-V2-TTS:高度可控的語音合成大模型
Xiaomi MiMo-V2-TTS 是小米自主研發的語音合成大模型,基於自研 Audio Tokenizer 和多碼本語音—文本聯合建模架構。經過上億小時語音數據的大規模預訓練與多維度強化學習,該模型實現了高度可控的多粒度語音風格控制。
MiMo-V2-TTS 的核心優勢在於其豐富的多元表達能力。用戶可通過自然語言指令設定整體語音基調,同時對句內局部片段進行細粒度的情緒調節,實現同一語句中語氣轉折與情感遞變的自然過渡。該模型支持多種方言的自然發音,包括東北話、四川話、河南話、粵語、台灣腔等,可進行角色扮演式的風格化演繹,更能實現高質量的歌聲合成——讓同一個模型既能說、能演、也能唱。
MiMo Claw 智能助理:一鍵部署的 AI 助手
與三款大模型同步推出的,還有 Xiaomi MiMo Claw 智能助理服務。用戶可通過 MiMo Studio 官網免費體驗這一「龍蝦」助理,每次體驗時長為 30 分鐘。據官方介紹,Xiaomi MiMo Claw 可幫助用戶完成文檔生成、新聞獲取、內容創作、開發提效、數據分析等多種任務。該工具採用常規的對話形式,自帶文件系統,用戶可實現網站的圖片、新聞抓取,並存儲在文件中。退出體驗後,相關數據將被銷毀,保障用戶隱私。
MiMo Claw 的核心亮點包括:搭載 MiMo-V2-Pro 最新旗艦基座模型及 MiMo-V2-Flash-Omni 多模態理解模型;一鍵部署 OpenClaw,零成本體驗;內置多樣技能,輕鬆完成複雜任務;集成金山 WebOffice 在線文檔預覽,支持 Word、Excel、PPT、PDF 四大主流格式,目前不知道是否會推出國際版。
觀點
小米此次一口氣推出三款大模型並上線 MiMo Claw 智能助理,展現了其在 AI 領域的雄心與實力。從技術層面看,MiMo-V2 系列在多個基準測試中已達到或逼近國際頂尖水平,特別是在 Agent 場景的優化上,小米選擇了一條與 OpenClaw、Claude Code 等框架深度整合的路徑,這一策略有助於快速建立開發者生態。
更值得關注的是其定價策略。在當前大型語言模型 API 價格普遍高昂的背景下,MiMo-V2-Pro 以僅為 Claude Opus 4.6 五分之一的價格提供接近的性能,這一「高性價比」路線與小米過往在硬件領域的策略一脈相承。然而,價格優勢能否轉化為市場份額,還需看其在實際應用中的穩定性與開發者體驗。
總體而言,小米的這一系列動作標誌著正式加入 AI 基座模型的競爭行列。在這場技術與生態的雙重較量中,小米能否憑借「高性價比 + 中國本土生態整合」的策略脫穎而出,值得持續關注。


