中國人工智慧企業 Moonshot AI 於2025年7月12日正式發表其最新大型語言模型「Kimi K2」,新模型不僅性能超越了 DeepSeek-V3及Qwen3-235B 多款中國開源模型,甚至在多項基準測試中超越商用旗艦模型如GPT-4.1與Claude Sonnet 4。
中國 Moonshot AI 團隊推出號稱超越 GPT-4.1 的新世代開源AI模型 Kimi K2
採用1兆參數的MoE架構,專為AI代理而生
Kimi K2 為 Moonshot AI 主力開發的語言模型系列,其名稱中「Kimi」延續自前代模型,這款模型採用了Mixture of Experts(MoE,專家混合)架構,擁有總計約1兆參數,其中活躍參數(Active Parameters)為320億。這種架構讓模型能動態選擇部分子模型參與推理過程,在維持模型效能的同時優化計算資源使用效率。
不同於 OpenAI 所推出的 o 系列推理模型,Kimi K2被設計為一款開放型智能代理(Open Agentic Intelligence)模型。這意味著Kimi K2不僅僅擅長進行文字問答,還能整合工具、完成任務流程,甚至具備實際操作網頁、收信、計劃行程等能力,進一步貼近真正的多模態AI代理型應用場景。
Kimi K2的發布版本包含兩個主要分支:
-
Kimi-K2-Base:基礎未經指令微調的版本,適合進一步自定義開發。
-
Kimi-K2-Instruct:經過後訓練(Instruction Tuning)以優化使用者互動體驗的版本。
在多項標準化的語言模型基準測試中,Kimi-K2-Instruct展現了驚人的成績。不僅在所有測試項目中均超越DeepSeek V3與Qwen3-235B等知名開源模型,甚至在部分測試中擊敗了如GPT-4.1、Claude Sonnet 4這類商業模型,顯示出其在語意理解、邏輯推理、知識查詢等任務上的高性能。
AI 助理能力展示:旅行規劃、HTML遊戲生成一氣呵成
Moonshot AI在官方發布中提供了Kimi K2實際應用的範例,顯示其作為AI代理的強大能力。其中一個範例展示了Kimi K2接受「協助計劃一趟旅行」的要求後,自動完成以下行為:
-
擷取使用者提供的日期資訊
-
搜尋網頁以取得景點與天氣相關內容
-
瀏覽使用者信箱確認可用時間或票券
-
整合上述資訊後,輸出一份視覺化的行程規劃表
此外,在 X 平台上亦有使用者回報,Kimi K2在接收到指令「請建立一個單一HTML頁面的簡單打磚塊遊戲」後,瞬間產出一個完整功能的網頁遊戲。這類案例顯示Kimi K2在程式生成(code generation)方面亦具有極高的可用性。
@Kimi_Moonshot k2 just oneshotted this game with the prompt “create a simple breakout game as a single html page”, cost less than a penny on @OpenRouterAI pic.twitter.com/DZRB1VZpYk
— waterdoggie (@waterdoggie) July 12, 2025
Hugging Face與GitHub全面開放
Kimi K2 開發團隊已於知名機器學習平台Hugging Face上發布了Kimi-K2-Base與Kimi-K2-Instruct兩個模型的完整資料包,開放研究人員與開發者下載使用。該模型頁面包括模型架構說明、使用指南、訓練細節與性能數據,方便開發者快速部署或進行二次開發,不在意該模型是中國團隊所開發的人可以去試試。
👉 Kimi-K2 – Moonshot AI在Hugging Face上的模型集合
同時,Moonshot AI也在GitHub上開放Kimi K2的完整原始碼,包括模型調用範例、部署流程與API端點,支持社群持續貢獻並優化該模型。