傳統印象的 AI 大模型是否一定要大到一個量級才會好用?近期在 GitHub 上爆紅的開源專案 MiniMind-O 給了截然不同的答案。這個僅有 0.1B(約 1 億)參數的全模態(Omni)模型,上線不到一週便獲得超過 3,000 顆星標,並在開發者社群引發熱烈討論。它不僅能聽、能說、能看,而且訓練成本低到驚人,僅使用四張 RTX 3090、四小時就能從零完成訓練。
MiniMind 系列:從「大道至簡」出發
MiniMind-O 並非憑空出現。它的開發者 Jingyao Gong 從 2024 年就開始打造 MiniMind 系列開源專案,核心理念是「大道至簡」。最早的 MiniMind 語言模型僅有 25.8M 參數(約 GPT-3 的二千七分之一),卻能在消費級 GPU 上跑完整個預訓練到強化學習的流程。
這次發表的 MiniMind-O 則是將這個「極簡精神」延伸到全模態領域,把語音辨識(ASR)、語音合成(TTS)與影像理解三大能力整合進 0.1B 參數的模型中。
技術架構:Thinker + Talker 雙模組設計
根據官方在 arXiv 發表的技術報告,MiniMind-O 的架構相當精巧。它採用兩階段設計:
Thinker(思考者):以完整的 MiniMind Transformer 為主幹,負責接收並理解文字、語音與影像三種模態的輸入。語音部分使用凍結的 SenseVoice 編碼器,影像則透過 SigLIP2 視覺編碼器處理,兩者經由 MLP 投影器映射到統一的隱空間。
Talker(說話者):由四層 MiniMind 模組構成的獨立元件,基於 Mimi codec 實現八層流式語音生成。Thinker 的輸出中間狀態會與 Mimi codec 的歷史資訊融合,再由 Talker 產生流暢的語音輸出。
這種分離式設計讓模型得以在極小參數量下同時處理多模態輸入與輸出,而不需要傳統全模態模型那種龐大的統一架構。
訓練門檻:四張 RTX 3090、四小時
MiniMind-O 最令人驚豔的莫過於它的訓練成本。根據專案說明,從零開始訓練完整的 0.1B 全模態模型,只需要四張 NVIDIA RTX 3090 顯示卡,耗時約四小時。
這意味著一般開發者、研究人員甚至資工系的學生,都能夠在個人設備或租用的雲端 GPU 上,親手複現並微調一個具備語音與影像能力的全模態模型。相比那些需要數百甚至數千張 GPU、耗費數週訓練的巨型模型,MiniMind-O 將全模態 AI 的研究門檻徹底拉低了好幾個層級。
他也在 B 站分享了整個內容,有興趣的朋友可以看看,也有線上版本可以體驗:
Thinker + Talker 的協作流程
具體來說,MiniMind-O 的運作流程如下:
1. 使用者輸入語音、文字或圖片
2. 音頻經 SenseVoice 編碼、圖片經 SigLIP2 編碼後,透過 MLP 投影到 MiniMind 隱空間
3. Thinker(思考者)處理這些多模態資訊,產生中間表徵
4. Talker(說話者)根據 Thinker 的輸出,透過 Mimi codec 生成流式語音回覆
這個流程讓 MiniMind-O 能像真人一樣「先思考、再回應」,同時支援 ASR(語音轉文字)、TTS(文字轉語音)、影像理解等多種任務,一切都在 0.1B 參數內完成。
開源範圍:權重、程式碼、資料集全公開
不同於某些打著開源旗號卻只開放部分元件的專案,MiniMind-O 做到了真正的完整開源:
• 模型權重:已訓練好的檢查點可直接下載使用
• 訓練程式碼:從資料預處理到模型訓練的完整 PyTorch 實作
• 訓練資料集:包含 T2A(文字轉語音)、I2T(影像轉文字)和 A2A(語音轉語音)三種核心 Parquet 格式資料集
• 技術報告:詳細說明架構設計與實驗結果的論文
這種透明度讓研究人員不僅能使用模型,更能深入理解其內部運作,甚至在其基礎上進行改進。
MiniMind-O GitHub 網址
邊緣部署的潛力
0.1B 參數的規模意味著 MiniMind-O 極具邊緣部署的潛力。相比需要雲端算力的數百億參數模型,這種超輕量全模態模型可以直接在手機、物聯網設備、嵌入式系統或可穿戴裝置上本地運行。
對於離線語音助手、智慧家居控制、即時翻譯裝置等應用場景來說,這類能夠在本地完成「聽、說、看」三種任務的輕量模型,具有相當大的想像空間。更重要的是,完全本地運算意味著使用者資料不需要上傳到雲端,對隱私保護也更友善。
目前 GitHub 上已經有開發者開始嘗試將 MiniMind-O 移植到不同的硬體平台,也有團隊在探索如何進一步縮小模型體積同時保持效能。對於關注開源 AI 與邊緣運算的讀者來說,這個專案值得持續關注。


