以往人們對於大模型訓練的認知都是需要好幾個機房的旗艦 GPU + 數億美元訓練成本才能辦到,除非是大公司不然一般人是幾乎不可能可以用家用電腦或簡單設備完成的。不過近日有一個全新的開源項目 MiniMind 僅需一張消費級 NVIDIA RTX 3090 顯卡、約兩小時訓練時間、花費約新台幣 NT$13 元,即可從零完成一個 64M 參數的 GPT 類模型訓練。項目以 Apache 2.0 協議完全開源,目前已在 GitHub 收穫約 4 萬 7 千顆星、近 6 千次 fork。
MiniMind:一般人也能「從零訓練出大模型」的開源專案
不是呼叫 API,而是「真正自己造模型」
MiniMind 不是另一套類似 Hugging Face Transformers 的 AI 框架抽象層,也不是再包一層的微調工具;它是一整套可重現、可閱讀、可修改的「從零打造大模型」教學與實作倉庫。以純 PyTorch 原生實作,主要核心結構(注意力、FFN、位置編碼等)皆為手寫,幾乎沒有黑盒,重點不僅是能運作,更是能被完整讀懂。
只要 2小时 + 几块钱 + 一张普通显卡,你就能从0训练一个 GPT。
MiniMind 这个开源项目已经冲上 GitHub Trending,斩获 47k ⭐。
这是一个把大模型带回普通人手里的项目:
不是调 API,而是真正从0造模型。核心亮点
1. 门槛极低
– 26M 参数,小到个人设备可跑
– 单卡即可训练
– 成本极低… pic.twitter.com/maTXmHbJ2t— 开发者Hailey (@IndieDevHailey) April 18, 2026
模型規模:從 26M 到 198M MoE 的多尺寸陣容
MiniMind 目前提供數個不同尺寸的模型以對應不同硬體條件,依官方 README 與 GitHub Pages 文件整理如下:
- MiniMind2-Small:26M 參數(輕量版,個人筆電即可跑)
- MiniMind2:104M 參數
- MiniMind2-MoE:145M 參數(Mixture of Experts)
- MiniMind-3:64M 參數(最新主力稠密架構)
- MiniMind-3-MoE:198M / A64M 參數(最新 MoE 版本)
其中 MiniMind-3 採用 768 維 hidden size、8 層 Transformer 的精簡架構,模型檔案大小約 0.5GB(dense)至 1.0GB(MoE),在 ollama、llama.cpp 等本地推理框架上皆可流暢載入。
完整訓練鏈路:不只是 pretrain,連 RLHF、Agent RL、蒸餾都有
MiniMind 另一個亮點是它複製了主流大模型從預訓練到對齊的完整流程。官方文件列出的訓練階段包括:
- 資料前處理與 tokenizer 訓練
- 預訓練(Pretrain)
- 監督式微調(SFT)
- LoRA 低秩微調
- DPO(直接偏好最佳化)的 RLHF 階段
- RLAIF 系列:PPO、GRPO、CISPO 等強化學習演算法
- Agentic RL,讓模型學會工具調用
- 知識蒸餾
這讓 MiniMind 不只是「訓一個能講話的小模型」,而是完整展示了大模型訓練管線上每一個環節的可行路徑,對學生、研究者與工程師而言都是少見的系統性教材。
成本:RTX 3090 兩小時、不到新台幣 13 元
依專案作者在官方網站揭露的訓練紀錄,以 MiniMind-3(64M)為例,在單張 NVIDIA RTX 3090 上完成 Pretrain + SFT 兩階段僅需約 2.31 小時,電費與雲端成本合計約 3 元人民幣,換算後不到新台幣 NT$13;其參數規模約為 GPT-3 的 1/2700,但已具備可對話、可進行簡易推理、可呼叫工具的完整能力雛形。
作者本人的開發環境則相當豪華:Intel Core i9-10980XE、128GB 記憶體、8 張 RTX 3090、Ubuntu 20.04、CUDA 12.2、Python 3.10.16;不過官方也強調:一般使用者僅需一張消費級顯卡即可完整重現所有訓練流程。
生態相容:可接 ollama、vLLM,並提供 OpenAI API 介面
MiniMind 訓練完成的權重可以直接載入主流推理後端,包括 Hugging Face Transformers、llama.cpp、vLLM、SGLang 與 ollama;更重要的是,它對外暴露與 OpenAI API 相容的介面,意味著本地使用者可直接把 FastGPT、Open-WebUI、Dify、ChatGPT 相容的 ChatUI 等應用指向 MiniMind,當成私有化 ChatGPT 使用,完全不需要將資料送出外部雲端。
專案亦附帶視覺多模態延伸版 MiniMind-V,並支援 YaRN 位置編碼外推,使小模型也能擴展到更長的上下文長度。推理能力方面,MiniMind 已實作 <think> 標籤式的自適應思考(Adaptive Thinking)與推理內容顯示,結構上可與 Claude、GPT-5 等前沿模型的 thinking token 機制互相對照。
MiniMind 不追求刷榜、不追求參數量,而是把「自己訓練一個能用的大模型」變成週末專案的可行選擇。對教育者而言,它是幾乎取代不了的教材:學生能從 tokenizer 一路寫到 RLHF;對獨立開發者而言,它是隱私友善的本地 AI 原型起點;對企業研究團隊而言,它則是一個可快速驗證新演算法的小型實驗平台。這種「完整、透明、可修改」的開源特性,正是它能在短短時間內衝上 GitHub Trending 的主因。
結語:
MiniMind 的意義並不在於模型本身能挑戰多大的旗艦,而在於它以 Apache 2.0 授權、極低門檻、完整管線,徹底展示了大模型技術的可拆解性。對想認真理解大語言模型(LLM)技術裡的 Transformer、RLHF、Agent RL、蒸餾等關鍵環節的工程師與研究者而言,它可能是 2026 年最值得 clone 下來逐行閱讀的開源專案之一。

