近日(2026 年 2 月)一項來自中國學術團隊的革命性研究成果震撼了 AI 圖像生成領域。由 Yuang Ai、Jiaming Han 等研究人員共同開發的 BitDance,是一款擁有 140 億參數的開源自回歸圖像生成模型。該模型透過創新的「二進制視覺 Token」技術,不僅在 DPG-Bench 基準測試中獲得 88.28 分的優異成績,更實現了相比傳統自回歸模型高達 30 倍的生成加速,為高效率、高品質的視覺內容創作開闢了全新道路。
核心技術突破:二進制 Token 的三大創新
BitDance 的技術架構建立在三個關鍵創新之上,這些創新共同解決了傳統離散自回歸模型在視覺生成領域長期面臨的瓶頸:
1. 大詞彙二進制分詞器(Large-Vocabulary Binary Tokenizer)
傳統的視覺生成模型(如 VQ-GAN)通常使用包含 16,000 個以上索引的龐大詞彙表來表示圖像Token,這種方式不僅計算成本高昂,且生成速度緩慢。BitDance 採用全新的二進制表示方法,將視覺資訊壓縮為二進制編碼。
這種設計讓每個 Token 能夠表示高達 2256 種狀態,創造出一種既緊湊又極具表現力的離散表示形式。研究團隊形容這就像「從厚重的油畫轉變為快速的摩斯電碼」:在保留語義資訊的同時,大幅降低了數據的「重量」。
2. 二進制擴散頭(Binary Diffusion Head)
從如此龐大的離散空間中進行採樣,傳統的分類方法(softmax)面臨巨大挑戰。BitDance 創新性地採用二進制擴散頭,不再試圖預測浮點數值,而是透過連續空間擴散技術來生成二進制令牌。
這種方法讓模型能夠高效處理離散的二進制狀態,將原本複雜的採樣問題轉化為一系列快速的二進制決策,顯著提升了生成效率。
3. 下一區塊擴散範式(Next-Patch Diffusion Paradigm)
這是 BitDance 實現 30 倍加速的關鍵所在。傳統自回歸模型採用序列生成方式,一次只能預測一個令牌;而 BitDance 的下一區塊擴散技術允許模型每步並行預測多達 64 個視覺Token。
這種並行預測能力徹底打破了自回歸模型的序列瓶頸,以生成 1024×1024 解析度的圖像為例,傳統模型可能需要數千個生成步驟,而 BitDance-14B-64x 版本僅需 64 個步驟即可完成,實現了質的飛躍。
性能表現:超越業界標竿
BitDance 在多項權威基準測試中展現了卓越的生成能力:
- DPG-Bench:獲得 88.28 分,超越 FLUX.1 Dev(83.84 分)等主流開源模型,甚至逼近 GPT Image 1(85.15 分)和 Seedream 3.0(88.27 分)等商業閉源模型
- GenEval:達到 0.86 分,展現優異的文本對齊能力
- ImageNet 256×256:FID 分數達到 1.24,為所有自回歸模型中的最佳表現
更值得注意的是,BitDance 在實現頂尖性能的同時,保持了極高的參數效率。研究顯示,使用下一區塊擴散技術時,BitDance 僅需 2.6 億參數(260M),就能超越使用 14 億參數(1.4B)的並行自回歸模型,同時實現 8.7 倍的速度提升。
根據官方公佈的範例,該模型可生成品質相當優異且風格各異(寫實、動漫…)的圖片,連中文在內的文字也能正成生成:
官方範例:
開源生態:Apache 2.0 授權助力社群發展
BitDance 採用 Apache 2.0 開源授權,研究團隊已在 Hugging Face 和 GitHub 上完整釋出了模型權重、訓練程式碼及推論範例。目前提供兩個主要版本:
- BitDance-14B-64x:每步預測 64 個令牌,生成 1024×1024 圖像僅需 64 步
- BitDance-14B-16x:每步預測 16 個令牌,生成 1024×1024 圖像需 256 步,支援 512px 和 1024px 解析度
開發者可在標準消費級 GPU(如 RTX 3090/4090)上在本地端部署此 140 億參數完整模型,這得益於其二進制 Token 帶來的記憶體頻寬優化。
產業意義:邊緣 AI 的新曙光
BitDance 的出現標誌著 AI 效率革命的新階段。當業界正致力於將大語言模型的權重量化至 1-bit(如 Microsoft 的 BitNet b1.58),BitDance 則將這種「精簡哲學」延伸至數據表示層:視覺 Token 本身。
這種二進制原生設計大幅降低了記憶體頻寬需求,不僅讓雲端伺服器運算成本顯著下降,更為在筆記型電腦甚至智慧型手機上運行高品質多模態 AI 代理奠定了基礎。當 1-bit 權重、二進制令牌與稀疏注意力機制結合,我們或許正在見證下一代 AI 架構的雛形。
結語
BitDance 不僅是一款性能卓越的圖像生成模型,更是對傳統自回歸視覺生成範式的根本性反思。透過擁抱二進制表示的簡潔性,研究團隊證明了「標準」方法可能存在的巨大效率浪費,並開啟了一個無需專用硬體即可實現極速生成的新時代。
對於開發者而言,BitDance 的程式碼已經開放、模型已可下載、速度提升真實可測。這場由二進制 Token 驅動的視覺生成革命,才剛剛開始,有興趣與能力的朋友可以自行下載測試。





