中國 AI 企業百度近日在 Hugging Face 上開源了一款名為「Unlimited-OCR」的全新文件解析模型,推出兩天內在 GitHub 上已累積超過 5,100 顆星。這款僅 3B 參數的模型在 OmniDocBench 評測中以 93.23% 的成績超越 Gemini-2.5 Pro、Qwen3-VL 等大規模模型,更比 DeepSeek-OCR 高出超過 6 個百分點,被中國媒體形容為「小參數破解長文檔失憶難題」。更讓人意外的是,其核心作者疑似是從 DeepSeek 出走的大神魏浩然,讓這個開源專案從技術到八卦都充滿話題性。
Unlimited-OCR 🔥New OCR from @PaddlePaddle
It can parse hundreds of pages in a single pass while maintaining stable speed.
The key idea is R-SWA (Reference Sliding Window Attention), which keeps KV cache constant during decoding.
🏆 93% on OmniDocBench
📈 +6% over… pic.twitter.com/uuXPUhL22L— Adina Yakup (@AdinaYakup) June 22, 2026
百度推出開源 OCR 應用 Unlimited-OCR,3B 參數碾壓 GPT-5 級模型
長期以來,AI 處理 OCR 多頁文件的主流做法是「逐頁辨識、外部拼接」,由每一頁獨立送進模型,再靠外部排程器把結果縫合起來。這種做法的問題顯而易見:上下文斷裂、格式不一致、跨頁表格無法正確解析。Unlimited-OCR 提出的解法,是用全新的注意力機制讓模型一口氣看完數十頁文件,不間斷地輸出完整結果。這不僅提升了辨識準確率,也大幅簡化了部署流程,不再需要額外的排程器與後處理管線。
R-SWA 核心技術:固定 KV 緩存,告別長文件失憶
Unlimited-OCR 的核心創新是 R-SWA(Reference Sliding Window Attention,參考滑動視窗注意力)。傳統注意力機制在解碼過程中,KV 緩存會隨著輸出長度線性增長,這在處理數十頁文件時會迅速耗盡顯存。R-SWA 的做法是讓模型在輸出時只回看最近的 128 個 token,同時對參考端的影像 token 維持完整注意力,就像人類抄書時,永遠看得見原文,但目光只聚焦在剛寫完的幾行字上。這個機制的效果是 KV 緩存變成固定大小的循環佇列,無論輸出 1 萬還是 10 萬 token,記憶體佔用完全一致。Flash Attention v3 的延遲測試顯示,R-SWA 從頭到尾的推理時間幾乎是一條水平線,完全不受輸出長度影響。
配合 R-SWA 的還有 DeepEncoder 極致視覺壓縮技術,將一張 1024×1024 的 PDF 頁面壓縮到僅 256 個視覺 token,壓縮率高達 16 倍。這些視覺 token 在 R-SWA 機制下不參與狀態轉移,確保影像資訊在整個長程解析過程中始終清晰可用。兩者相加的結果是:模型可以一次處理超過 40 頁的文件而不會失憶,20 頁編輯距離低至 0.057,40 頁以上也僅 0.11。
Benchmark 成績:小參數打敗大模型
Unlimited-OCR 採用 MoE 架構,總參數 3B(30 億),但實際激活僅 500M,不到 Qwen3-VL 235B 的零頭,成績卻高出 4 個百分點。在 OmniDocBench v1.5 上獲得 93.23%,v1.6 更達 93.92%,全榜第一。在吞吐量方面,TPS 達 7,847,比 DeepSeek-OCR 高出 35%。細分能力上,文字辨識、閱讀順序等七個類別全面領先 DeepSeek-OCR 至少 2 個百分點。
| 模型 | 參數量 | OmniDocBench v1.5 | OmniDocBench v1.6 |
|---|---|---|---|
| Unlimited OCR | 3B(500M 激活) | 93.23% | 93.92% |
| DeepSeek OCR | — | 87.01% | — |
| Qwen3-VL | 235B | 89.15% | — |
| Qwen2.5-VL | 72B | 87.02% | — |
| Gemini-2.5 Pro | — | 88.03% | — |
與其他主流模型對比:DeepSeek-OCR 為 87.01%、Qwen2.5-VL 72B 為 87.02%、Gemini-2.5 Pro 為 88.03%、Qwen3-VL 235B 為 89.15%,Unlimited-OCR 以 3B 參數做到了它們都做不到的事。特別是,Qwen3-VL 是 235B 參數的巨無霸模型,而 Unlimited-OCR 實際激活僅 500M,參數效率差距達 470 倍。這證明了 R-SWA 與 DeepEncoder 的技術路線在效率上的巨大優勢,也讓外界對 MoE 架構在小參數模型上的潛力有了全新認識。
開源生態:MIT 授權
Unlimited-OCR 採用 MIT 授權,已可在 Hugging Face 下載模型權重,並提供完整的推理腳本。支援兩種模式,包括「gundam」模式適合單張高解析度純文字圖像(採用 crop 切圖策略),「base」模式則適用於單張或多頁 PDF 解析,兩者皆支援最大 32,768 token 的上下文長度。開發者可透過 Hugging Face Transformers 直接載入模型,或使用 SGLang 部署 OpenAI 相容的 API 服務。GitHub 上的推理範例涵蓋了從單張圖片到 PDF 批量轉換的完整流程,並提供了 PDF 轉圖片的輔助腳本。此外,已有社群成員在 Hugging Face Spaces 上建立了線上 Demo(由知名 AI 部落客 akhaliq 維護),可直接上傳圖片或 PDF 檔體驗效果,無需自建環境。
作者之謎:疑似 DeepSeek 出走大神
論文作者名單中出現神秘的「YY†」縮寫標記,加上 GitHub 致謝欄位將 DeepSeek-OCR 和 DeepSeek-OCR-2 列在第一、第二位,引發外界聯想。根據業內消息,DeepSeek OCR 線的核心作者魏浩然(曾開發 GOT-OCR2.0,後加入 DeepSeek 搭建 OCR 線)在今年 4 月 DeepSeek V4 發表時,名字後已被加上星號標註離職。魏浩然的技術履歷,從階躍星辰的 GOT-OCR2.0,到 DeepSeek 的 DeepEncoder 與 MoE 解碼器,再到如今百度開源的 Unlimited-OCR,每一站都留下了明顯的技術足跡。無論 YY 是否就是魏浩然,Unlimited-OCR 的技術路線確實處處可見 DeepSeek OCR 的影子,堪稱同一技術思路在百度開花結果。
結語
Unlimited-OCR 這條技術線的積累不是一朝一夕,R-SWA 的設計思路雖然簡單直接,但它解決的是過去幾年長文件 OCR 最頭痛的「失憶」問題。官方路線圖已經預告下一階段將把上下文擴展到 128K,並建構 prefill pool 讓模型自動翻頁,屆時 OCR 恐怕不再只是「認字工具」,而是真正的長文件理解引擎了。對開發者來說,現在就能在 Hugging Face 上下載模型自己跑看看,MIT 授權也沒有任何商用限制,堪稱近期開源圈最有誠意的 OCR 專案之一,熱度與實用性兼具。從社群的熱烈反應來看,Unlimited-OCR 已經成功引發了全開發者的關注,後續的生態發展值得期待,有大量文件 OCR 需求對中國開源 AI 不感冒的話可以試試。

