2025年初,來自中國的人工智慧新創公司深度求索的 DeepSeek 憑藉「DeepSeek-R1」開源LLM模型,在全球掀起一陣熱潮,甚至導致當時 AI 股股價崩盤。該模型以極低的成本實現了驚人的效能表現,當時被譽為顛覆世界的中國AI「黑馬」。然而,在 R1 之後其後繼者「DeepSeek-R2」卻一直遲遲未能發佈,根據《金融時報》(Financial Times)與多家外媒的報導,DeepSeek-R2 的延遲主因傳言是中國政府的政策要求該公司採用華為自家研發的Ascend AI晶片取代原先使用的NVIDIA硬體作為模型訓練平台導致新模型難產。
中國 AI 全村的希望: DeepSeek-R1
DeepSeek在2025年1月開源釋出的DeepSeek-R1迅速吸引全球開發者目光。該模型最大的亮點在於成本與效能的完美平衡。根據資料顯示,其訓練成本僅為OpenAI類似推論模型「o1」的約3%,而且由於模型權重公開,任何人願意的話都可以自行復現,且因為開源的特性,任何使用者都可在伺服器或本地端執行,極大地降低了使用與部署門檻。
訓練由NVIDIA改用華為:DeepSeek R2開發受阻
然而,當全球市場期待R2再創佳績之際,DeepSeek卻陷入了技術與政策雙重壓力的泥淖。之前傳言預定在2025年5月推出新一代模型DeepSeek-R2,但截至8月中旬仍未發表,連原本的 V3 也僅進行了小幅度改版。
據《金融時報》引用知情人士透露,延遲的主要原因在於中國官方介入深度求索在模型訓練上的路線選擇。由於 R1 的成功,使中國當局更加堅定推動AI基礎設施國產化的政策,要求 DeepSeek 捨棄原本的 NVIDIA 的 GPU 與 CUDA 模型訓練模式,轉而採用華為的Ascend AI晶片與其配套軟體平台CANN(Compute Architecture for Neural Networks)。DeepSeek 在政策壓力下接受了這項要求,並開始以Ascend硬體進行R2的訓練工作。
據報導指出,DeepSeek在轉向Ascend平台後,立即遭遇諸多技術瓶頸,包括效能不穩、晶片間通訊延遲、以及CANN軟體框架功能受限等問題,使得模型訓練工作無法順利進行。儘管華為方面隨即派遣工程團隊進駐DeepSeek的資料中心,嘗試排除障礙,但整體訓練過程未曾成功完成。
一位內部消息人士直言:「從頭到尾都沒有成功過一次」,此語無疑揭示了本次平台轉換對DeepSeek造成的深遠衝擊。
DeepSeek解法:訓練靠NVIDIA,推理用華為
根據 《Tom’s Hardware》報導,在歷經數月技術嘗試與挫敗後,DeepSeek 最終採取了一種「混合方案」作為折衷:訓練階段回歸使用NVIDIA晶片,推理則繼續採用華為Ascend GPU進行。儘管DeepSeek在訓練階段改回 NVIDIA 平台,實際部署時仍須考量中國境內 NVIDIA 高階 GPU 晶片的短缺問題。由於出口限制與市場供應不穩,中國境內取得 NVIDIA 晶片的難度日益升高,使得將來 DeepSeek 在使用 R2模型時,仍不得不依賴華為的硬體設備。這樣的現實使得 DeepSeek 在設計 R2 模型時,必須確保其可順利在華為 Ascend 平台上執行推論工作,即便該平台並不適合訓練大型語言模型。
對此,《Tom’s Hardware》評論指出:「從商業部署角度來看,確保新模型可於華為硬體上運行,是必要且務實的選擇。」
DeepSeek 遇到的困境不只是單一的技術問題,而是中國AI產業在邁向技術自主可控的目標時所面臨的縮影。從研發晶片、構建軟體平台,到完善生態系統,中國政府試圖打造不受外部技術制約的完整AI供應鏈。然而,DeepSeek-R2 的延宕也顯示「理想很豐滿、現實很骨感」,中國當前的 AI 硬體能力與 NVIDIA 所建立生態還是存在著巨大落差。特別是在高階GPU領域,NVIDIA 在訓練效能、開發者生態與 CUDA 工具方面仍處於全球領先地位。儘管華為 Ascend 晶片已逐步應用於模型推理、語音識別、影像辨識等領域,但在訓練大規模語言模型(LLM)方面,其穩定性與效能與 NVIDIA 仍有一定差距,老黃應該可以繼續安心了。