以往在 AI 領域 NVIDIA 的 GPU 因其高算力與生態壁壘,是該領域的絕對王者,幾乎所有大型 AI 都離不開 GPU,不過根據《路透社》報導,業界龍頭 OpenAI 已開始租用 Google 的 TPU 人工智慧晶片,以支援其旗艦產品 ChatGPT 及其他 AI 模型的運作。這不僅標誌著 OpenAI 首次大規模採用非 NVIDIA 晶片進行推理與訓練。
為降本增效,OpenAI 開始使用 Google Cloud 的 TPU AI 雲端服務
OpenAI 長期以來是 NVIDIA 圖形處理器(GPU)最大的企業客戶之一,這些 GPU 是訓練大型語言模型(如 GPT-4)與進行推論運算(Inference)的核心硬體。推論運算指的是模型經過訓練後,在接收到新資料時進行預測與決策的過程,是實際部署 AI 應用的關鍵。然而,面對 AI 模型日益龐大的計算需求與高昂的運算成本,OpenAI 也在尋求多元化其硬體供應來源。根據報導,OpenAI 近期已與 Google Cloud 展開合作,租用其張量處理器(TPU),藉此分散對 NVIDIA 晶片與主要投資者微軟(Microsoft)資料中心的依賴。
Google 張量處理器(TPU)首次對外大規模開放
Google 此次與 OpenAI 的合作,正值其積極擴展 TPU 對外開放之際。TPU 是 Google 自行研發的 AI 加速晶片,長期以來僅供內部產品使用,如 Google Search、YouTube 推薦系統與 Bard(現稱 Gemini)等。但近年來,Google 開始將 TPU 商業化,並向外部客戶提供雲端租用服務。
這項策略已吸引包括 Apple、Anthropic(由 OpenAI 前成員創立)與 Safe Superintelligence 等科技公司與新創業者加入其客戶行列。而 OpenAI 的加入,則進一步鞏固 Google 在 AI 雲端基礎設施市場的競爭地位。根據報導,這是 OpenAI 首次「有意義地」使用非 NVIDIA 的 AI 晶片,且顯示其正逐步降低對微軟 Azure 雲端平台的依賴。值得注意的是,微軟不僅是 OpenAI 的最大股東之一,同時也是其主要雲端服務供應商。
OpenAI 此舉背後的核心考量之一,是希望透過 TPU 降低 AI 模型推論階段的運算成本。隨著 ChatGPT 使用量激增、開放 API 應用越來越多,以及企業客戶導入模型進行日常業務操作,推論成本迅速攀升,已成為 OpenAI 擴展服務的一大財務壓力。相較之下,Google 的 TPU 在某些特定應用中具備較高的能源效率與成本優勢,尤其是推論作業量大、模型穩定度高的場景。然而據報導指出,Google 並未將其最先進的 TPU 技術租賃給 OpenAI,顯示雙方的合作仍有界線,並未觸及核心機密技術層面。
Google 與 OpenAI 本質上仍是 AI 領域的直接競爭者。OpenAI 透過 GPT-4 與 ChatGPT 主導了生成式 AI 熱潮,而 Google 則持續推進 Gemini 模型與其整合式 AI 生態系,包括 Google Workspace、Android 與搜尋引擎功能的強化。然而這樁合作突顯了雲端基礎設施供應商與 AI 服務開發者之間日益緊密卻微妙的依賴關係。對 Google 而言,吸引包括競爭對手在內的大型 AI 客戶上雲,是擴大其雲端事業版圖的策略之一,也有助於分散雲端營收過度仰賴自家服務的風險。
值得注意的是,在 Google 雲端營收持續落後於 Amazon AWS 與 Microsoft Azure 的背景下,這種策略不啻於是一種破局之道。吸引 OpenAI 這樣的頂級 AI 用戶,不僅是技術實力的背書,更可能推動更多 AI 初創公司跟進採用 Google TPU 生態系,擴大其市場滲透率。
微軟與 NVIDIA 面臨的挑戰
這項發展對微軟與 NVIDIA 來說,或許是一次明確的警訊。微軟過去大力支持 OpenAI,不僅在資金上給予數十億美元的投資,也將其模型整合至 Azure 與旗下產品(如 Copilot 系列)中。然而隨著 OpenAI 展現更大程度的自主性,其對運算資源與策略合作對象的選擇,也將逐步走向多元化。
對 NVIDIA 而言,雖然目前仍為全球最具領導地位的 AI 晶片供應商,但晶片供應短缺、價格高昂與各家雲端業者自研晶片的趨勢,正逐步侵蝕其市場壟斷地位。業內開始擴大使用 Google TPU ,或許尚未對 NVIDIA 構成直接威脅,但確實顯示市場已出現可行替代方案。