AI 算力持續膨脹,但記憶體帶寬的成長速度遠遠追不上。即便是 HBM(高頻寬記憶體),也面臨功耗飆升、封裝成本高昂、散發熱量越來越大等問題。高通在 2026 投資者日上正式揭曉了全新架構 HBC(High-Bandwidth Compute),嘗試從根本改變 AI 加速器與記憶體的關係,不再依賴 HBM,而是把計算單元直接堆疊在 LPDDR 記憶體底下。
高通發表 HBC 近記憶體架構:把 AI 加速器塞進 DRAM 底下
記憶體牆:AI 推理的最大瓶頸
所謂「記憶體牆」(Memory Wall),是指記憶體帶寬的提升速度跟不上算力需求的增長。在大型語言模型推理場景中,這個問題尤其嚴重:每個 token 的生成都需要大量記憶體存取,當帶寬不足時,算力再強也無法充分發揮,同時功耗與 TCO(總擁有成本)持續攀升。
目前 HBM 是 AI 加速器的標準配備,但 HBM 的封裝工藝複雜(需要矽中介層)、設計成本高昂、功耗與發熱問題日益嚴重。高通的 HBC 架構選擇了一條不同的路:用 LPDDR 取代 HBM 作為記憶體選擇,透過 3D 堆疊將計算單元與記憶體緊密結合。
HBC 的運作原理
HBC 的核心設計是將專用的近記憶體加速器從 SoC 中獨立出來,堆疊在 LPDDR 記憶體堆疊的下方,兩者之間透過 TSV(矽通孔)直接連接。TSV 是一種垂直穿透矽晶圓的導電通道,能在極小的空間內實現晶片間的高速訊號傳輸,是 3D 封裝技術的核心工藝。
這種設計帶來幾個關鍵優勢:
- 延遲降至 SRAM 等級:由於計算單元與記憶體物理距離極近,資料傳輸路徑大幅縮短,延遲可降至傳統 SRAM 的水準
- 高密度、大容量:保留了堆疊記憶體的容量優勢,單位功耗容量是片上 SRAM 的 200 倍以上
- 避開 HBM 的痛點:不需要矽中介層(silicon interposer),封裝工藝更簡單,成本更低,功耗與發熱也更低
- LPDDR 成熟供應鏈:選擇 LPDDR 而非 HBM 作為記憶體介質,可利用現有的成熟製程與供應體系,降低量產風險
高通將 HBC 架構建立在四個技術基礎上:3D 整合領導力、系統級設計、LPDDR 技術領先、以及功耗效率專長。
官方數據:6 倍能效、200 倍容量
根據高通公布的數據,HBC 架構在關鍵指標上大幅超越現有方案:
- 單位功耗帶寬:是 HBM 的 5 至 7 倍
- 單位功耗容量:是片上 SRAM 的 200 倍以上
- HBC Gen1(AI250 加速器):每張加速卡有效帶寬達 133 TB/s,比前代 AI200 搭配 LPDDR5X 提升 18 倍
- HBC Gen2(AI300 加速器):有效帶寬較 AI200 提升 54 倍,單位功耗帶寬達 HBM 的 7 倍
產品路線圖:2027 年 Gen1、2028 年 Gen2
高通已公布明確的迭代時間表:
HBC 架構是高通「蜻蜓」(Qualcomm Dragonfly)資料中心產品體系的重要一環。整套平台面向生成式 AI 與智慧體算力需求,將 CPU、AI 加速器、近記憶體架構進行統一整合,目標是持續降低 AI 推理的單位算力成本。
並非原創概念,但高通率先給出時間表
近記憶體計算(Near-Memory Computing)的架構思路並非高通首創。許多儲存廠商與晶片設計公司都在研究類似技術,但多數未能大規模落地。
例如 ASIC 廠商智邦積體電路(GUC)近期推出了 DRAM-on-Logic(DoL)技術,在邏輯晶片上堆疊 1 至 4 層 DRAM,帶寬可達約 5 TB/s,甚至優於部分 HBM3E 方案。此外,SanDisk 也在探索將 NAND 與計算堆疊在同一晶片上的方案,試圖解決 HBM 短缺問題。三星電子近期也推出了 UFS 5.0 快閃記憶體,讀寫帶寬較 UFS 4.1 翻倍,顯示整個產業都在尋找突破記憶體瓶頸的路徑。
高通的差異化在於:它不只是展示技術原型,而是給出了具體的產品路線圖和量產時間表。HBC Gen1 搭配 AI250 加速器預計 2027 年中樣品測試,Gen2 搭配 AI300 預計 2028 年推出。這讓 HBC 從「實驗室概念」進入「可期待的產品」階段。
另外值得關注的是,JEDEC 近期也批准了 SPHBM4 標準,試圖用標準封裝取代 HBM 昂貴的矽中介層封裝,保留 HBM4 等級的速度。這代表業界正從多個方向同時突破記憶體牆問題。
優勢與限制
HBC 架構的優勢明確:
- 避開 HBM 的高成本封裝與高功耗問題
- LPDDR 成熟的供應鏈可降低量產風險
- 3D 堆疊實現計算與記憶體的緊密耦合
- 從架構層面解決記憶體牆問題,而非僅靠製程微縮
但也有明顯限制需要觀察:
- 絕對帶寬與容量不如 HBM:高通未公布具體數值,只強調「單位功耗」的優勢。在需要極致絕對帶寬的場景(如超大規模模型訓練),HBM 可能仍是首選
- 生態系尚未建立:目前沒有軟體生態或第三方支援,開發者需要時間適配新的架構
- 量產時間尚遠:Gen1 要到 2027 年中才開始樣品測試,真正規模化量產可能要等 2028 年以後
- 3D 堆疊散熱挑戰:將計算單元夾在記憶體與基板之間,熱管理會是工程上的重大挑戰
- 與既有生態的相容性:現有的 AI 框架與軟體棧都是圍繞 HBM 設計的,HBC 需要證明其軟體相容性
對 AI 產業的意義
HBC 的出現代表一個重要趨勢:AI 計算的瓶頸正從「算力不夠」轉向「記憶體帶寬不足」。當 GPU 和 AI 加速器的算力持續以倍數成長時,記憶體帶寬的提升速度卻遠遠落後,形成所謂的記憶體牆。高通選擇從架構層面而非製程層面來解決這個問題,用 3D 堆疊重新定義計算單元與記憶體的空間關係。
如果 HBC 能如期在 2027 年交付並驗證其效能承諾,它將為 AI 推理市場提供一個不同於 HBM 的技術路線。這對整個供應鏈也有深遠影響:SK 海力士和三星目前是 HBM 市場的主導者,而 HBC 以 LPDDR 為基礎,可能改變記憶體產業的競爭格局。SK 海力士近期已宣布將優先生產 DDR5 通用型 DRAM,顯示 HBM 的高利潤時代正面臨結構性變化。





