Google 發表全新記憶壓縮技術 TurboQuant,記憶體占用銳減 6 倍、推理速度狂飆 8 倍

在生成式 AI 蓬勃發展的當下,大型語言模型的記憶體瓶頸一直是困擾產業的核心難題。隨著模型規模不斷擴大、上下文 … 閱讀全文 Google 發表全新記憶壓縮技術 TurboQuant,記憶體占用銳減 6 倍、推理速度狂飆 8 倍