TurboQuant 能帶來容量釋放，卻無法拯救記憶體高價地獄

Google 近期正式發表了一項名為 TurboQuant 的全新人工智慧資料壓縮技術，承諾能夠大幅減少伺服器在執行 AI 模型推論時所需的記憶體容量。儘管許多人寄望 TurboQuant 能成為拯救記憶體價格暴漲、解決記憶體短缺的救星。但專家與市場分析指出，這項技術雖然能為更廉價的 AI 推論打好基礎，卻無望真正將記憶體從高昂的價格地獄中解救出來。儘管如此，這項底層技術對於模型開發者與推論服務提供商而言，依然具有重大的深遠影響。

根據 Google 研究人員在近期部落格文章中的詳細說明，TurboQuant 本質上是一種量化（Quantization）方法，目的在將生成式 AI 中使用的高精度資料壓縮至較低精度。然而，與大多數直接縮減 AI 模型本身體積的量化技術不同。TurboQuant 的核心目標在於減少儲存鍵值快取（Key Value caches，簡稱 KV caches）所需的記憶體容量，這些快取主要用於在大型語言模型（LLM）推論期間維持對話的上下文脈絡。

簡而言之，KV 快取就像是大型語言模型的短期記憶。以聊天對話為例，模型正是透過 KV 快取來追蹤並記住使用者的對話過程。這個環節最棘手的問題在於，這些 KV 快取的資料量會迅速堆疊，其所消耗的記憶體甚至經常超越 AI 模型本身的龐大體積。在傳統架構下，這些 KV 快取通常以 16 位元的精度進行儲存。如果能將儲存鍵值所需的位元數縮減至 8 位元甚至 4 位元，就能將記憶體需求降低 2 到 4 倍。

雖然 TurboQuant 成功讓 KV 快取量化技術受到矚目，但這個核心概念其實並不新奇，業界常見的作法是推論引擎會基於上述考量，將 KV 快取儲存為 FP8 格式。然而，這種量化過程通常必須付出代價，就是精度的降低意味著儲存鍵值所需的位元變少，隨之減少的記憶體往往會導入額外的效能。

TurboQuant 的重大創新正是在於解決了品質與效能的折衷問題。Google 宣稱，這項技術僅需使用 3.5 位元，就能達成與 BF16 精度相仿的品質，同時還能大幅減輕那些惱人的效能負載問題。更令人驚豔的是，在 4 位元設定下，當計算用於決定上下文資訊重要性的注意力分對數（attention logits）時，TurboQuant 在 Nvidia H100 晶片上展現了高達 8 倍的速度提升。

而且，研究人員並未止步於此，他們在測試中發現，可以將 KV 快取極限壓縮至僅 2.5 位元，且品質損失微乎其微。Google 所宣稱「能降低至少 6 倍記憶體消耗」的驚人數據，正是源自於此項測試結果。

鑑於 TurboQuant 高達 6:1 的驚人壓縮比，華爾街許多分析師最初便將記憶體製造商近期股價的下挫，歸因於這項壓縮技術的問世。然而，儘管這項技術確實有望讓 AI 推論叢集的運作變得更有效率、進而降低營運成本，但它極不可能真正遏止業界對用於儲存 KV 快取的 NAND 快閃記憶體與 DRAM 的龐大需求。

回顧一年前，如 DeepSeek R1 這樣的開放權重模型，其提供的上下文長度（context windows）大約落在 64,000 到 256,000 個詞元（tokens）之間。時至今日，市場上具備超過一百萬個詞元上下文長度的開源模型已不再罕見。而 TurboQuant 帶來的記憶體節省，為推論服務供應商帶來了兩種選擇，一是使用更少的記憶體來維持現有模型服務，二是利用省下來的空間來提供具備更龐大上下文長度的 AI 模型。考量到程式碼助理以及像 OpenClaw 這類代理式 AI 框架正不斷推升對超長上下文的強烈需求，選擇後者顯然是產業界更可能採取的發展方向。

對此，市場研究機構 TrendForce（集邦科技）在本週稍早發布的一份報告中，他們預測 TurboQuant 非但不會抑制記憶體需求，反而會成為激發長上下文應用程式蓬勃發展的催化劑，並進一步推動市場對更多記憶體的強勁需求。因此，期望靠著單一壓縮技術來緩解全球記憶體價格壓力的願景，短期內恐難以實現。

(首圖來源：Pixabay)