
開放運算計畫全球峰會(OCP Global Summit),輝達 (NVIDIA) 帶來 GW 等級人工智慧(AI)工廠的未來發展,包括 NVIDIA Vera Rubin NVL144 MGX 新世代開放式架構機架伺服器、新世代 800 伏特直流電設計,以及擴大的 NVIDIA NVLink Fusion 生態系。
在 NVIDIA Vera Rubin NVL144 MGX 新世代開放式架構機架伺服器的規格中,超過 50 家 MGX 夥伴正為此投入準備工作,同時為 NVIDIA Kyber 提供生態系支援。NVIDIA Kyber 可連結 576 顆 RubinUltra GPU,以因應與日俱增的推論需求。
另外,逾 20 家產業夥伴正展示新一代晶片、零組件與電源系統,以及對百萬瓩級新世代 800 伏特直流電(VDC)資料中心的支援,這些資料中心將支援 NVIDIA Kyber 機架架構。鴻海科技集團公布其位於台灣的 800 VDC、40 MW 資料中心 Kaohsiung-1 的細節。CoreWeave、Lambda、Nebius、Oracle Cloud Infrastructure 與 Together AI 等廠商也在設計 800伏特資料中心。
此外,Vertiv 發表節省空間、降低成本且高效節能的 800 VDC MGX 參考架構,一套完整的供電與冷卻基礎設施架構。而 HPE 宣布其產品將支援 NVIDIA Kyber 及 NVIDIA Spectrum-XGS 乙太網路擴展,屬於 Spectrum-X 乙太網路平台的一部分。
NVIDIA 表示,由傳統的 415 或 480 伏特交流電(VAC)三相系統轉向 800 VDC 基礎設施,可提高資料中心的可擴展性、提升能源效率、減少材料使用並增加效能。電動車與太陽能產業已採用 800 VDC 基礎設施,以獲得類似效益。而由 Meta 創立的開放運算計畫是一個由數百家運算與網路供應商組成的產業聯盟,更專注於重新設計硬體技術,以有效支援日益增長的運算基礎設施需求。
為 AI 工廠而生的擴展設計 Vera Rubin NVL144
Vera Rubin NVL144 MGX 運算托盤(compute tray)採用節能、100% 水冷的模組化設計。其中央的印刷電路板中介背板取代傳統線纜連接,達到更快的組裝與維護,並配備模組化擴充插槽,以支援 NVIDIA ConnectX-9 800GB/s 網路與 NVIDIA Rubin CPX 大規模情境推論。在此基礎上,NVIDIA Vera Rubin NVL144 在加速運算架構與 AI 效能上帶來重大躍進,專為進階推理引擎與 AI 代理需求打造。
NVIDIA Vera Rubin NVL144 還以 MGX 機架架構為核心,並將獲得超過 50 家 MGX 系統與零組件夥伴的支援。NVIDIA 計劃將升級版機架及運算托盤創新貢獻給 OCP 聯盟作為開放標準。OCP 聯盟的運算托盤與機架標準,能讓夥伴能以模組化方式自由搭配,並隨架構擴展而更快地擴展。Vera Rubin NVL144 機架設計採用節能的 45°C 水冷系統,配備新型液冷匯流排提升效能,並增加 20 倍的儲能容量,確保供電穩定。MGX 對運算托盤與機架架構的升級,提升 AI 工廠效能,同時簡化組裝程序,從而能夠快速建構百萬瓩級AI 基礎設施。
NVIDIA指出, NVIDIA 是橫跨多世代硬體 OCP 標準的主要貢獻者,其中包含 NVIDIA GB200 NVL72 系統關鍵的機電設計部分。相同的 MGX 機架規格不僅支援 GB300 NVL72,未來更將支援 Vera Rubin NVL144、VeraRubin NVL144 CPX 與 Vera Rubin CPX,以實現更高效能與更快速的部署。
NVIDIA Kyber 創造新世代機架伺服器
OCP 生態系也正在為 NVIDIA Kyber 做準備,創新處在於導入 800 VDC 供電、水冷與機械設計。這些創新將推動邁向 NVIDIA Kyber 機架伺服器世代的轉型。NVIDIA Kyber 是接替 NVIDIA Oberon 的平台,預計在 2027 年搭載容納 576 顆 NVIDIA Rubin Ultra GPU 的高密度平台。應對高功率配電挑戰最有效的方式是提高電壓。由傳統的 415 或 480 VAC 三相系統過渡到 800 VDC 架構可帶來多重效益。這項轉型讓機架伺服器夥伴得以把機架內部的 54 VDC 元件升級至 800 VDC,以獲得更佳成果。
NVIDIA Kyber 是專為提升機架內 GPU 密度、擴展網路規模,並將大型 AI 基礎設施的效能極大化設計。透過將運算刀鋒 如同書架上的書本般垂直旋轉排列,Kyber 每部機箱最多可容納 18 組運算刀鋒,同時透過無線中介背板在機箱後方整合專用的 NVIDIA NVLink 交換刀鋒,實現無縫的擴展網路
而使用 800 VDC 後,相同銅線可傳輸 150% 以上的電源,無需再以 200 公斤重的銅母線來為單一機架供電 Kyber 將成為超大規模 AI 資料中心的基礎元素,在未來幾年為最先進的生成式 AI 工作負載帶來卓越效能、效率與可靠性。NVIDIA Kyber 機架可協助客戶減少數噸級銅材用量,進而節省數百萬美元的成本。
NVIDIA NVLink Fusion 生態系擴大,英特爾與三星代工也加入
除了硬體層面,NVIDIA NVLink Fusion 正加速發展,協助企業把半客製化晶片無縫整合至高度最佳化且廣泛部署的資料中心架構,從而降低複雜度並加速上市時程。包括英特爾與三星晶圓代工加入 NVLink Fusion 生態系,系涵蓋客製化晶片設計商、CPU 與 IP 夥伴,協助 AI 工廠快速擴展,以處理模型訓練與代理型 AI 推論等高強度工作負載。
依據近期宣布的 NVIDIA 與英特爾合作計畫,英特爾透過 NVLink Fusion 建構可整合至 NVIDIA 基礎設施平台的 x86 CPU。另外,Samsung Foundry 與 NVIDIA 合作,以滿足日益成長的客製化 CPU 與客製化 XPU 的需求,為客製化晶片提供從設計到製造的全流程經驗。
擴展下代 AI 工廠,開放生態系不可或缺
NVIDIA 表示,超過 20 家合作夥伴正協力提供採用開放標準的機架伺服器,促成未來的百萬瓩級 AI 工廠。包括:
晶片供應商:Analog Devices,Inc.(ADI)、AOS、EPC、Infineon、Innoscience、MPS、Navitas、onsemi、Power Integrations、Renesas、立錡科技、ROHM、STMicroelectronics、Texas Instruments。
電源系統零組件供應商:BizLink、台達、Flex、GE Vernova、Lead Wealth、光寶科技、Megmeet。
資料中心電源系統供應商:ABB、Eaton、GE Vernova、Heron
(首圖來源:科技新報攝)