AI 時代互連技術戰爭,Slingshot 與 InfiniBand 在超大資料中心的比較

作者 | 發布日期 2026 年 02 月 18 日 8:00 | 分類 伺服器 , 網通設備 , 財經 line share Linkedin share follow us in feedly line share
Loading...
AI 時代互連技術戰爭,Slingshot 與 InfiniBand 在超大資料中心的比較

在高效能運算(HPC)與人工智慧(AI)的巔峰對決中,人們的目光往往聚焦於強大的 GPU 算力數據。然而,一場更為關鍵、長達二十年的「基礎設施戰爭」正在伺服器機櫃背後悄然發生轉折。根據最新的數據與產業分析,曾經被視為通用標準的乙太網路(Ethernet),正透過 Hewlett Packard Enterprise (HPE) 的 Slingshot 技術,成功逆襲並擊敗了長期由 Nvidia InfiniBand 主導的專有互連市場,成為 AI 超級運算的新霸主。

AI 時代互連技術是關鍵角色

每年兩次發布的 Top500 排行榜,是全球最強大超級電腦的競技場。這些名單展示了人類工程學的極限,但外界往往只關注處理器與 GPU 的型號。然而,真正的效能推手是經常被忽視的組件-互連技術(Interconnectivity)。

互連技術是將分散的 GPU 整合為一個超級大腦的神經網路。它負責以驚人的速度將工作負載從一個晶片轉移到另一個晶片,同時確保數據在傳輸過程中保持完整無損。若沒有強大的互連技術,再多的 GPU 也只是一堆孤立的硬體。在這個領域,兩大陣營的對抗已經持續了超過二十年。一方是通用的乙太網路(Ethernet),另一方則是專有的 InfiniBand。這場爭奪戰如同 F1 賽車手爭奪頒獎台席位一般激烈,雙方在不同時期都曾佔據主導地位。

乙太網路 vs. InfiniBand:開放與專有的對決

乙太網路是現代網際網路協議(IP)的基石,是業界最熟悉、定義最明確的標準。從區域網路(LAN)到廣域網路(WAN),乙太網路無處不在。在超級運算中,它同樣負責讓叢集內(Scale-up)或叢集間(Scale-out)的 GPU 進行數據傳輸。其最大的優勢在於「開放性」。乙太網路允許工程師輕鬆連接來自 AMD、Intel 甚至 Nvidia 等不同供應商的數百個 GPU 和硬體。由於其廣泛的可用性,絕大多數工程師都對其操作瞭若指掌。

相對地,InfiniBand 雖然技術上是開放標準,但在實務上已成為高度專有的產品,其生態系統幾乎完全由輝達 (Nvidia) 控制。Nvidia 在 2020 年收購了 InfiniBand 的領導者 Mellanox,進一步鞏固了其統治地位。InfiniBand 的優勢在於其與 Nvidia CUDA 軟體堆疊的深度整合,以及歷史上在超低延遲場景中的卓越表現。

這主要歸功於其原生支援遠端直接記憶體存取(RDMA)技術,該技術允許網路適配器直接在不同系統的記憶體之間傳輸數據,繞過 CPU,從而消除了處理開銷並降低延遲。憑藉這些優勢以及業界對 Nvidia 硬體的渴求,InfiniBand 直到 2023 年底仍佔據約 80% 的 AI 網路市場占比。

然而,當前局勢已經悄然改變。HPE 旗下的 Slingshot 互連技術,證明了乙太網路不僅能生存,更能稱王。根據 2025 年 6 月發布的最新 Top500 榜單,全球前 10 大最強大的超級電腦中,有 6 台使用了 HPE 的 Slingshot 技術。這份名單包括了佔據前三名的頂級系統,包括El Capitan、Frontier 和 Aurora。而且,這種統治力延伸至前 30 名,共有 12 個系統採用 Slingshot。

雖然從數量上看,InfiniBand NDR200 仍以 189 台系統佔據榜單最大占比,但在效能占比(Performance Share)這一關鍵指標上,HPE 最新的 Slingshot 11 已佔據 48.1% 的絕對優勢。相較之下,InfiniBand NDR200 僅佔 28.8%,其中包括英國最新的超級電腦 Isambard-AI ,也成為這一趨勢的見證者。該系統於 2025 年夏季啟用,隨即在 Top500 中空降第 11 名。它採用的正是 Slingshot 技術,透過 64 個端口提供高達 25.6 Tbps 的雙向頻寬。

乙太網路 Plus成為成功秘訣

HPE 高效能網路副總裁兼總經理 Mike Vildibill 曾公開揭示了 Slingshot 成功的關鍵策略,那就是「在內部像專有互連一樣運作,在邊緣則像乙太網路。」而回顧這項技術的基因,就是源自於 HPE 於 2019 年收購的超級運算先驅 Cray Research。

Vildibill 解釋道,當時Cray 的工程師們當年設想了一種大膽的架構,就是在網路邊緣保持與乙太網路的相容性與合規性,但在織物網路(Fabric)內部,則執行高度專業化的工作,這就是他們的大絕招。而且,他們也成功達成了這一點,最後將這種「乙太網路 Plus(Ethernet plus)」或「帶有轉折的乙太網路」推向了市場。這一策略度僅解決了傳統乙太網路在高效能運算中的痛點,同時保留了開放生態系統的優勢,讓運算商不必被單一供應商鎖定。

推動UEC 與 OCP產業標準化

隨著乙太網路在頂級效能戰場的勝利,產業正在迅速向開放標準靠攏。Dell’Oro Group 的研究預測,乙太網路將在未來幾年主導資料中心規模的織物網路市場,並在未來五年內推動近 800 億美元的交換機銷售金額。尤其,為了加速這一進程,兩大組織正在發揮關鍵作用:

開放運算計畫(OCP):成立了新的網路工作小組 ESUN,研究用於 AI 擴展的乙太網路。HPE 與 AMD、Meta 和 Microsoft 等大廠聯手,致力於構建開放、基於標準的乙太網路交換技術。

超乙太網路聯盟(Ultra Ethernet Consortium, UEC):這或許是影響最深遠的變革。UEC 致力於將乙太網路提升到新層次,其 1.0 規範將 InfiniBand 令人稱羨的 RDMA 支援導入乙太網路,在保持互操作性的同時提供低延遲傳輸。而作為 UEC 的創始成員,HPE 全力支持這項計畫。Vildibill 透露,UEC 的傳輸規範中,有高達 70% 的內容來自於 Slingshot 的智慧財產權。

Vildibill 表示,UEC 正在定義一個開放的產業標準,這本質上就是『乙太網路 Plus』。產業希望複製我們在 Slingshot 上所做的事情。但我們不是在與 UEC 競爭,我們是在擁抱它,因為這有助於實現我們將乙太網路推向所有領域的目標。

在極大規模中千錘百鍊成Slingshot異軍突起基礎

除了技術規格外,Slingshot 之所以能勝出,還在於其獨特的研發路徑。與大多數從小型網路開始並逐步擴展的網路產品不同,Slingshot 是「反其道而行」,從一開始就是為了世界上前所未見的最大型系統而設計的。Vildibill 指出,HPE 在收購 Cray 後交付的首批系統就是全球最大的超級電腦。這意味著他們面臨的是前人從未遇過的問題。

這種極端規模的測試,迫使團隊消除了在小規模下可忽略、但在大規模下會導致系統崩潰的邊緣情況(Edge cases)和錯誤。這種極致的查核造就了世界級的可靠性。Vildibill 總結指出,憑藉可靠性與彈性,其錯誤率都低得驚人,因為如果我們在如此巨大的規模下都能消除這些問題,那麼在小規模應用中,這些問題幾乎永遠不會發生。

因此,隨著當前 AI 運算需求的激增,營運商正急於尋找 InfiniBand 以外的開放替代方案。HPE Slingshot 的成功證明了乙太網路不僅能勝任 AI 超級運算的苛刻要求,甚至能在效能上超越專有技術。透過結合開放標準的靈活性與專有技術的高效能,再加上 UEC 等聯盟的推動,乙太網路正在重新定義 AI 基礎設施的未來,贏得了這場關鍵的超級運算戰役。

(首圖來源:pixabay)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》