Huawei 的 AI Fabric 2.0 瞄準中國的運算擴建

發佈于: 9 月 22, 2025
編輯: Jian Wu

Huawei 在上海高峰會上傳達了一個簡單訊息:決定誰能擴展的不是只有晶片,而是 AI 網路。公司推出的 Xinghe AI Fabric 2.0 將交換機、光學元件、編排軟體與液冷機櫃打包成端到端的資料中心網路,目標是大型 AI 叢集。這既是產品發表,也是政策訊號。在美國控制收緊與對外互聯存取放緩的情況下,中國的建設正轉向採用國產 400G 與 800G 的 Ethernet。現在的問題是能否在大規模執行層面達成:華為的 fabric 能否在滿足中國能源與成本目標的同時,提供接近 Nvidia 的 Infiniband 的效能。

策略而非規格

去掉展示場上的浮誇用語後,定位很清楚。華為想掌握 AI 的「管線」,從 Ascend 加速器與 MindSpore 軟體到 CloudEngine 與 XH 交換機、StarryLink 光學與對 AI 感知的排程器。新的 fabric 在「AI Connectivity」與「AI Network Elements」之上疊加「AI Brain」自動化工具,宣稱可達到 95% 的網路吞吐率與十倍可靠性提升。這些是供應商的數據;要驗證還得看實際叢集,而非測試床。不過這套堆疊很重要。中國官方媒體已將計算力框定為一項國家能力,與「新質生產力」掛鉤。在上海世界人工智慧大會上,Nvidia 缺席;華為的 Ascend 佔了主展區。Pangu 模型的開源旨在把開發者拉到國內的堆疊,進而拉動華為的硬體。在系統整合風險上升的市場中,單一供應商的 fabric 是對地緣政治問題的一個商業回應。

Ethernet 在中國 AI 互連中的崛起

更有趣的轉變是架構層面。中國的網路平台過去在高階 AI 訓練上傾向使用 Nvidia 的 Mellanox Infiniband,因為其低延遲與成熟的軟體。出口管制與供應緊張讓具備 RDMA 的高速 Ethernet 的論點更為堅實。華為押注經過無損特性與負載平衡演算法調校的 800GE Ethernet,能在大多數訓練與幾乎所有推論場景縮小差距。其 XH 系列 800GE 交換機與光學元件是矛頭。國內研究機構與工業和資訊化部推動「算力網」,標準傾向於可互通、軟體定義的 Ethernet fabric。問題在於堆疊:在 800G 下的擁塞控制、遙測與可靠性在實驗室外很難完美。即便中國科技媒體也承認在叢集規模上仍以 Nvidia 領先。如果華為的 NSLB 與「rock solid」冗餘在生產環境中如廣告所述奏效,將會推動國家雲與私有 AI 園區的性價比前沿。

政策順風與五年規劃

北京一直在鋪路。第十四個五年規劃與後續的數位經濟規劃主張新型基礎設施與資料中心升級,並與雙碳目標對齊。「東數西算」倡議鼓勵算力流向地價與電價較低的內陸省份,並透過高速網路連結沿海需求端。監管機構為資料中心設定了更嚴的能效基準,推動降低 PUE 並促使營運者採用液冷。華為的液冷 400G 與 800G 設備正好對接這條政策通道。電信、金融與能源等領域的採購規則偏好安全且可控的技術,在供應安全性上國產廠商得分較高。結果是一個被套牢的早期市場:省級算力樞紐、國企雲與受管制產業是中國 800GE AI fabric 的可能首批買家——尤其是在它能降低整合風險並簡化合規時。

生態系與開放性將決定黏著度

硬體只是故事的一半。華為正試圖以一層編排層讓其網路 fabric 成為「AI 原生」,將工作映射到資源、跨安全域自動配置並視覺化瓶頸。這是綁定網路與工作負載的嘗試。公司在 Pangu 的開源姿態,以及對 MindSpore 與 Ascend 工具鏈的持續投資,旨在降低開發者轉向以 CUDA 為中心工作流程的摩擦。但這裡的開放性是有界的。中國的運營者運行混合資產,有舊有的 IB 隔島、白牌交換機與多個安全域。「異構網路上的端到端自動化」的宣稱將在複雜且受合規約束的環境中受到考驗。實際的黏著度取決於華為的 fabric 與非華為元件共存得有多好,而不僅是它在全華為機櫃中運行得多優雅。

中國 AI 建設中 800GE 的經濟學

採購團隊會做總成本核算。在大型 AI 叢集中,當把光學器件算進去時,網路可能佔資本支出的 20% 到 30%。在 800G 下,光學帳單通常是關鍵因素。華為力推本地化 800G 模組並部署共封裝或低功耗方案,就是為了壓低那條曲線。如果國產光學與交換機能穩定達成良率與功耗預算,營運者就能在不進口昂貴模組或不透支能耗配額的情況下擴展。公司將此與液冷搭配以符合省級能耗上限。相對地,採用國產光模的白牌 Ethernet 仍是價格壓力來源,H3C 與其他業者不會輕易放棄市占。在出口管控下,Cisco 與 Arista 在中國的 AI 擴建上較為邊緣化,但軟體成熟度與生態深度仍很重要。單一供應商的 fabric 可能降低整合難題,但同時也會隨時間產生鎖定溢價;買方會要求有基準測試的效能與透明的生命周期成本。

風險:管制、元件與可信度

有三項風險難以忽視。首先,出口管制仍在變動。即便 AI 網路較加速器受限較少,面向 800G 光模的先進 DSP、高端 FPGA 與某些 SerDes 的 EDA 流程仍可能被新一輪限制牽涉進去。要為雷射、調製器與 PAM4 晶片建立大規模韌性供應鏈仍是一場磨練。第二,效能可信度。供應商宣稱的 95% 吞吐與 10 倍可靠性提升需在數千節點、真實擁塞情況下由第三方驗證。若無此,營運者將限制叢集規模或在延遲突增影響模型收斂的場景下保留 Infiniband。第三,軟體重力。儘管已有進展,Nvidia 的生態鎖定仍具吸引力。中國廠商正縮小差距,但在網路遙測、擁塞演算法與排程器整合方面追上需數年時間。市場會以部署結果而非會議發言來評估進展。

2025 年要觀察的指標

幾個訊號會顯示 AI Fabric 2.0 是否不只是展示間的展示。留意中國頂級雲供應商與國企是否有公開中標案例,且叢集規模超過 2,000 個加速器並執行生產訓練。關注工業和資訊化部支持的算力網與液冷標準是否從指導性文件轉為合規要求,以及華為的設計是否能清楚映射到那些規範。追蹤國產 800G 光學的出貨量與故障率;若良率提升且價格下跌,總擁有成本將傾向華為。最後,觀察主要網路平台在新建項目中是否退役或限制 Infiniband。若基於 Ethernet 的 fabric 在「東數西算」下的新增 AI 園區中占主導,華為的押注就會成功;若否,預期會有混合資產與謹慎擴展。這場競賽不只是關於頭條晶片 TOPS,更多是關於為中國 AI 時代佈線那項穩定且昂貴的工作。那正是華為想要掌握的利基。

人工智能 清潔能源