华为在上海峰会上传递了一个简单信息:决定谁能扩规模的不是单纯的芯片,而是 AI 网络。公司的星河 AI Fabric 2.0 将交换机、光模块、编排软件和液冷机柜打包成面向大型 AI 集群的端到端数据中心织物。这既是一次产品发布,也是一个政策信号。在美国管控收紧并且对外部互连访问放缓的背景下,中国的建设重心正转向国内的 400G 和 800G 以太网。现在的问题是能否在规模上执行:华为的织物能否在满足中国能源和成本目标的同时,交付接近 Nvidia Infiniband 的性能。
去掉展厅的夸张表述,定位很清楚。华为希望掌控 AI 的管道,从 Ascend 加速器和 MindSpore 软件,到 CloudEngine 与 XH 系列交换机、StarryLink 光模块,以及具有 AI 感知的调度器。新的织物在“AI Connectivity(AI 互联)”和“AI Network Elements(AI 网络要素)”之上叠加“AI Brain(AI 大脑)”自动化工具,并宣称可实现 95% 的网络吞吐率和十倍的可靠性提升。这些是厂商数据;证明要来自真实运行的集群,而不是试验台。但这套栈很重要。中国官方媒体已将算力塑造成国家能力,关联到“新的质量生产力”。在上海世界人工智能大会上,Nvidia 缺席;华为的 Ascend 占据了主展位。盘古模型的开源旨在把开发者拉入国内栈,进而引导他们使用华为的硬件。在系统集成风险上升的市场中,单一厂商的织物是对地缘政治问题的商业化应对。
更有趣的转变是架构层面。过去中国互联网平台在顶级 AI 训练上倾向于使用 Nvidia 的 Mellanox Infiniband,因为其延迟低且软件成熟。出口管控和供应紧张使得带有 RDMA 的高速以太网的理由更为充分。华为押注经过无损特性和负载均衡算法定制的 800GE 以太网,能够弥合足够差距以满足大多数训练和几乎所有推理需求。其 XH 系列 800GE 交换机和光模块就是矛头。国内研究机构和工信部推动“算力网络”,标准朝着互操作、软件定义的以太网织物推进。难点在于整个栈:在 800G 的以太网上实现拥塞控制、遥测和可靠性,离开实验室条件很难完善。即便是中国科技媒体也承认,在集群规模上 Nvidia 仍然领先。如果华为的 NSLB(网络负载均衡)和“rock solid(牢不可破)”冗余在生产环境中如宣传那样有效,将会推动国家云和私有 AI 园区的性价比前沿。
北京一直在为此铺路。第十四个五年规划及其后续的数字经济规划要求新型基础设施和对齐双碳目标的数据中心升级。“东数西算”倡议鼓励算力向内陆土地与电力更便宜的省份流动,并通过高速网络连接东部需求。监管机构对数据中心的能效设定了更严格的基准,推动 PUE 降低并推动运营方采用液冷。华为的液冷 400G 和 800G 设备正好切入这一政策通道。电信、金融和能源等领域的采购规则偏好安全可控的技术,国内供应商在供应安全方面得分更高。结果是一个受保护的早期市场:省级算力中心、国企云和受监管行业最有可能成为中国 800GE AI 织物的首批买家——尤其是当它能降低集成风险并简化合规时。
硬件只是故事的一半。华为试图用一个编排层把网络织物做成“AI 原生”,它将作业映射到资源、跨安全域自动化配置并可视化瓶颈。这是试图将网络与工作负载绑定。公司在盘古开源上的姿态,以及在 MindSpore 和 Ascend 工具链上的持续投入,旨在降低那些本可能默认使用以 CUDA 为中心工作流的开发者的摩擦。但这里的开放是有边界的。中国的运营方运行着混合资产,有遗留的 IB 孤岛、白盒交换机和多个安全域。“在异构网络之上实现端到端自动化”的主张将在复杂且受合规约束的环境中接受考验。现实中的粘性将取决于华为的织物与非华为组件共存的能力,而不仅仅是其在全华为机架中运行得多么优雅。
采购团队会做总成本计算。在大规模 AI 集群中,网络在包含光模块时可能占到资本开支的 20% 到 30%。在 800G 下,光模块的费用往往是决定性因素。华为推动本地化 800G 模块并部署共封装或低功耗解决方案,目的就是压低这条曲线。如果国产光模块和交换机能提供稳定的良率和功耗预算,运营方就可以在不进口昂贵模块或消耗大量能量配额的情况下扩展。公司还将此与液冷配套以应对省级能耗上限。与此相对,采用国产光模块的白盒以太网仍然是价格压力点,H3C 等厂商不会轻易放弃市场份额。在出口受限的情况下,Cisco 和 Arista 在中国的 AI 建设中处于边缘地位,但软件成熟度和生态深度仍然重要。单一厂商的织物或许能减少集成难题,但长期可能带来锁定溢价;买家将要求有基准化的性能和透明的生命周期成本。
有三个不可忽视的风险。第一,出口管控仍然动态变化。即便 AI 网络设备受限程度低于加速器,高级 DSP 用于 800G 光模块、高端 FPGA 以及某些 SerDes 的 EDA 流程也可能在新一轮限制中被牵连。要为大规模激光器、调制器和 PAM4 芯片建立有韧性的供应链仍然是一项艰巨工程。第二,性能可信度。厂商宣称的 95% 吞吐率和 10 倍可靠性提升需要在数千节点、在真实拥塞环境下由第三方验证。没有这些验证,运营方会限制集群规模或在延迟波动影响模型收敛的场景中继续保留 Infiniband。第三,软件重力。尽管取得进展,Nvidia 的生态锁仍在拉力。中国企业在缩小差距,但在网络遥测、拥塞算法和调度器集成方面赶上来是一个多年项目。市场会通过部署情况来评判进展,而不是通过会议。
几个信号能显示 AI Fabric 2.0 是否超越了展厅演示。关注中国顶级云厂商和国企在生产训练中是否出现超过 2,000 个加速器的命名中标;关注工信部支持的算力网络和液冷标准是否从指导转为合规,以及华为的设计是否能与这些规范清晰对接。跟踪国内 800G 光模块的出货量与故障率;如果良率提高且价格下降,TCO 将向华为倾斜。最后,观察主要互联网平台在新建项目中是否逐步淘汰或限制 Infiniband。如果基于以太网的织物在“东数西算”的新建 AI 园区中占主导,华为的押注就会成功。否则,预计会出现混合资产和谨慎扩展。比赛的重点不是头条新闻式的芯片 TOPS,而是为中国 AI 时代进行布线那项持久且昂贵的工作。这正是华为试图占据的细分市场。