我们把 AI 革命建立在我们无法掌控的芯片上。这不是夸张,而是一个设计缺陷。据报道,Nvidia 新一代 Blackwell 处理器的订单超过 360 万枚,其中大部分被最大的一些云服务商锁定。Nvidia 控制着大约 94% 的 GPU 市场,并且最近披露有两位未具名客户占其季度收入的 39%。OpenAI 的财务主管今年把此前的隐晦说了出来:需求极度旺盛,而产能跟不上。AI 网格更像私有而非公共,更集中而非多样,更脆弱而非健壮。这不是代码的问题,虽然人人谈开源模型,但瓶颈在于芯片的物理限制、配给的政治以及单一供应商架构的经济学。当计算成为瓶颈时,隐形之手就变成了显而易见的排队系统。
现在有少数公司实际上成为 AI 进步的守门人。他们决定谁能租用 GPU、以什么价格以及在什么条款下使用。这在法律意义上未必是卡特尔,但结果上却近似卡特尔。价格居高不下,供应持续紧张,缺乏规模的玩家被排斥在外。这种转变带来真实的二阶影响:它决定哪些研究路径获得资助,谁能在前沿构建能力,也放大了运营失误的冲击范围。我们已见识到集中化工具如何放大风险。Microsoft 自己的安全专家警告称 AI 助手常常继承透传权限,导致本不该看到数据的员工获得访问权。把算力和数据集中在少数几个地点,就是在设计共模失效。一个权限错误就能成为全公司范围的泄露向量。Signal 的总裁去年明确总结了权力的转移:只有少数几家公司能训练并部署大规模系统,这赋予了它们对机构巨大的影响力。投资者喜欢相信这种集中是暂时的,但历史并不支持这种乐观。在电力、石油和电信领域,基础设施垄断具有粘性,不会自行消散,需要冲击、监管或替代浪潮来改变格局。
在博弈论中,当资源稀缺、控制收益高且竞争对手被视为可信威胁时,囤积就成为占优策略。这恰好描述了 GPU 市场。云服务商提前购买库存、锁定长期供给,并通过宣布新数据中心互相威慑。初创公司为无法完全利用的容量预付,希望保住生存选项。个体理性的举动造成了集体的非理性结果:高峰时期短缺、低谷时浪费。这是硅产业的牛鞭效应。心理层面也很熟悉:在淘金热中,你不会问镐子是否被高估,你只希望下一个矿工出更高价。但算力不是软件,它是钢铁、土地、电力和物流。它移动缓慢且常成簇失败。穿过少数晶圆厂、少数内存供应商和狭窄的先进封装线的供应链具有厚尾风险。一次停产不是风险的简单叠加,而是乘法效应。即便需求端也是相关的:如果一次模型突破提高了推理负载,大家的工作负载会同时激增。当相关性高时,冗余只是幻觉。多云策略仍依赖相同的硬件供应商和相同的上游瓶颈。概率论并不令人安慰:共同依赖导致失效模式共线化。结论简单且令人不舒服:市场在优化速度而非韧性。当周期反转、产能闲置,或地缘政治事件一夜改变供应路径时,账单便会到期。
算力现在成了国家治理手段。欧洲、亚洲和非洲的政府谈论 AI 主权,因为他们理解杠杆不在于数据集或模型权重,而在于谁控制兆瓦级电力和芯片。中国在谋求 AI 计算的自给自足,目标在五年内高达 90%,即便只部分实现,也会重塑全球资源分配图谱。当大国各自构建独立的技术栈时,市场分裂,对冲成本上升。私人市场的默认反应是加倍押注规模。然而没有多样性的规模就是脆弱。一个有韧性的系统看起来应不同:混合硬件类型、多元化供应商、在可能的情况下将负载推向边缘、并采用节省计算的算法。最后一点在当前叙事中是禁忌。我们把参数量和训练 token 当作 GDP 来庆祝,但有时反脆弱的选择是更小的、设备端的或领域特定的模型。投资者的视角应从模型总规模转向每项有用任务的单位经济学和每个正确输出的能耗。能源是速率限制因素。比特币矿工今天运营着数十吉瓦的电力。这种规模是通过透明激励和残酷的成本纪律建立起来的。把这种类比套用到 AI 上很有诱惑力,也确实有团队在尝试移植这种模式。
像 Gonka 提出的去中心化网络试图把闲置 GPU 变成一个社区电网。这个想法借鉴了比特币的开源算力市场。抱负高尚,如果能在规模上奏效,或许能缓解集中化。但我们应对设计挑战保持诚实。Galaxy Research 发现去中心化网络在某些工作负载上有胜出可能,但验证和可靠性极难保障。非营利组织 EPOCH AI 将其称为分布式系统的悖论:系统越开放,越需要协调和验证。换言之,你以垄断风险换取了协调风险。这不一定更好,只是风险谱系不同。Libermans 表示他们回避像委托这样的特性以减轻中心化压力。纸面上这有帮助,但资本密集度有自身的引力。有钱可赚之处就会出现池子、规则被操纵,效率前沿围绕资本雄厚和廉价能源的玩家收窄。单靠技术无法拯救治理。在开放系统中,激励设计和可审计性不是附加项,而是核心产品。没有这些,开放只是一层薄薄的表皮,下面仍是旧有的等级结构。
市场把 GPU 当作 2007 年的石油来对待:认为高价将永远持续,并且增长只有一条路。市场低估了两类风险。第一,来自集中化的安全外部性。你通过少数平台运行越多代码和数据,就越容易招致系统性泄露。当前一代 AI 助手已经展示了意外过度暴露内部信息的危险。第二,更高效算法带来的需求弹性。认为只有更多芯片才能推动进步,对卖方来说是一个方便的故事。但计算史显示,会有周期性的冲击使软件效率重置曲线。编译器突破、剪枝、蒸馏、检索增强和专用模型都能减少对大规模训练的需求。如果这些进展与新供给在同一时间线上发生,市场从饥荒转为供过于求会比资本开支回收期预测得更快。投资者不应赌软件优化不会到来,而应把它建模进去。
如果算力是新的电网,我们应当从电网工程中吸取教训。不要依赖单一电厂承担基础负荷。要混合能源来源、建立故障保护并为部分失效做设计。对 AI 来说,这意味着三个务实的转变。超越单一供应商和单一内存技术,去多样化硬件栈;在使用去中心化网络时把验证推到协议层,这样工作可以在不信任执行者的前提下被审计;并把激励与可靠性而非仅仅贡献对齐,让网络奖励用户真正需要的东西。这些都不像一个新模型规模或大规模 GPU 订单那样吸睛。它们更慢,也不那么光鲜。但能存活下来的系统很少光鲜:它们平凡且冗余。开放算力运动不会靠念开源口号成功,而会靠吸收市场、工程与历史的教训成功:集中在有效时很有利,直到不再有效;稀缺会造成扭曲行为;韧性要通过早在危机之前做出的微小决策构建起来。残酷的真相依旧:今天谁拥有芯片,谁就掌控创新的节奏。聪明的资本不只是问如何买更多,而是问如何需要更少、证明更多,并减少依赖单点故障。