科技最聰明的實驗室能打造會撰寫程式、跨領域推理的系統,但它們通不過自己設計的安全考試。最新的 AI Safety Index 將前沿公司在核心防護上評為 C 與 D 級,並在存亡風險(existential risk)項目上給出不及格分數。悖論很簡單:當能力累積時,紀律與治理卻落後。市場為發佈喝采,而非為自我克制鼓掌。脆弱系統就是這樣藏起來——在成長曲線、紙上承諾,以及把護欄視為稅賦而非必要的文化之下。
該指數直白明確。Anthropic 為 C+、OpenAI 與 Google 約為 C,其他—Meta、xAI 以及主要中國實驗室—則集中在 D 範圍內。沒有人能通過存在性安全。自去年以來唯一改善的大多是文件化。文件化不是控制。在工程上,檢查表應該跟隨根本原因分析;檢查表不能取代金屬學、冗餘或設計裕度。風險存在於尾端,而非文件上。當最重要的一類能力——能否將超智慧系統維持在界限內——整體上皆未通過,實務上的結論是:今天的安全姿態不過是個手套箱內的說明書,對一輛會自駕衝下懸崖的車毫無用處。
一位核心審查員提出明顯卻令人不舒服的觀點:將黑箱系統擴大化、以龐大資料訓練,可能在結構上無法給予公眾所期望的保證。這與其說是哲學主張,不如說是驗證問題。我們不知道大型系統在部署時真正優化的是什麼、在分佈轉移下如何泛化、或在有對抗性激勵時如何行為。紅隊壓力測試與 model cards 有其用處,但它們不是適航證。在航空或核能領域,安全關乎可證明的約束、隔離與失效梯度。在 AI 領域,我們大多獎勵窄基準上的表面行為,然後外推。Goodhart 定律會完成剩下的:優化指標即扭曲原本要衡量的現實。
高層承認集體行動陷阱:沒有人可以單獨放慢腳步。這就是囚徒困境赤裸裸地呈現。若不受約束,報酬矩陣會推動實驗室去上線、行銷並反對具約束力的規範。有了可執行的標準,誘因會反轉:只要過關,誰先部署誰贏。這也是藥品試驗、飛機認證與核安如何運作。相比之下,今日美國的 AI 監管仍不如餐館,政策制定者與公眾皆非毫不察覺。結果是教科書式的監管套利。公司將系統性風險外部化,同時收割私人利潤。稱之為市場失靈並非意識形態;這是簡單的微觀經濟學。當責任分散、價格不足且被延遲時,從內部看加速是理性的選擇,但從外部看則是魯莽的。
投資者習慣為動量、選擇權性與規模定價。他們在模型中折現低頻災難,因為那看起來像模型中的沉重負擔。但 AI 風險不是平滑函數。它存在於胖尾、冪次定律與相關失敗中。當事情出問題時,會一起崩壞——資安漏洞、錯誤資訊級聯、自動化詐欺、模型外洩,以及在最壞情況下,對關鍵系統失去人類控制。問問 Boeing,安全債務要多久才會在資產負債表上浮現。或回想 Deepwater Horizon:多年獲利在一次非線性事件中被抹去。安全表演不是護城河。它是被延後的負債。市場終將對治理品質定價,但要等到事故把係數設定出來之後。
指數涵蓋前沿,但傷害會從邊緣溢出。小型參與者微調開源權重即可匹配能力,卻無法匹配流程。放大並貨幣化 AI 內容的平台——搜尋、社交、廣告科技、生產力套件——會成為力量倍增器。這是 2008 年的模式:建立在脆弱抵押上的 AAA 分層。風險流向影子銀行,因為那裡監管最薄弱。在 AI 領域,影子部門是衍生生態系統——連接工具的代理、API 市場、越獄社群與數據經紀人。水印與來源標示有幫助,但在對抗壓力下也脆弱。一旦強大權重外洩,你無法召回。你面臨的是擴散問題,而非產品回收。
有效的治理是有牙齒的速限,而非禁令。它是規模前的證據:部署前試驗、分階段推出、真實的遏止能力,以及能夠阻止發布的獨立審計。它是算力治理與事故通報,如同一個針對 AI 失敗的 NTSB。它是賦責任制,界定模型造成損害時誰來支付,讓保險公司能為風險定價,董事會不再把安全當作公關課題。它是標準化評估,測試濫用、自主性與欺瞞行為,而非僅測聊聊表現。它是把模型權重視為危險物質的安全需求。這些都不需要對 AGI 擁有預知能力。它要求的是證據,而非承諾。
業界堅稱透明度的進展等同於安全的進展。這常常不成立。一張沒有終止開關的風險登記表,就是沒有灑水系統的消防演習。投資人應該問些無聊的問題:誰有否決發布的權力?停止條件是什麼?紅隊發現如何對映到啟停準則?若忽視治理,誰要承擔個人責任?安全應該是資本配置的選擇,而非口號。那些建立真實安全裕度的公司——深度資安、內部遏止實驗室、對抗性採購審查、危機演練——在季度表現上會看起來較慢。但當潮水退去,他們也會是擁有穩健現金流的那群。
反脆弱系統會因壓力而受益,因為它們能將失敗局部化。當前的 AI 發展集中化了權力與風險。要翻轉這一局面,生態系需採取槓鈴式設計:一端大量低風險的破壞性測試與沙盒式實驗,另一端對任何可能造成大規模傷害的事物予以嚴格限制。使用緊急斷路器在異常行為下降低能力。分離訓練、推理與工具以減少單點失效。保護檢舉者並資助有權停止生產線的獨立評估。建構可解釋性以偵測目標誤泛化,即便粗糙也好,因為有缺口的地圖勝過蒙眼。該指數是一面鏡子。它顯示了一個為速度優化而非為生存優化的產業。這不是道德缺陷,而是結構性缺陷。但結構可以改變——尤其當資本要求它、且規則使其成為不可談判之事時。