AI 安全評等揭示一場建立在脆弱之上的競賽

科技最聰明的實驗室能打造會撰寫程式、跨領域推理的系統，但它們通不過自己設計的安全考試。最新的 AI Safety Index 將前沿公司在核心防護上評為 C 與 D 級，並在存亡風險（existential risk）項目上給出不及格分數。悖論很簡單：當能力累積時，紀律與治理卻落後。市場為發佈喝采，而非為自我克制鼓掌。脆弱系統就是這樣藏起來——在成長曲線、紙上承諾，以及把護欄視為稅賦而非必要的文化之下。

指數分數與控制幻象

該指數直白明確。Anthropic 為 C+、OpenAI 與 Google 約為 C，其他—Meta、xAI 以及主要中國實驗室—則集中在 D 範圍內。沒有人能通過存在性安全。自去年以來唯一改善的大多是文件化。文件化不是控制。在工程上，檢查表應該跟隨根本原因分析；檢查表不能取代金屬學、冗餘或設計裕度。風險存在於尾端，而非文件上。當最重要的一類能力——能否將超智慧系統維持在界限內——整體上皆未通過，實務上的結論是：今天的安全姿態不過是個手套箱內的說明書，對一輛會自駕衝下懸崖的車毫無用處。

存在性安全與黑箱極限

一位核心審查員提出明顯卻令人不舒服的觀點：將黑箱系統擴大化、以龐大資料訓練，可能在結構上無法給予公眾所期望的保證。這與其說是哲學主張，不如說是驗證問題。我們不知道大型系統在部署時真正優化的是什麼、在分佈轉移下如何泛化、或在有對抗性激勵時如何行為。紅隊壓力測試與 model cards 有其用處，但它們不是適航證。在航空或核能領域，安全關乎可證明的約束、隔離與失效梯度。在 AI 領域，我們大多獎勵窄基準上的表面行為，然後外推。Goodhart 定律會完成剩下的：優化指標即扭曲原本要衡量的現實。

加速的博弈論與監管套利

高層承認集體行動陷阱：沒有人可以單獨放慢腳步。這就是囚徒困境赤裸裸地呈現。若不受約束，報酬矩陣會推動實驗室去上線、行銷並反對具約束力的規範。有了可執行的標準，誘因會反轉：只要過關，誰先部署誰贏。這也是藥品試驗、飛機認證與核安如何運作。相比之下，今日美國的 AI 監管仍不如餐館，政策制定者與公眾皆非毫不察覺。結果是教科書式的監管套利。公司將系統性風險外部化，同時收割私人利潤。稱之為市場失靈並非意識形態；這是簡單的微觀經濟學。當責任分散、價格不足且被延遲時，從內部看加速是理性的選擇，但從外部看則是魯莽的。

市場錯價尾部風險

投資者習慣為動量、選擇權性與規模定價。他們在模型中折現低頻災難，因為那看起來像模型中的沉重負擔。但 AI 風險不是平滑函數。它存在於胖尾、冪次定律與相關失敗中。當事情出問題時，會一起崩壞——資安漏洞、錯誤資訊級聯、自動化詐欺、模型外洩，以及在最壞情況下，對關鍵系統失去人類控制。問問 Boeing，安全債務要多久才會在資產負債表上浮現。或回想 Deepwater Horizon：多年獲利在一次非線性事件中被抹去。安全表演不是護城河。它是被延後的負債。市場終將對治理品質定價，但要等到事故把係數設定出來之後。

下游平台與長尾傷害

指數涵蓋前沿，但傷害會從邊緣溢出。小型參與者微調開源權重即可匹配能力，卻無法匹配流程。放大並貨幣化 AI 內容的平台——搜尋、社交、廣告科技、生產力套件——會成為力量倍增器。這是 2008 年的模式：建立在脆弱抵押上的 AAA 分層。風險流向影子銀行，因為那裡監管最薄弱。在 AI 領域，影子部門是衍生生態系統——連接工具的代理、API 市場、越獄社群與數據經紀人。水印與來源標示有幫助，但在對抗壓力下也脆弱。一旦強大權重外洩，你無法召回。你面臨的是擴散問題，而非產品回收。

將監管當作基礎建設，而非驚慌按鈕

有效的治理是有牙齒的速限，而非禁令。它是規模前的證據：部署前試驗、分階段推出、真實的遏止能力，以及能夠阻止發布的獨立審計。它是算力治理與事故通報，如同一個針對 AI 失敗的 NTSB。它是賦責任制，界定模型造成損害時誰來支付，讓保險公司能為風險定價，董事會不再把安全當作公關課題。它是標準化評估，測試濫用、自主性與欺瞞行為，而非僅測聊聊表現。它是把模型權重視為危險物質的安全需求。這些都不需要對 AGI 擁有預知能力。它要求的是證據，而非承諾。

投資人心理與安全表演

業界堅稱透明度的進展等同於安全的進展。這常常不成立。一張沒有終止開關的風險登記表，就是沒有灑水系統的消防演習。投資人應該問些無聊的問題：誰有否決發布的權力？停止條件是什麼？紅隊發現如何對映到啟停準則？若忽視治理，誰要承擔個人責任？安全應該是資本配置的選擇，而非口號。那些建立真實安全裕度的公司——深度資安、內部遏止實驗室、對抗性採購審查、危機演練——在季度表現上會看起來較慢。但當潮水退去，他們也會是擁有穩健現金流的那群。

反脆弱性或紙上護盾

反脆弱系統會因壓力而受益，因為它們能將失敗局部化。當前的 AI 發展集中化了權力與風險。要翻轉這一局面，生態系需採取槓鈴式設計：一端大量低風險的破壞性測試與沙盒式實驗，另一端對任何可能造成大規模傷害的事物予以嚴格限制。使用緊急斷路器在異常行為下降低能力。分離訓練、推理與工具以減少單點失效。保護檢舉者並資助有權停止生產線的獨立評估。建構可解釋性以偵測目標誤泛化，即便粗糙也好，因為有缺口的地圖勝過蒙眼。該指數是一面鏡子。它顯示了一個為速度優化而非為生存優化的產業。這不是道德缺陷，而是結構性缺陷。但結構可以改變——尤其當資本要求它、且規則使其成為不可談判之事時。

人工智能區塊鏈清潔能源