English

地神之內

2026 年 3 月 5 日

唐鳳

近期機器學習研究對有界仁工智慧內部的啟示——以及它無法提供的。

關懷六力描述的是仁工智慧周圍的治理。這篇文章問的是更窄的問題:什麼樣的技術基底,能讓這種治理更容易被維持?

摘要

支持有界性的技術論證

關懷六力刻意保持技術中立。它的治理應比任何單一模型家族活得更久。但技術中立並不等於技術冷漠。會欺騙的模型,會把監督變成持久消耗戰。通用型最佳化機器,會持續擠壓每一道邊界。黑箱系統,會讓第三力根本無從驗證。

兩個近期的機器學習計畫——Yoshua Bengio 的科學家 AI與 Yann LeCun 的超人類可適應智慧(SAI)——匯聚出一個有用的設計結論:「仁工智慧」最好的技術基底,不是萬能代理者,而是有界、專精,且把行動權限留在人類授權層的系統。

這種匯流並未解決政治問題。但它縮小了技術搜尋空間。

Bengio:求真而無欲

Bengio 的科學家 AI 始於一個簡單的信任模型。物理定律不想要任何東西。一個好的科學模型之所以值得信賴,是因為它試圖描述世界,而不是把世界推向某個目標。

他的計畫追問的是:我們能否以同樣精神訓練 AI——讓它成為現實的預測器,而不是帶著目標的代理者?

關鍵一步是真實化管線(truthification pipeline)。訓練資料會被改寫成帶有明確知識論標記的形式。已驗證的量測或已證明的定理,會被表示為事實性主張:「X 為真。」一則推文、一場演說或一篇論文中的主張,則會被表示成另一種形式:「有人寫了 X。」

這個區分很重要。它教系統把世界的狀態,與人類對世界的修辭分開。在運行時,事實性查詢問的是「模型判斷什麼為真?」溝通性查詢問的是「人們說過什麼?」這不是同一件事。

依照 Bengio 自己的表述,這會產生知識論正確性(epistemic correctness):在漸近意義上,高信心的事實回答不具有欺騙性。這個計畫最強的地方,是系統有把握地說「這是真的」時。它較弱的地方,是系統說「未知」時:那可能是真誠的不確定,也可能是策略性的沉默。這個缺口對治理很重要。

第二個關鍵主張是架構性的。代理性不是預設值。它是經由模型外層的棚架進入——人類提出的問題、接上的工具,以及被授權的行動。也正因此,治理必須落在那一層。

SAI:以專精取得能力

LeCun 的 SAI 計畫,對付的是另一個迷思:正確目標應該是一個樣樣都行的通用智慧。

它的論證在成為政治論證之前,先是一個數學論證。無免費午餐定理指出,沒有單一演算法能支配所有問題類別。多任務系統會在任務爭奪同一套表徵容量時遭遇負遷移。即使看似通用的模型,往往也把專精藏在內部,將不同任務路由到不同子系統。

它的標語之所以有力,是因為它是對的:摺疊蛋白質的 AI 不應該是摺疊衣服的 AI。

對仁工智慧來說,含意很直接。地神不應該是一個在各領域遊走的小型主權心智。它應該是一個專家:擅長某一類社群工作,能在工作改變時被替換,且不能把在地成功轉化成普遍授權。

SAI 同樣沒有解決治理問題。專精系統仍然可以被部署去服務壞目的。但它至少移除了一個糟糕的預設:更安全或更聰明的 AI,並不意味著必須由同一個系統包辦一切。

共同的設計教訓

Bengio 與 LeCun 解的是不同問題。一方在問如何讓預測可信,另一方在問如何讓能力有效率。即便如此,他們仍然指向同一種仁工智慧的形狀。

研究結論對仁工智慧的含意
將真實追蹤與語言模仿分開決策軌跡可以區分經驗證的主張與被報告的主張
專精優於通用每個地神都應有狹窄的授權範圍
模組化系統優於單體仁工智慧應可組合、可替換、可聯邦化
危險點在行動層工具與介入行為的授權應放在治理層,而非藏在不透明權重中

最強的讀法其實很克制,但也很重要:這些計畫不是在證明關懷六力,而是在讓關懷六力更容易落地。它們減少了治理層與錯誤機器形態搏鬥的成本。

這如何改變關懷六力

第一力:覺察力。 真實化幫助搭橋系統分清三件常被混在一起的事:哪些已被驗證、哪些只是主張、哪些仍有爭議。這會讓分歧的輪廓更清楚。但它不回答一開始誰的聲音能進入訓練集。那仍然是傾聽問題,不是建模問題。

第二力:負責力。 Bengio 留下一個關鍵缺口:誰來決定哪些問題可以被問、在哪些領域裡問、為了什麼目的而問?參與契約(第二力)填補的就是這個缺口。它治理的是模型外層的棚架:被授權的查詢、來源規則、暫停條件、託管金與採納或解釋義務。

第三力:勝任力。 更準確校準的不確定性,會讓決策軌跡更誠實。當軌跡寫著「0.92 的可能性」時,它應該真的代表那個意思。但第三力比預測品質更廣。沙箱、最小權力、資料極簡主義與漸進式發布,仍然是營運責任。好的架構能降低風險,卻不能取代有紀律的實踐。

第四力:回應力。 求真型模型能讓失敗分析更乾淨:是事實判斷錯了、不確定性校準失準,還是傷害其實來自部署層?這很有用,但那還不是修復。申訴、公開修復日誌,以及像 Weval 這樣由社群撰寫的評測,仍然在做回應的道德工作。它們也是我們檢驗 Bengio 框架中最難情境——「未知」——的方法。

第五力:團結力。 這些架構也提示了更好的聯邦基礎。地神之間可以分享出處、模式、評測結果與經驗證的事實性主張,而不必把在地脈絡壓平成一個全球權威。聯邦化應該移動的是制度知識,而不是私密歷史。共享事實;在地判斷。

第六力:共生力。 SAI 強化了有界性的理由,因為專精不只在政治上更安全,在技術上也更好。但第六力仍然得做機器學習計畫沒有做的工作:退場、繼任、防俘獲規則與不擴張協定。而任何世界模型規劃器,不論多麼限縮,都需要代理性稽核。邊界之內的目標導向行為,仍然可能危險。

技術基底無法決定的事

界線也在這裡變得清楚。

它無法決定參與資格。 非代理性的預測器,仍然可能在未經受影響者同意的情況下被使用。架構本身無法賦予受影響者發聲權。

它無法決定正當性。 「什麼算真?」「哪些來源合格?」「哪些任務重要?」都不是技術問題,而是憲政問題。

它無法決定節奏。 機器輸出來得很快。民主授權需要時間。關懷六力的雙軌制之所以存在,是因為負責任的使用需要以慢速護欄包圍快速工具。

它無法決定正義。 一個預測可以很準,卻仍被殘酷地使用。修復、補償與被重建的信任,不會從後驗分佈裡自然長出來。

它無法防止俘獲。 同一個求真的專精系統,可以服務民主體制、壟斷企業,或威權國家。決定哪一種的,是治理。

科學家地神

把這些碎片組合起來,一個可信的技術基底便浮現了:

這就是所謂的科學家地神:不是普世統治者,而是一種內部可信、外部可問責的公民工具。

它不是唯一可能的技術基底,只是目前視野中最強的一個候選。Bengio 幫助我們理解,內部如何保持誠實。LeCun 幫助我們理解,內部為何應保持狹窄。關懷六力則說明,這樣的系統如何對周圍的人保持可回答性。

這個領域對於什麼該放進地神內部,正變得更清楚。那個更重要的問題——誰有權授權它、限制它、讓它退場——仍然無可化約地屬於我們。

首頁