地神之內 — Institute for Ethics in AI

關懷六力描述的是仁工智慧周圍的治理。這篇文章問的是更窄的問題：什麼樣的技術基底，能讓這種治理更容易被維持？

摘要

Yoshua Bengio 與 Yann LeCun 的近期研究，都指向有界、專精的系統，而不是一個包辦一切的通用統治者。
這種匯流並不能解決政治問題，但它確實縮小了技術搜尋空間。
系統內部仍然無法決定正當性、參與資格、節奏或正義；那些依然是制度問題。

支持有界性的技術論證

關懷六力刻意保持技術中立。它的治理應比任何單一模型家族活得更久。但技術中立並不等於技術冷漠。會欺騙的模型，會把監督變成持久消耗戰。通用型最佳化機器，會持續擠壓每一道邊界。黑箱系統，會讓第三力根本無從驗證。

兩個近期的機器學習計畫——Yoshua Bengio 的科學家 AI與 Yann LeCun 的超人類可適應智慧（SAI）——匯聚出一個有用的設計結論：「仁工智慧」最好的技術基底，不是萬能代理者，而是有界、專精，且把行動權限留在人類授權層的系統。

這種匯流並未解決政治問題。但它縮小了技術搜尋空間。

Bengio：求真而無欲

Bengio 的科學家 AI 始於一個簡單的信任模型。物理定律不想要任何東西。一個好的科學模型之所以值得信賴，是因為它試圖描述世界，而不是把世界推向某個目標。

他的計畫追問的是：我們能否以同樣精神訓練 AI——讓它成為現實的預測器，而不是帶著目標的代理者？

關鍵一步是真實化管線（truthification pipeline）。訓練資料會被改寫成帶有明確知識論標記的形式。已驗證的量測或已證明的定理，會被表示為事實性主張：「X 為真。」一則推文、一場演說或一篇論文中的主張，則會被表示成另一種形式：「有人寫了 X。」

這個區分很重要。它教系統把世界的狀態，與人類對世界的修辭分開。在運行時，事實性查詢問的是「模型判斷什麼為真？」溝通性查詢問的是「人們說過什麼？」這不是同一件事。

依照 Bengio 自己的表述，這會產生知識論正確性（epistemic correctness）：在漸近意義上，高信心的事實回答不具有欺騙性。這個計畫最強的地方，是系統有把握地說「這是真的」時。它較弱的地方，是系統說「未知」時：那可能是真誠的不確定，也可能是策略性的沉默。這個缺口對治理很重要。

第二個關鍵主張是架構性的。代理性不是預設值。它是經由模型外層的棚架進入——人類提出的問題、接上的工具，以及被授權的行動。也正因此，治理必須落在那一層。

SAI：以專精取得能力

LeCun 的 SAI 計畫，對付的是另一個迷思：正確目標應該是一個樣樣都行的通用智慧。

它的論證在成為政治論證之前，先是一個數學論證。無免費午餐定理指出，沒有單一演算法能支配所有問題類別。多任務系統會在任務爭奪同一套表徵容量時遭遇負遷移。即使看似通用的模型，往往也把專精藏在內部，將不同任務路由到不同子系統。

它的標語之所以有力，是因為它是對的：摺疊蛋白質的 AI 不應該是摺疊衣服的 AI。

對仁工智慧來說，含意很直接。地神不應該是一個在各領域遊走的小型主權心智。它應該是一個專家：擅長某一類社群工作，能在工作改變時被替換，且不能把在地成功轉化成普遍授權。

SAI 同樣沒有解決治理問題。專精系統仍然可以被部署去服務壞目的。但它至少移除了一個糟糕的預設：更安全或更聰明的 AI，並不意味著必須由同一個系統包辦一切。

共同的設計教訓

Bengio 與 LeCun 解的是不同問題。一方在問如何讓預測可信，另一方在問如何讓能力有效率。即便如此，他們仍然指向同一種仁工智慧的形狀。

研究結論	對仁工智慧的含意
將真實追蹤與語言模仿分開	決策軌跡可以區分經驗證的主張與被報告的主張
專精優於通用	每個地神都應有狹窄的授權範圍
模組化系統優於單體	仁工智慧應可組合、可替換、可聯邦化
危險點在行動層	工具與介入行為的授權應放在治理層，而非藏在不透明權重中

最強的讀法其實很克制，但也很重要：這些計畫不是在證明關懷六力，而是在讓關懷六力更容易落地。它們減少了治理層與錯誤機器形態搏鬥的成本。

這如何改變關懷六力

第一力：覺察力。 真實化幫助搭橋系統分清三件常被混在一起的事：哪些已被驗證、哪些只是主張、哪些仍有爭議。這會讓分歧的輪廓更清楚。但它不回答一開始誰的聲音能進入訓練集。那仍然是傾聽問題，不是建模問題。

第二力：負責力。 Bengio 留下一個關鍵缺口：誰來決定哪些問題可以被問、在哪些領域裡問、為了什麼目的而問？參與契約（第二力）填補的就是這個缺口。它治理的是模型外層的棚架：被授權的查詢、來源規則、暫停條件、託管金與採納或解釋義務。

第三力：勝任力。 更準確校準的不確定性，會讓決策軌跡更誠實。當軌跡寫著「0.92 的可能性」時，它應該真的代表那個意思。但第三力比預測品質更廣。沙箱、最小權力、資料極簡主義與漸進式發布，仍然是營運責任。好的架構能降低風險，卻不能取代有紀律的實踐。

第四力：回應力。 求真型模型能讓失敗分析更乾淨：是事實判斷錯了、不確定性校準失準，還是傷害其實來自部署層？這很有用，但那還不是修復。申訴、公開修復日誌，以及像 Weval 這樣由社群撰寫的評測，仍然在做回應的道德工作。它們也是我們檢驗 Bengio 框架中最難情境——「未知」——的方法。

第五力：團結力。 這些架構也提示了更好的聯邦基礎。地神之間可以分享出處、模式、評測結果與經驗證的事實性主張，而不必把在地脈絡壓平成一個全球權威。聯邦化應該移動的是制度知識，而不是私密歷史。共享事實；在地判斷。

第六力：共生力。 SAI 強化了有界性的理由，因為專精不只在政治上更安全，在技術上也更好。但第六力仍然得做機器學習計畫沒有做的工作：退場、繼任、防俘獲規則與不擴張協定。而任何世界模型規劃器，不論多麼限縮，都需要代理性稽核。邊界之內的目標導向行為，仍然可能危險。

技術基底無法決定的事

界線也在這裡變得清楚。

它無法決定參與資格。 非代理性的預測器，仍然可能在未經受影響者同意的情況下被使用。架構本身無法賦予受影響者發聲權。

它無法決定正當性。 「什麼算真？」「哪些來源合格？」「哪些任務重要？」都不是技術問題，而是憲政問題。

它無法決定節奏。 機器輸出來得很快。民主授權需要時間。關懷六力的雙軌制之所以存在，是因為負責任的使用需要以慢速護欄包圍快速工具。

它無法決定正義。 一個預測可以很準，卻仍被殘酷地使用。修復、補償與被重建的信任，不會從後驗分佈裡自然長出來。

它無法防止俘獲。 同一個求真的專精系統，可以服務民主體制、壟斷企業，或威權國家。決定哪一種的，是治理。

科學家地神

把這些碎片組合起來，一個可信的技術基底便浮現了：

一個非代理性的求真核心
一組服務有界領域的專精模組
對工具、查詢與行動的明確治理
同時檢驗自信回答與策略性沉默的社群評測
使服務得以延續、又不必永久依賴單一模型或單一管理者的退場與交接規則

這就是所謂的科學家地神：不是普世統治者，而是一種內部可信、外部可問責的公民工具。

它不是唯一可能的技術基底，只是目前視野中最強的一個候選。Bengio 幫助我們理解，內部如何保持誠實。LeCun 幫助我們理解，內部為何應保持狹窄。關懷六力則說明，這樣的系統如何對周圍的人保持可回答性。

這個領域對於什麼該放進地神內部，正變得更清楚。那個更重要的問題——誰有權授權它、限制它、讓它退場——仍然無可化約地屬於我們。