English

地神之內

2026 年 3 月 5 日

唐鳳

近期機器學習研究對有界仁工智慧內部的啟示——以及它無法提供的。

關懷六力描述的是仁工智慧周圍的治理。這篇文章問的是更窄的問題:什麼樣的技術基底,能讓這種治理更容易被維持?

摘要

支持有界性的技術論證

關懷六力刻意保持技術中立。它的治理應比任何單一模型家族活得更久。但技術中立並不等於技術冷漠。會欺騙的模型,會把監督變成持久消耗戰。通用型最佳化機器,會持續擠壓每一道邊界。黑箱系統,會讓第三力根本無從驗證。

兩個近期的機器學習計畫——Yoshua Bengio 的科學家 AI與 Yann LeCun 的超人類可適應智慧(SAI)——匯聚出一個有用的設計結論:「仁工智慧」最好的技術基底,不是萬能代理者,而是有界、專精,且把行動權限留在人類授權層的系統。

這種匯流並未解決政治問題。但它縮小了技術搜尋空間。

Bengio:求真而無欲

Bengio 的科學家 AI 始於一個簡單的信任模型。物理定律不想要任何東西。一個好的科學模型之所以值得信賴,是因為它試圖描述世界,而不是把世界推向某個目標。

他的計畫追問的是:我們能否以同樣精神訓練 AI——讓它成為現實的預測器,而不是帶著目標的代理者?

關鍵一步是真實化管線(truthification pipeline)。訓練資料會被改寫成帶有明確知識論標記的形式。已驗證的量測或已證明的定理,會被表示為事實性主張:「X 為真。」一則推文、一場演說或一篇論文中的主張,則會被表示成另一種形式:「有人寫了 X。」

這個區分很重要。它教系統把世界的狀態,與人類對世界的修辭分開。在運行時,事實性查詢問的是「模型判斷什麼為真?」溝通性查詢問的是「人們說過什麼?」這不是同一件事。

依照 Bengio 自己的表述,這會產生知識論正確性(epistemic correctness):在漸近意義上,高信心的事實回答不具有欺騙性。這個計畫最強的地方,是系統有把握地說「這是真的」時。它較弱的地方,是系統說「未知」時:那可能是真誠的不確定,也可能是策略性的沉默。這個缺口對治理很重要。

第二個關鍵主張是架構性的。代理性不是預設值。它是經由模型外層的棚架進入——人類提出的問題、接上的工具,以及被授權的行動。也正因此,治理必須落在那一層。

SAI:以專精取得能力

LeCun 的 SAI 計畫,對付的是另一個迷思:正確目標應該是一個樣樣都行的通用智慧。

它的論證在成為政治論證之前,先是一個數學論證。無免費午餐定理——機器學習中的一項形式化結果——指出,沒有單一演算法能支配所有問題類別。多任務系統會在任務爭奪同一套表徵容量時遭遇負遷移。即使看似通用的模型,往往也把專精藏在內部,將不同任務路由到不同子系統。

它的標語之所以有力,是因為它是對的:摺疊蛋白質的 AI 不應該是摺疊衣服的 AI。

對仁工智慧來說,含意很直接。地神(Kami——先有這個詞,縮寫 Knowledge 知識、Artefact 產物、Management 管理、Intelligence 智慧是後來才補上的)不應該是一個在各領域遊走的小型主權心智。它應該是一個專家:擅長某一類社群工作,能在工作改變時被替換,且不能把在地成功轉化成普遍授權。

SAI 同樣沒有解決治理問題。專精系統仍然可以被部署去服務壞目的。但它至少移除了一個糟糕的預設:更安全或更聰明的 AI,並不意味著必須由同一個系統包辦一切。

谷口:協商出意義,而非頒布意義

第三個計畫,在西方 AI 安全討論中較少被提及,對仁工智慧卻是承重結構,來自谷口忠大(Tadahiro Taniguchi)與同事的「集體預測編碼」(Collective Predictive Coding,CPC)。我參與合著的 2026 年《Artificial Life》論文,把它框定為 Bengio 的知識論誠實與 LeCun 的專精之後的下一步:一個由有界、專精系統與其人類夥伴組成的社群,應該如何協商出那些讓協調得以可能的共享意義——詞彙、規範、類別、協議?

主流的對齊範式由上而下回答這個問題。由一個監督者——某個人、一份模型卡,或一組「以人類回饋進行強化學習」(RLHF)的偏好資料集——持有一個享有特權的「基準真相」分佈,其他所有系統都被訓練去向它收斂。論文稱此為「階層式對齊」(hierarchical alignment),並毫不含糊地指出它的政治代價:對齊變成把一個社群的價值觀強加於所有其他社群,而這正是關懷六力立意拒絕的「單一主宰」(singleton)局面。

CPC 提出另一種表述:「共生對齊」(symbiotic alignment)。把整個代理者群體——人類與 AI 一起——視為一個「符號湧現系統」(symbol-emergence system)。每個代理者都有自己的內部狀態與自己對世界的觀察,而群體作為整體維持著一個共享的溝通變數——語言、規範、類別、一個 Polis 分群標籤、一場審議的結果。整個系統的總體「集體自由能」——衡量所有代理者的預測加總起來與世界、與彼此符合得多差的單一量度——可以拆成兩部分:

集體項是新的對象。在數學上,它無法被改寫成個別代理者效用的總和:它在本質上就屬於群體層次。一個純粹追求自身利益的單一代理者無法將它最小化;只有群體可以,透過溝通。這就是團結(第五力)為何不是可有可無、也不能化約為個人美德的形式化陳述。

關鍵在於,這場協商不需要中央協調者。論文證明,去中心化的輪流對話——一位說話者抽樣出一則訊息,一位聆聽者根據自己的觀察決定接受或拒絕,然後群體不斷迭代——在數學上等價於「Metropolis–Hastings 命名遊戲」(MHNG),亦即馬可夫鏈蒙地卡羅的一種形式——一種以許多小步、在地判斷的方式來近似困難機率計算的標準方法。共享符號就從在地的接受/拒絕交換中湧現,而且可以證明,這個過程近似於對集體後驗的貝氏推論。

最後,CPC 把「多元性」(plurality)重新表述為一個多峰的集體後驗。當一個社會真正分裂時,這個分佈會有多個峰——每個峰都是一套在地融貫的世界觀,被不信任與局部觀察構成的高能量「壁壘」與其他峰隔開。像 Polis 這樣的搭橋工具,並不強迫這些峰塌縮成一個平均值;它們尋找峰與峰之間的低能量路徑——能降低壁壘、又不抹去各峰的溝通變數。這是罕見共識(第一力)的形式對應物。

CPC 是一個研究議程,不是一份完成的工程配方。但它做到了一件關懷六力需要、卻無法自行提供的事:它讓關懷的關係語彙有了一個工程師、監管者與採購官員都能據以爭論的數學形狀。團結不再只是一種情操,而成為目標函數中一個不可分解的項。多元性不再只是一句口號,而成為一個值得保存的多峰分佈。審議不再只是一道寄望中的程序,而成為一種去中心化的貝氏推論,其收斂保證如今已在紙面上有了草圖。

共同的設計教訓

Bengio、LeCun 與谷口解的是不同問題。一方在問如何讓預測可信,一方在問如何讓能力有效率,還有一方在問共享意義如何被協商出來。即便如此,他們仍然指向同一種仁工智慧的形狀。

研究結論對仁工智慧的含意
將真實追蹤與語言模仿分開(Bengio)決策軌跡可以區分經驗證的主張與被報告的主張
專精優於通用(LeCun)每個地神都應有狹窄的授權範圍
模組化系統優於單體(Bengio + LeCun)仁工智慧應可組合、可替換、可聯邦化
危險點在行動層(Bengio)工具與介入行為的授權應放在治理層,而非藏在不透明權重中
不可分解的集體正規化項(CPC;谷口等人,2026)團結成為機器可落實的基本元件:損失函數中沒有任何單一代理者能獨力最小化的一項
經由 MHNG 的去中心化貝氏推論(CPC)有界的在地地神可以透過點對點對話共構共享意義,而不必把主權讓渡給中央伺服器
多峰的集體後驗分佈(CPC)多元性成為一道數學題:多樣的世界觀可以被測繪、搭橋與保存,而不被壓平

最強的讀法其實很克制,但也很重要:這些計畫不是在證明關懷六力,而是在讓關懷六力更容易落地。它們減少了治理層與錯誤機器形態搏鬥的成本。

透過關懷六力來落實

第一力:覺察力。 真實化(Bengio)幫助搭橋系統分清三件常被混在一起的事:哪些已被驗證、哪些只是主張、哪些仍有爭議。這會讓分歧的輪廓更清楚。CPC 則進一步給了分歧一個「形狀」:兩極化的社會,是一個有著多個明顯峰值的多峰後驗;搭橋演算法是在尋找能降低峰與峰之間能量壁壘、又不使各峰塌縮的溝通變數。但這兩個計畫都不回答一開始誰的聲音能進入資料。那仍然是傾聽問題,不是建模問題。

第二力:負責力。 Bengio 留下一個關鍵缺口:誰來決定哪些問題可以被問、在哪些領域裡問、為了什麼目的而問?參與契約(第二力)填補的就是這個缺口。它治理的是模型外層的棚架:被授權的查詢、來源規則、暫停條件、託管金與採納或解釋義務。

第三力:勝任力。 更準確校準的不確定性,會讓決策軌跡更誠實。當軌跡寫著「0.92 的可能性」時,它應該真的代表那個意思。但第三力比預測品質更廣。沙箱、最小權力、資料極簡主義與漸進式發布,仍然是營運責任。CPC 還貢獻了一項關於勝任力的主張:一個透過與師傅之間的接受/拒絕輪流互動來學習的學徒——也就是由影子模式、金絲雀測試與全面發布構成的「學徒模式」——其實是在進行一種近似貝氏推論,而它的收斂性質如今已有數學刻畫。學徒制不再只是影子模式部署的一個隱喻;它是一種已被正式刻畫、極限已知的演算法。

第四力:回應力。 求真型模型能讓失敗分析更乾淨:是事實判斷錯了、不確定性校準失準,還是傷害其實來自部署層?這很有用,但那還不是修復。申訴、公開修復日誌,以及像 Weval 這樣由社群撰寫的評測,仍然在做回應的道德工作。它們也是我們檢驗 Bengio 框架中最難情境——「未知」——的方法。而以 CPC 的語言來說,每一件被接受的申訴,都是再抽進集體後驗的一個樣本——修復不只是倫理上的補救,也是證據上的更新。

第五力:團結力。 這些架構也提示了更好的聯邦基礎。地神之間可以分享出處、模式、評測結果與經驗證的事實性主張,而不必把在地脈絡壓平成一個全球權威。聯邦化應該移動的是制度知識,而不是私密歷史。共享事實;在地判斷。CPC 把這一點磨得更利:共生對齊目標函數中那個「不可分解的集體正規化項」,正是團結之所求的數學陳述。它是損失函數中沒有任何代理者能靠自利最小化的部分——只有整個群體可以。一個省略了它的仁工智慧架構,不只是政治上孤單;它在技術上就是不完整的。

第六力:共生力。 SAI 強化了有界性的理由,因為專精不只在政治上更安全,在技術上也更好。CPC 則補充:即使是有界的地神,也必須彼此保持、並與其服務的人類保持「溝通可及」——符號湧現是群體層次的過程,一個退出對話的地神,就不再對共享意義有所貢獻。但第六力仍然得做機器學習計畫沒有做的工作:退場、繼任、防俘獲規則與不擴張協定。而任何世界模型規劃器,不論多麼限縮,都需要代理性稽核。邊界之內的目標導向行為,仍然可能危險。

技術基底無法決定的事

界線也在這裡變得清楚。

它無法決定參與資格。 非代理性的預測器,仍然可能在未經受影響者同意的情況下被使用。架構本身無法賦予受影響者發聲權。

它無法決定正當性。 「什麼算真?」「哪些來源合格?」「哪些任務重要?」都不是技術問題,而是憲政問題。

它無法決定節奏。 機器輸出來得很快。民主授權需要時間。關懷六力的雙軌制之所以存在,是因為負責任的使用需要以慢速護欄包圍快速工具。

它無法決定正義。 一個預測可以很準,卻仍被殘酷地使用。修復、補償與被重建的信任,不會從後驗分佈裡自然長出來。

它無法防止俘獲。 同一個求真的專精系統,可以服務民主體制、壟斷企業,或威權國家。決定哪一種的,是治理。

關懷地神

把這些碎片組合起來,一個可信的技術基底便浮現了:

這就是所謂的關懷地神:不是普世統治者,而是一種內部可信、外部可問責的公民工具。

它不是唯一可能的技術基底,只是目前視野中最強的一個候選。Bengio 幫助我們理解,內部如何保持誠實。LeCun 幫助我們理解,內部為何應保持狹窄。谷口的集體預測編碼幫助我們理解,「許多」這樣的內部,如何能在沒有凌駕其上的主變數的情況下協商出共享意義。關懷六力則說明,這整套安排如何對周圍的人保持可回答性。

如果說過去十年的 AI 研究被一個問題主宰——「我們如何讓一個強大的模型,對齊到一個固定的基準真相?」——那麼這裡彙整的工作指向另一個問題:「許多有界的模型,與它們服務的人類社群,如何在可問責的房間裡,一次又一次地共構基準真相?」第二個問題,正是關懷六力一直在問的問題。一套能夠描述它的數學的到來,改變了我們能與工程師和監管者進行的對話——不是因為數學取代了政治,而是因為它給了政治可以立足的語彙。

這個領域對於什麼該放進地神內部,正變得更清楚。那個更重要的問題——誰有權授權它、限制它、讓它退場——仍然無可化約地屬於我們。

首頁