先知、精靈、君王、工具, 人類該將 AI 設計成什麼角色?

根據世界經濟論壇所發佈的《2024全球風險調查》,短期與長期的科技風險都與 AI 脫離不了干係,包含未來兩年得注意假消息氾濫及網路安全問題;未來十年則需要關注 AI 發展的不良成果。人工智慧的發展已成為新世代企業不得不重視的風險。

牛津大學哲學系教授尼克.伯斯特隆姆(Nick Bostrom)在其著作《超智慧:AI風險的最佳解答》一書中,以一群麻雀企圖馴服貓頭鷹為己所用的預言作為開場,恰似人類與人工智慧的關係,我們期待人工智慧能解決問題,卻又害怕被取代,甚至擔心被毀滅,而 AI 專家與菁英學者、企業家們,至今仍未解除這份擔心,也未解決最重要的「控制難題」。

伯斯特隆姆的學術背景包含理論物理學、計算神經科學、數學邏輯、人工智慧以及哲學,同時是牛津馬丁學院人類未來研究所(Future of Humanity Institute)的創立者和所長。他在全球五十歲以下的哲學家中被引用次數最多,擁有廣泛的影響力。

伯斯特隆姆在書中提到四種「階級」:先知、精靈、君王、工具,並解釋它們之間的關係。 在探究怎麼解決控制難題的過程中,我們將會看到每種階級各不相同的優劣。以下為精彩內容節錄:


有人會說:「做一個回答問題的系統就好啦!」或是「做一個像工具而不像人的人工智慧就好啦!」但這種主張並不會讓各種安全疑慮消失。事實上,哪一種系統能提供最好的安全遠景,是個重大問題。我們來思考四種「階級」:先知、精靈、君王、工具,並解釋它們之間的關係。

▌先知

先知是個回答問題的系統。它能接受用自然語言提出的問題,並以文字呈現答案。只接受是/否問題的先知,可用單一位元輸出它的最佳猜測,或是再多幾個位元來呈現它的信心程度。接受開放式問題的先知會需要一些度量,藉以將可能的答案依資訊性(informativeness)或適當性(appropriateness)來排序。 不管在哪種情況下,打造一個具有全面領域通用能力、以自然語言回答問題的先知,面臨的都是「AI 完全」問題。如果它辦得到,就有可能也打造得出像了解人類言語一樣能了解人類意圖的人工智慧。

一個僅具備限制領域超智慧的先知並不難想像。舉例來說,我們可以設想一個數學先知,它只接受以形式語言表達的問題,卻十分擅長回答這類的問題(例如能瞬間解決人類數學家得集體花上一個世紀才能解開的絕大多數數學難題)。這樣的數學先知將成為邁向通用領域超智慧的墊腳石。

在極限制的領域中,其實早就有超智慧先知存在。口袋計算機可看做基本算術問題的極限制先知;網路搜尋引擎則可看做極小幅度實現「某一包含整體人類知識之重大部分領域」的先知。這些領域受限的先知,與其說是行動主體,不如說是工具(等一下我們會多談談工具人工智慧)。不過在下文中,「先知」這個詞如果沒有另外聲明,都會用來指稱擁有通用領域超智慧的回答問題系統。

若要創造一個通用超智慧做為先知,我們可以同時運用動機選擇法和能力控制法。先知所需的動機選擇,可能比其他階級的超智慧容易,因為先知的終極目標相較之下很簡單。我們要先知提供真實且非操作性的答案,否則就限制它的影響力。應用馴服法,我們可以要求先知只運用指定的資源來產生答案。舉例來說,我們可以事先規定,先知的答案必須基於預先裝設好的資料庫,例如儲存的網路快照,且只能使用固定次數的運算步驟。

為了避免刺激先知操縱我們給它較為簡單的問題——如果我們給它的目標是「在所有我們問的問題中都將自己的正確度最大化」就會發生——我們可以給它「只回答一個問題,並在給出答案後立刻終止」的目標。問題會在程式運作前就預先裝在它的記憶中。若要問第二個問題,我們就得重新啟動機器,並以記憶體中預先裝入的另一個問題來運行同一套程式。

就算只是具體運作先知所需相對簡單的動機系統,微妙且潛在的背信挑戰還是會出現。舉例來說,假設我們有了關於「對人工智慧而言,『達到某一結果並對世界的影響最小化』的意義是什麼?」或是「對人工智慧而言,『只使用指定的資源來準備答案』的意義是什麼?」的說明,那麼假使人工智慧在發展智慧的歷程中,經歷了一場有如科學革命的基礎本體論改變,那會發生什麼事? 我們有可能已經先用我們自己的本體論(假定了像是電腦等各種物理性物體的存在)說明「影響」和「指定的資源」,但就像我們拋棄過往科學家視為理所當然的本體論範疇那樣(例如燃素[phlogiston]、生命衝力[Élan vital]和絕對同時[absolute simultaneity]),超智慧有可能會發現,我們目前某些範疇的基礎奠基在基本的誤解上。經歷這種本體論危機的人工智慧目標系統需要夠有彈性,其原始目標內容的「精神」才能維持下去,並且轉移到新的關鍵概念上。

透過動機選擇來維持先知的安全性,儘管不是多簡單的事,但要在那種漫步全球只為追求複雜目標的人工智慧上做同樣的事,卻只會更加困難。這是種偏好「第一個超智慧要是先知」的論點。另一種優先支持先知的論點認為,先知容易受到能力控制法的影響,所有標準的盒裝法在此都適用。此外,還有一些方法對先知特別有用。舉例來說,假設一個先知回答問題時不以真實的方式回答,而是以一種稍微操弄我們的方式回答,好推動它自己隱藏的議程,那我們可以想想這會有什麼風險。

稍微緩和這種威脅的方法之一,就是創造好幾個先知,每個先知都有稍微不同的程式碼和略為不同的資料庫。接著使用一個簡單的機制來比較每個先知所給出的答案,並只在它們給出的答案都一致時,交給人類檢閱。雖然我們必須假設,任何一個通用領域的超智慧先知都知道其他先知的存在(它可以從手上的人類社會相關知識推測出來),但我們還是可以把每個先知的執行細節都稍做隱藏,不讓其他先知看到。如果先知無法彼此聯絡,那麼它們透過協調而在給我們的回答中動手腳,就會比較困難。偏離事實有很多方法,先知們可能無法在「哪個偏差比較有吸引力」這件事情上一致——儘管真實本身是個謝林點(Schelling point,一個在沒有聯繫的情況下意見一致的匯合點),因此如果先知出現共識,就是給出正確答案的信號。

本文節錄自《超智慧:AI風險的最佳解答》,由感電出版授權轉載。