Savoir | 問題就是，AI真的會聽從我們的指令

問題就是，AI真的會聽從我們的指令

2021/02/08 10:00

讓人工智慧執行人類指令的危險之處在於，我們可能對自己想達到的目標不夠謹慎。

　　讓人工智慧（AI）執行人類指令的危險之處在於，我們可能對自己想達到的目標不夠謹慎。驅使機器的程式碼不可避免地會出現錯誤，例如忘記給予說明與警告，最終使AI的目標和手段與人類的真實需求不符。

　　牛津大學哲學家尼克‧博斯特羅姆（Nick Bostrom）在2003年提出了已成為經典的思想實驗，他假設一個超級人工智慧機器的設計目標只是製造迴紋針，雖然目標看似無害，但機器最終讓全世界變成一個巨型的迴紋針工廠。雖然這樣的場景可能被認為只是學術假設，只會在遙遠未來出現的擔憂，但人工智慧失控變成問題的時間遠遠早於預期。

　　最棘手的現代例子是一個影響數十億人的問題。為了最大化使用者的觀看時間，YouTube採用以人工智慧為基礎的推薦演算法。兩年前，電腦科學家與使用者開始注意到，YouTube演算法似乎藉由推薦越來越極端與陰謀論的內容達到目的。一名研究人員的報告指出，他看完川普競選晚會的影片後，YouTube接下來開始推薦他包括「白人至上主義言論、否認猶太大屠殺與其他令人不安的內容」的影片，他說：「演算法的瘋狂行為已經超越了政治，搜尋吃素最後變成推廣純素主義的影片，搜尋慢跑最後變成超級馬拉松的影片。」結果表明，YouTube演算法加劇了社會的極化與傳播錯誤資訊，而一切動機都只是讓使用者一直看下去。

　　YouTube工程師可能無意讓人類變得激進，但他們不可能想到所有可能的後果。加州大學柏克萊分校人工智慧研究員狄倫‧哈德菲爾德─梅內爾（Dylan Hadfield-Menell）表示：「我們目前處理人工智慧的方式為工程師帶來極大負擔，他們需要理解自己給予系統獎勵（incentives）的後果是什麼。我們從中學到的現實是，每個工程師都可能犯下錯誤。」

　　這個問題的一個重點是，人類通常不知道要為人工智慧系統設定哪些目標，因為我們根本不知道自己真正想要什麼。史丹佛大學專研人機互動的科學家多爾薩‧薩迪（Dorsa Sadigh）說：「如果你在路上隨便問一個人『你希望自己的自動駕駛汽車做什麼事？』，他們普遍會回答『避免擦撞事故』，但很快你會發現這個答案沒有想像中那麼簡單；因為人有很多偏好與選擇。」

　　超級安全的自動駕駛汽車速度不僅會很慢，而且刹車很頻繁，乘客也更容易暈車覺得不舒服。當工程師試圖列出一輛自動駕駛汽車應該同時兼顧的所有目標和偏好時，這份清單根本不可能有寫完的一天。薩迪提到他在舊金山開車時，就經常被堵在自動駕駛汽車的後面，因為它完全按照工程師的指示，表現得太過小心謹慎，盡可能避免碰觸到任何的移動物體。

新的概念認為，機器不應該一昧地追求被設定的目標，而是追求滿足人類的偏好；唯一的目標應該是更多地瞭解人類。

　　為了避免落入這樣的窘境，以及解決潛在的人工智慧問題，科學家已經著手開發全新的程式設計方法。這些方法與柏克萊分校著名電腦科學家斯圖爾特‧羅素（Stuart Russell）提出的概念和研究關係最為緊密。1980年代與1990年代，羅素在理性、決策和機器學習方面做出了開創性的研究，他是經典教科書《人工智慧：現代方法》（Artificial Intelligence: A Modern Approach）的主要作者，也是近年人工智慧領域的權威。

　　羅素認為，以目標為導向的人工智慧天花板最終會達到極限，雖然它在完成某些特定任務方面很成功，例如人機對戰的遊戲等。但在圖像辨識、語音辨識，甚至創作音樂和文章方面，羅素認為最佳化人工智慧系統的「獎勵功能」——對某些目標組合的細節描述——將不可避免地導致偏差，因為不可能包含和正確權衡所有的目標、次目標、例外與警告，甚至不可能知道哪些才是正確的。為越來越「智慧」的「自主」機器設定目標面臨越來越大的風險，因為機器人只會無情地追求達到獎勵功能，並且試圖阻止我們關掉。

　　這個新的概念認為，機器不應該一昧地追求被設定的目標，而是追求滿足人類的偏好；唯一的目標應該是更多地瞭解人類。羅素認為瞭解人類偏好的不確定性，以及向人類尋求指導能確保人工智慧系統的安全。羅素在新書《人類相容》（Human Compatible）提出「有利機器三原則」來闡述自己的想法，這個名字呼應了艾西莫夫（Isaac Asimov）於1942年提出的機器人三定律，但沒有那麼天真。羅素的觀點如下：

　　機器的唯一目標是最大限度地實現人類的目標。

　　機器從一開始就不確定這些目標是什麼。

　　人類目標的資訊來自觀察人類的行為。

　　過去幾年內，羅素的研究團隊，以及史丹佛大學、德州大學和其他有類似想法的研究團隊不斷在開發新的方法，希望讓人工智慧系統更瞭解我們的偏好，而不是直接告訴它們。這些實驗室正在教導機器如何瞭解人類偏好，即使我們從未表達，或者連自己真正想要什麼也不確定。機器透過觀看不完美的範例來瞭解人類的欲望，或者發明新的行為來協助解決人類模糊的欲望。研究結果表明，即使我們自身的狀態非常飄忽不定，但人工智慧可能非常擅長判斷我們的心態與偏好，薩迪說：「這是第一次嘗試把問題正式化。直到最近，人類才意識到我們需要更仔細地研究人機互動。」

　　這些初步進展與羅素的有利機器三原則是否代表人工智慧的光明未來還有待觀察，但這種方法把機器的成功歸因於它們理解人類真實偏好的能力——這也是人類長久以來想釐清的事情。

　　羅素的論文對他來說是一種頓悟，一種崇高智慧的昇華。他在聽音樂時突然意識到，從某種意義來說，人工智慧的意義與目的是人類經驗的總和。他發現機器不應該嘗試實現最大化觀看時間或製造迴紋針等目標，而是致力改善我們的生活，這樣還有一個問題：「如果機器的義務是改善人類經驗的整體品質，那它們究竟要如何知道和理解？」

人類甚至連一絲理性都沒有，因此在計算上不可行：我們不可能算出在任何給定的時刻下，哪一種行為可以在未來數萬億次的行為中帶來最好的結果；當然，人工智慧也無法。

　　羅素的想法可追溯至更久遠以前。1970年代，他在倫敦讀書就開始學習人工智慧，當時他在附近一所大學的電腦編寫了井字遊戲和國際象棋的演算法。後來，他開始對理性決策進行理論分析，但他很快斷定這不可能有答案。因為人類甚至連一絲理性都沒有，因此在計算上不可行：我們不可能算出在任何給定的時刻下，哪一種行為可以在未來數萬億次的行為中帶來最好的結果；當然，人工智慧也無法。羅素的理論認為，我們的決策是有層級的——我們透過中期目標追求模糊的長期目標，同時把最多注意力放在眼前，這粗略地近似於理性。他認為讓機器執行也需要做類似的事情，或者至少讓它們瞭解我們的運作模式。

　　羅素的頓悟在人工智慧領域的關鍵時期發生。幾個月前，一個人工神經網路使用一種著名的方法「強化學習」，讓機器從零開始快速學習如何遊玩與破解電動遊戲，甚至可以在過程中創造新的技巧，這讓科學家們感到非常驚訝。在強化學習的方法下，人工智慧學會改善自己的獎勵功能，例如遊戲的得分；當它嘗試各種各樣的行為時，增加獎勵功能的行為會被強化，並在未來持續不斷發生。

　　早在1998年，羅素就開發出與「強化學習」相反的方法，他與合作者吳恩達（Andrew Ng）繼續完善這項研究。他所開發的「逆強化學習」系統並不像強化學習那樣嘗試改善自身編碼的獎勵功能；相反地，它嘗試瞭解人類想最佳化的獎勵功能。簡單來說，強化學習系統找出實現目標的最佳行為，而逆強化學習系統給定一組行為來理解潛在的目標。

　　羅素清楚知道機器應該致力於最佳化人類經驗的整體品質，而不是一昧地達成目標。他發現如果不確定該怎麼做到——假如電腦不知道人類喜歡什麼——它們可以從逆強化學習中學到更多。

　　藉由標準的逆強化學習，機器嘗試瞭解人類追求的獎勵功能。在現實生活中，我們可能願意主動幫忙它們瞭解我們。羅素與合作者共同開發出一種新的「合作逆強化學習」，機器可以與人類一起在各種「輔助遊戲」中學習推測人類的真實偏好。輔助遊戲代表著現實世界、部分知識情景的抽象場景。

　　他們開發了一款名為「關閉開關」的遊戲，以解決自主機器可能偏離我們追求的真實偏好：透過禁用它們自己的關閉開關。艾倫‧圖靈（Alan Turing）1951年在英國廣播公司的一次演講中提出「讓機器處在從屬地位是可能的，例如在關鍵時刻自動關閉電源」。科學家現在發現這種說法太過簡單化，有什麼方法能阻止人工智慧禁用自己的關閉開關呢？或者更廣泛地說，如何讓它們忽略停止增加獎勵功能的命令呢？

　　羅素在《人類相容》一書寫道：「關閉開關問題是控制人工智慧系統的核心問題。如果因為機器不允許人們關掉它，那我們就真的有麻煩。如果我們可以做到，那我們也許還能藉由其他方式控制它。當下指令的人更理智和講道理時，機器就越會願意讓自己被關掉，即使它比我們更聰明，因此目標的不確定性對於確保我們能否關閉機器來說至關重要。」

　　羅素的研究是基於抽象遊戲所開發，而史考特‧尼庫姆（Scott Niekum）在德州大學實驗室正在讓機器實際運行偏好學習演算法。尼庫姆專注於讓人工智慧系統量化它們對人類偏好的不確定性，讓機器判斷自己何時知道夠多的資訊，並做出夠安全的行為。

　　尼庫姆和同事發現一種有效的演算法，能夠讓機器人學習執行任務，甚至比人類示範做得還好。以自動駕駛汽車為例，機器觀看人類駕駛員示範來學習如何駕駛，但尼庫姆和同事發現，藉由展示一個根據人類駕駛表現好壞的排名示範，可以提高且顯著加快機器學習的速度。機器從排名示範當中發現了更好的獎勵功能模式，並且衡量不同獎勵函數的相對可能性，尼庫姆說：「即使它從來沒有看過完美的示範。」

我們跟機器一樣也在嘗試瞭解自己的偏好和目標，但假如所有人類都不是很善良呢？

　　羅素看見了兩個主要的挑戰，他說：「一個事實是，人類的行為遠非理性，因此很難重建我們真實的潛在偏好。」人工智慧系統將會需要對長期、中期和短期目標的層級進行推理判斷，如果機器想要幫助人類（而且避免犯下嚴重的錯誤），它們會需要知道如何繞過我們潛意識裡的信念，以及無法傳達的欲望所構成的模糊想法。

　　第二個挑戰是人類的偏好隨時會改變。我們的想法在日常生活經常改變，也會在一瞬間發生變化，完全取決於我們的情緒或機器難以理解的環境變化。

　　此外，我們的行為並不總是符合我們的理想。人類可以同時相信互相衝突的價值觀，如果是這樣機器應該先最佳化哪一個？為了避免迎合我們最糟糕的衝動（或者更糟糕的是放大衝動，就像YouTube演算法所做的那樣），機器可能要學習羅素所說的「後設偏好」，他說：「有關哪種偏好改變過程可能是可以接受或不可接受的目標。我們如何看待情感上的變化？這一切對於一無所知的機器來說是相當大的資訊。」

　　事實上，我們跟機器一樣也在嘗試瞭解自己的偏好和目標，它們是什麼，我們希望它們是什麼，以及如何處理模糊和矛盾的想法。人類也在努力——至少我們之中的一些人——去理解善，而人工智慧系統可能也會像人類一樣永遠被困在這個問題之中，或者在關閉的位置等待著，因為太難確定而無法提供幫助。

　　然而，還有第三個挑戰沒有出現在羅素的清單上：如何辨識壞人的偏好？有什麼方法能阻止機器為滿足主人的邪惡目的而做出壞事呢？人工智慧系統往往能找到繞過禁令的方法，好比富人總能找到逃漏稅的方法，所以明文禁止的規定可能也很難制止。或者想得更黑暗負面一點：假如所有人類都不是很善良呢？

　　儘管如此，羅素對此還是保持樂觀態度，需要更多的演算法測試和博弈論研究，他認為有害的偏好可以被工程師減弱——同樣的方法或許還可以應用在培養與教育孩子與社會等方面。換句話說，在教導機器做個好人的同時，我們可能也需要找到一種自我教育的方法，他說：「我覺得這是一個機會，或許能把事情引導至正確的方向。」