資料科學家直指DeepMind:“強化學習無法實現通用人工智慧”

資料科學家直指DeepMind:“強化學習無法實現通用人工智慧”

圖片來源@視覺中國

文 | 學術頭條,作者 | XT,編輯 | 寇建超

今年 6 月,DeepMind 首席研究科學家、倫敦大學學院教授 David Silver 及其合作者在一篇題為 “ Reward is enough ” 論文中指出,人工智慧及其相關能力不是透過制定和解決複雜問題而產生的,而是透過堅持一個簡單而強大的原則:獎勵最大化。

Silver 等人認為,簡單的獎勵是豐富環境中的代理人開發多屬性智慧的全部需要,而這種多屬性智慧正是實現通用人工智慧所需的全部。

但很顯然,並不是所有人都同意這一觀點。

近日,資料科學家 Herbert Roitblat 就針對 DeepMind 團隊提出的這一觀點提出了反駁意見。在他看來,雖然 Silver 等人的說法聽起來像是一個大膽的主張,但事實上卻很模糊,甚至幾乎毫無意義。

資料科學家直指DeepMind:“強化學習無法實現通用人工智慧”

值得一提的是,Roitblat 也是 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一書的作者。

產生智慧的前提存在誤導

據瞭解,第一個試圖證明單一學習機制就足夠的重要專案是 B。F。 Skinner 的行為主義版本,以他的 Verbal Behavior 一書為代表。這本書受到了美國哲學家 Noam Chomsky(1959 年)的嚴厲批評,Chomsky 稱 Skinner 試圖解釋人類的語言產生是 “戲劇表演科學” 的例子;第二個主要建議是由 Rumelhart 和 McClelland(1986年)提出的側重於英語動詞過去式學習的建議,但遭到了 Lachter 和 Bever(1988年)的嚴厲批評,認為他們透過選擇的特定方式來表示他們的聯結主義系統正在學習轉換的單詞的音位特性,其中包含使系統成功的特定資訊。

資料科學家直指DeepMind:“強化學習無法實現通用人工智慧”

圖 | 以行為主義研究而聞名的美國心理學家 Burrhus Frederic Skinner(來源:Wikipedia)

之所以前面的這兩次嘗試都失敗了,是因為他們屈服於確認偏見。正如 Silver 等人所做的那樣,他們報告了與假設相一致的資料,而沒有考慮可能的替代性解釋,他們將模稜兩可的資料解釋為支援性的。這三個專案都沒有考慮到他們模型中的隱性假設,如果沒有這些隱含的 TRICS(Lachter 和 Bever 對 “其關鍵假設的表徵” 的稱呼),這些系統中就不會存在“智慧”。

Silver 等人更進一步,還提出它足以達到智慧,特別是足以解釋通用人工智慧。Silver 等人的論點可以歸納為以下三個命題:

獎勵最大化足以產生智慧。“獎勵最大化的通用目標足以驅動表現出自然和人工智慧中所研究的大多數(如果不是全部)能力的行為。”

智力是實現目標的能力。“智力可以被理解為實現目標的靈活能力。”

成功是透過最大化獎勵來衡量的。“因此,成功是透過最大化獎勵來衡量的。”

簡而言之,他們提出智慧的定義是使獎勵最大化的能力,同時他們用獎勵的最大化來解釋智力的出現。繼 17 世紀作家莫里哀(Molière)之後,一些哲學家將這種論證稱為 virtus dormativa(一種誘導睡眠的美德)。當被要求解釋為什麼鴉片會導致睡眠時,莫里哀在 Imaginary Invalid 中的單身漢(bachelor)回答說,它有安眠的屬性(一種誘導睡眠的美德)。當然,這只是對正在尋求解釋的屬性的命名。獎勵最大化在 Silver 的假設中起著類似的作用。實現目標既是智慧的過程,也解釋了智慧的過程。

資料科學家直指DeepMind:“強化學習無法實現通用人工智慧”

圖 | “Reward is enough” 的假設,假定智力及其相關能力可以被理解為在其環境中行動的主體促進獎勵的最大化(來源:ScienceDirect)

之所以 Chomsky 批評 Skinner 的方法,是因為該方法假設任何表現出來的行為都必須有一些獎勵。如果有人看著一幅畫說 “荷蘭語”,Skinner 的分析假設是,這幅畫的某些特徵一定會因為“荷蘭語”的表達而受到獎勵。但是,Chomsky 認為,這個人可以說任何其他的東西,包括 “彎曲的”、“可怕的”或 “讓我們吃點午餐”。Skinner 無法指出導致這些言論的具體特徵,也不能提供任何證據來證明該言論在該特徵存在的情況下曾被獎勵過。

引用一位 18 世紀法國作家 Voltaire 的話說,他的博士 Pangloss 在 Candide 中曾這樣說:“請注意,鼻子的形成是為了承受眼鏡,因此我們有了眼鏡。” 一定有一個問題可以透過任何特徵來解決,在這種情況下,他聲稱鼻子的形成只是為了讓眼鏡可以被托起。Pangloss 還表示:“可以證明……事物不可能不是本來的樣子;因為一切都是為了一個目的而創造的,一切都必然是為了最好的目的。”

智慧的誘發存在多種影響因素

Silver 等人在論文中寫道:“當與智慧相關的能力作為獎勵最大化的單一目標的解決方案出現時,這實際上可能提供了一個更深入的理解,因為它解釋了為什麼這種能力會出現。相反,當每一種能力被理解為其自身專門目標的解決方案時,為了關注該能力的作用,為什麼的問題就被繞開了。”

而 Roitblat 的觀點是:對 Silver 等人來說,這個目的就是一個解決問題的方法,而智慧的學習正是為了這個目的,但我們不一定知道這個目的是什麼,也不知道是什麼環境特徵誘發了它,但一定有什麼東西。

Gould 和 Lewontin (1979) 很好地利用 Pangloss 博士批評他們所謂的進化生物學中的 “適應主義者( adaptationist )” 或“過分樂觀者( Panglossian )”正規化。適應主義的核心原則是,任何特徵都必須有一個適應性的解釋。

他們指出,威尼斯聖馬可大教堂的高裝飾拱門(兩個拱門相交處近似三角形形狀)是一個建築特徵,源於選擇設計四個拱門的大教堂,而不是建築設計的驅動力。拱門的選擇決定了壁爐的位置,而不是壁爐的位置決定拱門。一旦建築師選擇了拱門,拱肩是必要的,而且可以進行裝飾。Gould 和 Lewontin 說:“每個扇形拱頂都必須有一系列沿拱頂中線的開放空間,即扇形兩側在支柱之間相交的地方。由於這些空間必須存在,所以它們經常被用來達到巧妙的裝飾效果。”

資料科學家直指DeepMind:“強化學習無法實現通用人工智慧”

圖 | 威尼斯聖馬可大教堂的拱肩 (來源: Michael Vadon under Creative Commons license)

Gould 和 Lewontin 給出了另一個例子,對阿茲臺克人祭祀同類相食的適應性解釋。阿茲特克人從事活人祭祀。從適應主義的角度解釋是,祭祀制度是解決肉類長期短缺問題的方法。受害者的四肢經常被社群中的某些地位高的成員吃掉。這種 “解釋” 認為,構成這一精心設計的儀式性謀殺的神話、象徵和傳統系統是對肉的需求的結果,而事實可能恰恰相反。每一位新國王都必須超越他的上一任,為更多的人獻上越來越精緻的祭品。這種做法似乎使阿茲特克帝國的經濟資源日益緊張。其他蛋白質來源很容易獲得,只有某些已經擁有足夠食物的特權人士才會吃犧牲的受害者的某些部分。如果目標是讓飢餓的人吃到肉,那麼人們會期望他們能夠更有效地利用受害者,並更廣泛地傳播食物來源。對肉的需求不太可能成為人類犧牲的原因;相反,它似乎是其他文化習俗的結果,這些習俗實際上對阿茲特克文明的生存不適應。

引用 Silver 等人迄今為止的論點,如果目標是成為富人,那麼只要積累大量的金錢就足夠了。用積累金錢就可以用成為富人的目標來解釋,成為富人的定義是積累了大量的金錢。強化學習沒有解釋一個人如何去積累金錢或為什麼這應該是一個目標。他們認為,這些都是由環境決定的。

Silver 等人認為,如果一個智慧體可以不斷調整其行為以提高其累積獎勵,那麼其環境反覆要求的任何能力最終都必須在智慧體的行為中產生。

在Silver 等人在自然智慧和通用人工智慧之間進行了類比,並指出 “動物的經驗流足夠豐富和多樣的,它可能需要一種靈活的能力來實現各種各樣的子目標(例如覓食、戰鬥或逃跑),以便成功地最大化其整體獎勵(例如飢餓或繁殖)。類似地,如果一個人工智慧代理的經驗流足夠豐富,那麼許多目標(例如電池壽命或生存)可能隱含地需要實現同樣廣泛的子目標的能力,因此獎勵的最大化應該足以產生一種通用的人工智慧。”

Roitblat 反駁道,只靠獎勵本身其實是不夠的,至少環境也發揮了作用。但適應的內容遠不止這些。適應需要一個變異性的來源,從中可以選擇出某些特徵。進化生物學中這種變異的主要來源是突變和重組。任何生物體的繁殖都涉及到將基因從父母那裡複製到孩子身上。複製的過程並不完美,並且會出現錯誤。其中許多錯誤是致命的,但也有一些不是,然後可用於自然選擇。在有性繁殖的物種中,每一個親本都貢獻了其基因的一個副本(以及任何潛在的錯誤),這兩個副本允許透過重組產生額外的變異性,一些來自一個親本的基因,一些來自另一個親本的基因傳遞給下一代。

資料科學家直指DeepMind:“強化學習無法實現通用人工智慧”

圖 |英國生物學家 Dawkins(來源:Flickr)

獎勵是選擇。僅此而已,這是不夠的。正如 Dawkins 所指出的,進化獎勵是將特定基因傳遞給下一代。獎勵是在基因層面,而不是在生物體或物種層面。任何能增加基因從一代傳給下一代的機會的東西,都是對這種獎賞的調解,但請注意,基因本身並沒有能力成為智慧。

除了獎勵和環境,其他因素也在進化和強化學習中發揮著作用。獎勵只能從現有的原材料中進行選擇。如果我們將一隻老鼠扔進一個洞穴,它就不會像蝙蝠一樣學會飛行和使用聲納。積累足夠的突變需要多代甚至數百萬年的時間,即便如此,也不能保證它能進化出與蝙蝠一樣的解決洞穴問題的方法。強化學習是一個純粹的選擇性過程。強化學習是提高行動機率的過程,這些行動共同構成了處理某種環境的政策。這些行動必須已經存在,才能被選中。至少就目前而言,這些行動是由進化中的基因和人工智慧中的程式設計師提供的。

針對這一問題,Silver 等人在論文中也提到,在不同的環境中實現不同的獎勵最大化可能會導致不同的、強大的智慧形式,每一種智慧都會表現出自己令人印象深刻的、但又無法比擬的一系列能力。一個好的獎勵最大化的代理將利用其環境中存在的任何元素,但某種形式的智慧的出現並不以它們的具體內容為前提。

理論與現實的結合

正如 Lachter 和 Bever 所指出的那樣,學習並不像 Silver 等人所聲稱的那樣從 “白板”( Tabula rasa )開始,而是從一組代表性的承諾開始。Skinner 的大部分理論都基於動物的強化學習,尤其是鴿子和老鼠。他和許多其他研究人員在嚴酷的環境中研究了它們。對於老鼠來說,那是一個房間,裡面有一個供老鼠按壓的槓桿和一個提供獎勵的餵食器。老鼠除了在短距離內徘徊並接觸槓桿外,沒有什麼其他可以做的。鴿子也在一個包含啄食鍵(通常是牆上的一個有機玻璃圈,可以被照亮)和一個提供獎勵的穀物餵食器的環境中接受了類似的測試。在這兩種情況下,動物都有一種預先存在的偏見,即以行為學家希望的方式作出反應。事實證明,即使沒有獎勵,老鼠也會接觸槓桿,鴿子也會在黑暗的盒子裡啄食發光的鑰匙。這種以理想方式做出反應的傾向使得訓練動物變得容易,研究者可以不費吹灰之力地研究獎勵模式的影響。但多年後人們才發現,選擇槓桿或啄食鑰匙並不只是一種任意的便利,而是一種未被承認的 “幸運選擇”。

當 Rumelhart 和 McClelland 建立他們的過去式學習者時,同樣未被承認的幸運選擇發生了。他們選擇的表徵恰好反映了他們希望他們的神經網路能夠學習的資訊。這不是單純依靠一般學習機制的 “白板”。Silver 等人在題為 “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play” 的論文中指出,在開發 AlphaZero 時也很 “幸運”,他們在本文中提到了這一點。他們在提出這一主張的同時,對 AlphaZero 進行了更詳細的說明。

他們的結果表明,一個通用的強化學習演算法可以在沒有特定領域的人類知識或資料的情況下學習“白板”,同一演算法在多個領域的成功學習證明了這一點,在多個具有挑戰性的遊戲中表現出了超人的表現。

他們還指出,AlphaZero 用深度神經網路、通用強化學習演算法和通用樹形搜尋演算法取代了傳統遊戲程式中使用的手工知識和特定領域的增強功能。

他們不包括明確的針對遊戲的計算指令,但確實包括了人類對解決問題的重大貢獻。例如,他們的模型包括一個 “神經網路 fθ(s),[它]將棋盤位置 s 作為輸入,並輸出一個移動機率向量”。換句話說,他們並不期望計算機知道它在玩遊戲,或者遊戲是透過輪流進行的,或者它不能只是把圍棋棋子堆成一堆或把棋盤扔在地上。他們還提供了許多其他的約束條件,例如,讓機器與自己對弈。他們使用的樹狀表示法曾經是代表遊戲玩法的巨大創新。樹的分支對應於可能的移動範圍,沒有其他操作是可能的。計算機還被提供了一種使用蒙特卡洛樹形搜尋演算法搜尋樹的方法,並且提供了遊戲的規則。

那麼,AlphaZero 遠不是一個“白紙黑字”,它被賦予了大量的先驗知識,這大大限制了它可以學習的可能範圍。因此,即使在學習圍棋的背景下,也不清楚 “獎勵是足夠的”意味著什麼。要使獎勵足夠,它就必須在沒有這些限制的情況下發揮作用。此外,目前還不清楚,即使是一個一般的遊戲系統,是否也能算作在不太受約束的環境中進行一般學習的一個例子。AlphaZero 對計算智慧作出了重大貢獻,但它的貢獻主要設計它的人類智慧,識別其執行的約束,並將玩遊戲的問題減少到定向樹搜尋。此外,它的約束條件甚至不適用於所有遊戲,而只適用於有限型別的遊戲。它只能玩某些型別的棋盤遊戲,這些棋盤遊戲的特徵是樹搜尋,學習者可以將棋盤位置作為輸入並輸出一個機率向量。沒有證據表明它甚至可以學習另一種棋盤遊戲,比如大富翁,甚至 Parchisi。

在沒有約束的情況下,獎勵並不能解釋任何東西。AlphaZero 不是所有種類學習的模型,當然也不是通用智慧的模型。

Silver 等人將一般智慧視為一個定量問題。“通用智慧,即人類和其他動物所擁有的那種智慧,可以被定義為在不同背景下靈活地實現各種目標的能力。”

需要多大的靈活性?多大範圍的目標?如果我們有一臺電腦,可以交替地下圍棋、跳棋和國際象棋,這仍然不構成通用智慧。即使我們增加了另一種遊戲,即象棋,我們仍然擁有完全相同的計算機,它仍然可以透過找到一個模型來工作,該模型“以棋盤位置 s 作為輸入並輸出移動機率向量”。計算機完全沒有能力接受任何其他的 “想法” 或解決任何無法以這種特定方式表示的任何問題。

通用人工智慧中的 “通用” 不是以它可以解決不同問題的數量為特徵,而是以解決多種型別問題的能力為特徵。一個通用智慧代理必須能夠自主地制定自己的表述,它必須創造自己的方法來解決問題,選擇自己的目標、表徵、方法等等。到目前為止,這都是人類設計師的職權範圍,他們將問題簡化為計算機可以透過調整模型引數解決的形式。除非我們能夠消除對人類構建問題的依賴,否則我們無法實現通用智慧。強化學習,作為一個選擇性的過程,無法做到這一點。

正如行為主義和認知主義之間的對抗,以及反向傳播是否足以學習語言學的過去式轉換的問題一樣,這些簡單的學習機制只有在我們忽略了其他往往未被承認的限制因素所帶來的沉重負擔時才顯得充分。獎勵在可用的替代方案中進行選擇,但它們無法創造這些替代物。只要我們不仔細觀察這些現象,只要我們假設一定有某種獎勵能強化某種行動,行為主義的獎勵就能發揮作用。善於事後“解釋”任何觀察到的行為,但在實驗室之外,它們無助於預測哪些行動即將發生。這些現象與獎勵是一致的,但如果認為它們是由獎勵引起的,那就錯了。

Roitblat 在 Algorithms Are Not Enough: How to Create Artificial General Intelligence 一書中解釋了為什麼所有當前包括強化學習在內的人工智慧演算法,都需要仔細制定人類建立的問題和表示。他表示,一旦建立了模型及其內在表示,最佳化或強化就可以指導其進化,但這並不意味著強化就足夠了。同樣,Roitblat 補充說,該論文沒有就如何定義強化學習的獎勵、動作和其他元素提出任何建議。與 Silver 等人的說法相反,他認為獎勵是不夠的。

參考資料:

https://venturebeat。com/2021/07/10/building-artificial-intelligence-reward-is-not-enough/

https://www。sciencedirect。com/science/article/pii/S0004370221000862

https://mp。weixin。qq。com/s/5M1kuNp9z83yJkjKTE9m3g