圖靈獎得主楊立昆:GPT模式五年就不會有人用了,世界模型才是AGI未來(2)
機器學習的未來挑戰(zhàn)
那么,我們要如何做到這一點呢?事實上,我已經(jīng)有點確定了未來幾年人工智能的三大挑戰(zhàn):
學習世界表征及預測的模型。最好是使用自我監(jiān)督學習。
學習推理:這與心理學的想法相對應,例如丹尼爾-卡漢曼的想法,即系統(tǒng)2與系統(tǒng)1。因此,系統(tǒng)1是對應于潛意識計算的人類行動或行為,是你不假思索做的事情。然后系統(tǒng)2是你有意識地做的事情,你使用你的全部思維能力。而自回歸模型基本上只做系統(tǒng)1,根本就不太聰明。
最后一件事是通過將復雜的任務分解成簡單的任務,分層地推進和規(guī)劃復雜的行動序列。
然后,大約一年前,我寫了一篇愿景論文,我把它放在公開評論中,請你們看看。這基本上是我對我認為人工智能研究在未來10年應該走向的建議。它是圍繞著這樣一個想法,我們可以把各種模塊組織到所謂的認知架構中,在這個系統(tǒng)中的核心是世界模型。
世界模型:通往AGI之路
世界模型是系統(tǒng)可以用來基本上想象一個場景的東西,想象將會發(fā)生什么,也許是其行為的后果。因此,整個系統(tǒng)的目的是根據(jù)它自己的預測,使用它的文字模型,找出一連串的行動,以最小化一系列的成本。成本你可以認為是衡量這個代理人的不適程度的標準。順便說一下,這些模塊中的許多在大腦中都有相應的子系統(tǒng)。成本模塊是我們(大腦里)的世界模型——前額葉皮層,短期記憶對應著海馬體;行為者可能是前運動區(qū);感知系統(tǒng)是大腦的后部,所有傳感器的感知分析都在這里進行。
這個系統(tǒng)的運作方式是通過它可能被儲存在記憶中的以前對世界的想法,去處理當前世界的狀態(tài)。然后你用世界模型來預測如果世界接著運轉繼會發(fā)生什么,或者它作為代理將采取的行動的后果是什么。這是在這個黃色的行動模塊里面。行動模塊提出一連串的行動。世界模型模擬世界并計算出這些行動的后果會發(fā)生什么。然后計算出一個成本。然后將要發(fā)生的是,系統(tǒng)將優(yōu)化行動序列,以便使世界模型最小化。
所以我應該說的是,每當你看到一個箭頭朝向一個方向時,你也有梯度在向后移動。所以我假設所有這些模塊都是可分的,我們可以通過反向傳播梯度來推斷行動序列,從而使成本最小化。這不是關于參數(shù)的最小化——這將是關于行動的最小化。這是對潛在變量的最小化。而這是在推理時進行的。
因此,有兩種真正的方式來使用該系統(tǒng)。它類似于系統(tǒng)1,我在這里稱之為模式1,基本上它是反應性的。系統(tǒng)觀察世界的狀態(tài),通過感知編碼器來運行它,生成一個世界狀態(tài)的概念,然后直接通過策略網(wǎng)絡來運行它,而行為者只是直接產(chǎn)生一個行動。
模式2是你觀察世界并提取世界狀態(tài)的表征為0。然后,系統(tǒng)想象出從a[0]到一個很長T(時間)的一系列行動。這些預測的狀態(tài)被送入一個成本函數(shù),而系統(tǒng)的整個目的基本上是找出行動的序列,根據(jù)預測使成本最小。因此,這里的世界模型在每個時間步驟中重復應用,本質上是從時間T的世界表征中預測出時間T+1的世界狀態(tài),并想象出一個擬議的行動。這個想法非常類似于優(yōu)化控制領域的人們所說的模型預測優(yōu)化。在深度學習的背景下,有許多使用這個想法來規(guī)劃軌跡工作的模型被提出來過。
這里的問題是我們到底如何學習這個世界模型?如果你跳過這個問題,我們期望做的是一些更復雜的版本,我們有一個分層系統(tǒng),通過一連串的編碼器,提取世界狀態(tài)的更多和更抽象的表示,并使用不同層次預測器的世界模型,在不同的擾動水平預測世界的狀態(tài),并在不同的時間尺度上進行預測。在這里的較高層次是指舉例來說,如果我想從紐約去北京,我需要做的第一件事就是去機場,然后搭飛機去北京。因此,這將是計劃的一種高層次的表示。最終的成本函數(shù)可以代表我與北京的距離,比如說。然后,第一個行動將是:去機場,我的狀態(tài)將是,我在機場嗎?然后第二個行動將是,搭飛機去北京。我怎么去機場呢?從,比方說,我在紐約的辦公室。我需要做的第一件事是,到街上去攔一輛出租車,并告訴他去機場。我如何走到街上去?我需要從椅子上站起來,我去出口處,打開門,走到街上,等等。然后你可以這樣想象,把這個任務一直分解到毫秒級,按毫秒級控制,你需要做的就是完成這個規(guī)模。
因此,所有復雜的任務都是以這種方式分層完成的,這是一個大問題,我們今天不知道如何用機器學習來解決。所以,我在這里展示的這個架構,還沒有人建立它。沒有人證明你可以使它發(fā)揮作用。所以我認為這是一個很大的挑戰(zhàn),分層規(guī)劃。
成本函數(shù)可以由兩組成本模塊組成,并將由系統(tǒng)調制以決定在任何時候完成什么任務。所以在成本中有兩個子模塊。有些是那種內(nèi)在的成本,是硬性規(guī)定的、不可改變的。你可以想象,那些成本函數(shù)將實施安全護欄,以確保系統(tǒng)行為正常,不危險,無毒等等。這是這些架構的一個巨大優(yōu)勢,即你可以在推理的時候把成本進行優(yōu)化。
你可以保證那些標準,那些目標將被強制執(zhí)行,并將被系統(tǒng)的輸出所滿足。這與自回歸LLM非常不同,后者基本上沒有辦法確保其輸出是好的、無毒的和安全的。
楊立昆 X 朱軍 QA 環(huán)節(jié)
朱軍:
你好,LeCun教授。很高興再次見到你。那么我將主持問答環(huán)節(jié)。首先再次感謝你這么早起來做了這個富含思想的研討會報告,并提供了這么多見解??紤]到時間的限制,我選擇了幾個問題來問你。
正如你在演講中討論到生成型模型有很多問題,大多數(shù)我都同意你的看法,但是關于這些生成式模型的基本原則方面,我還是有一個問題要問你。生成模型就其定義來說,就是會輸出多種的選擇。另外,當我們應用生成模型的多樣性時,創(chuàng)造性是一個理想的屬性。所以我們經(jīng)常樂見用模型來輸出多樣化的結果。這是否意味著實際上像事實錯誤或不合邏輯的錯誤,不一致的地方,對于這樣的模型來說是不可避免的?因為在很多情況下,即使你有數(shù)據(jù),數(shù)據(jù)也可能包含了矛盾的事實。你也提到了預測的不確定性。所以這是我的第一個問題。那么你對此有什么想法?
楊立昆:
沒錯。所以我不認為自回歸預測模型、生成模型的問題是可以通過保留自回歸生成來解決的。我認為這些系統(tǒng)本質上是不可控的。因此,我認為它們必須被我提出的那種架構所取代,即在推理中包含時間,有一個系統(tǒng)去最優(yōu)化成本和某些標準。這是使它們可控、可引導、可計劃的唯一方法,即系統(tǒng)將能夠計劃出它們的答案。你知道當你在做一個像我剛才那樣的演講時,你會計劃演講的過程,對嗎?你從一個點講到另一個點,你解釋每個點。當你設計演講時,你在腦子里會計劃這些,而并不是(像大語言模型一樣)一個字接一個字地即興演講。也許在較低的(行為)水平上,你是即興創(chuàng)作,但在較高的(行為)水平上,你是在計劃。所以,計劃的必要性真的很明顯。而人類和許多動物有能力進行規(guī)劃的事實,我認為這是智力的一個內(nèi)在屬性。所以我的預測是,在相對較短的幾年內(nèi)--當然是在5年內(nèi)--沒有腦子正常的人會接著用自回歸LLM。這些系統(tǒng)將很快被拋棄。因為它們是無法被修復的。
朱軍:
好的。我想另一個關于控制的問題:在你的設計和框架中,一個關鍵部分是內(nèi)在成本模塊,對嗎?所以它的設計基本上是為了決定代理人行為的性質??戳四愕墓ぷ魑募械拈_放性觀點后,我和網(wǎng)上的一個評論有共同的擔憂。這個評論說,主要是這個模塊沒有按照規(guī)定工作。也許代理最后[屏幕凍結]了。
楊立昆:
保證系統(tǒng)安全的成本模塊不會是一個微不足道的任務,但我認為這將是一個相當明確的任務。它需要大量仔細的工程和微調,其中一些成本可能要通過訓練獲得,而非僅僅通過設計。這與強化學習中的策略評估(Actor-Crtic結構中的Ctric,對作為語言模型的行為者產(chǎn)出的結果進行評估)或LLM背景下的所謂獎勵模型是非常相同的,是一個會整體考量系統(tǒng)的內(nèi)部狀態(tài)到成本全程的事情。你可以訓練一個神經(jīng)網(wǎng)絡來預測成本,你可以通過讓它接觸大量的——讓它產(chǎn)生大量的輸出,然后讓某人或某物對這些輸出進行評價來訓練它。這給了你一個成本函數(shù)的目標。你可以對它進行訓練,讓它計算出一個小的成本,然后在得到成本之后通過它進行反向傳播,以保證這個成本函數(shù)得到滿足。所以,我認為設計成本這事兒,我認為我們將不得不從設計架構和設計LLM的成本轉向設計成本函數(shù)。因為這些成本函數(shù)將推動系統(tǒng)的性質和行為。與我的一些對未來比較悲觀同事相反,我認為設計與人類的價值觀相一致的成本(函數(shù))是非常可行的。這不是說如果你做錯一次,就會出現(xiàn)人工智能系統(tǒng)逃脫控制和接管世界的情況。而且我們在部署這些東西之前,會有很多方法把它們設計得很好。
朱軍:
我同意這一點。那么另一個與此相關的技術問題是,我注意到你通過分層的JEPA設計來模型,這其中幾乎所有的模塊都是可微的,對嗎?也許你可以用反向傳播的方法來訓練。但是你知道還有另外一個領域,比如說符號邏輯,它代表著不可微的部分,也許在內(nèi)在成本模塊中能以某種形式制定我們喜歡的約束條件,那么,你是否有一些特別的考慮來連接這兩個領域,或者干脆就忽略符號邏輯的領域?
楊立昆:
對。所以我認為是的,現(xiàn)實中是有一個神經(jīng)+符號架構的子領域,試圖將可訓練的神經(jīng)網(wǎng)絡與符號操作或類似的東西結合在一起。我對這些方法非常懷疑,因為事實上符號操作是不可微的。所以它基本上與深度學習和基于梯度的學習不兼容,當然也與我所描述的那種基于梯度的推理不兼容。所以我認為我們應該盡一切努力在任何地方使用可微分的模塊,包括成本函數(shù)?,F(xiàn)在可能有一定數(shù)量的情況下,我們可以實現(xiàn)的成本(函數(shù))是不可微的。對于這一點,執(zhí)行推理的優(yōu)化程序可能必須使用組合型的優(yōu)化,而不是基于梯度的優(yōu)化。但我認為這應該是最后的手段,因為零階無梯度優(yōu)化比基于梯度的優(yōu)化要少很多。因此,如果你能對你的成本函數(shù)進行可微調的近似,你應該盡可能地使用它。在某種程度上,我們已經(jīng)這樣做了。當我們訓練一個分類器時,我們想要最小化的成本函數(shù)并不完全準確。但這是不可微分的,所以我們使用的是一個可微分的成本代理。是系統(tǒng)輸出的成本熵與所需的輸出分布,或像e平方或鉸鏈損失的東西。這些基本上都是不可微分的二進制法則的上界,我們對它不能輕易優(yōu)化。因此還是用老辦法,我們必須使用成本函數(shù),它是我們實際想要最小化的成本的可微調近似值。
朱軍:
我的下一個問題是,我的靈感來自于我們的下一位演講者Tegmark教授,他將在你之后做一個現(xiàn)場演講。實際上我們聽說你將參加一場關于AGI的現(xiàn)狀和未來的辯論。由于我們大多數(shù)人可能無法參加,你能否分享一些關鍵點給我們一些啟發(fā)?我們想聽到一些關于這方面的見解。
楊立昆:
好的,這將是一場有四位參與者的辯論。辯論將圍繞一個問題展開,即人工智能系統(tǒng)是否會對人類造成生存風險。因此,馬克斯和約書亞本吉奧將站在 "是的,強大的人工智能系統(tǒng)有可能對人類構成生存風險 "的一方。然后站在 "不"的一方的將是我和來自圣菲研究所的梅蘭妮-米切爾。而我們的論點不會是AI沒有風險。我們的論點是,這些風險雖然存在,但通過仔細的工程設計,很容易減輕或抑制。我對此的論點是,你知道在今天問人們,我們是否能保證超級智能系統(tǒng)對人類而言是安全,這是個無法回答的問題。因為我們沒有對超級智能系統(tǒng)的設計。因此,在你有基本的設計之前,你不能使一件東西安全。這就像你在1930年問航空工程師,你能使渦輪噴氣機安全和可靠嗎?而工程師會說,"什么是渦輪噴氣機?" 因為渦輪噴氣機在1930年還沒有被發(fā)明出來。所以我們有點處于同樣的情況。聲稱我們不能使這些系統(tǒng)安全,因為我們還沒有發(fā)明它們,這有點為時過早。一旦我們發(fā)明了它們--也許它們會與我提出的藍圖相似,那么就值得討論。"我們?nèi)绾问顾鼈儼踩?quot;,在我看來,這將是通過設計那些使推理時間最小化的目標。這就是使系統(tǒng)安全的方法。顯然,如果你想象未來的超級智能人工智能系統(tǒng)將是自回歸的LLM,那么我們當然應該害怕,因為這些系統(tǒng)是不可控制的。他們可能會逃脫我們的控制,胡言亂語。但我所描述的那種類型的系統(tǒng),我認為是可以做到安全的。而且我非??隙ㄋ鼈儠?。這將需要仔細的工程設計。這并不容易,就像在過去七十年里,使渦輪噴氣機變得可靠并不容易一樣。渦輪噴氣機現(xiàn)在令人難以置信的可靠。你可以用雙引擎飛機跨越大洋,而且基本上具有這難以置信的安全性。因此,這需要謹慎的工程。而且這真的很困難。我們大多數(shù)人都不知道渦輪噴氣機是如何設計成安全的。因此,想象一下這事情這并不瘋狂。弄清楚如何使一個超級智能的人工智能系統(tǒng)安全,也是很難想象的。
朱軍:
好的。謝謝你的洞察和回答。同樣作為工程師,我也再次感謝你。非常感謝。
楊立昆:
非常感謝你。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。