這只是開(kāi)始的結(jié)束

陳永偉2024-03-04 14:36

陳永偉/文

當(dāng)?shù)貢r(shí)間2月15日,美國(guó)科技公司OpenAI、Meta和谷歌不約而同地選擇在這一天發(fā)布了自己的新模型(OpenAI的Sora、Meta的V-JEPA、谷歌的GeminiPro1.5),這讓本已高度“內(nèi)卷”的AI市場(chǎng)的競(jìng)爭(zhēng)達(dá)到了白熱化的程度。

三款模型中,Sora可以根據(jù)文本生成遠(yuǎn)比過(guò)去同類產(chǎn)品驚艷的視頻;V-JEPA雖然在視頻生成上的表現(xiàn)略遜于Sora,但卻號(hào)稱應(yīng)用了非生成式的世界模型;而GeminiPro1.5作為一個(gè)多模態(tài)模型,其支持的上下文竟達(dá)到了驚人的1000萬(wàn)token(計(jì)算機(jī)運(yùn)行中,文本處理的最小單位)。在如此集中的時(shí)間,AI技術(shù)竟然在三個(gè)不同的方向上取得了如此巨大的突破,實(shí)在令人驚嘆。

在驚嘆之余,一些老生常談的問(wèn)題又再次出現(xiàn)在了各大媒體。比如:這一場(chǎng)AI大戰(zhàn)的終局會(huì)是如何?AI能力的突飛猛進(jìn),是否意味著“通用人工智能”(Artificial General Inteligence,簡(jiǎn)稱A-GI)已經(jīng)近在咫尺?在AGI到來(lái)之后,人類的命運(yùn)又會(huì)走向何方?

這些問(wèn)題十分重要,但是,如果我們對(duì)這些問(wèn)題的討論僅僅只是基于科幻式的想象,那么討論本身也就會(huì)最終淪為空談。相比之下,一種更為科學(xué)的討論方式或許是:在思考這些新模型會(huì)帶來(lái)什么影響之前,先從技術(shù)的角度弄清楚,這些模型究竟意味著什么。下面,我們就從這個(gè)理念出發(fā),開(kāi)始我們的探究之旅。

天空背后的秘密

盡管Sora、V-JEPA和GeminiPro1.5都十分亮眼,但從原創(chuàng)性角度看,前兩款模型的重要性似乎是更為突出的,因?yàn)樗鼈儙缀蹩梢员灰暈槭峭ㄏ駻GI的兩種主要思路——生成模型和世界模型的最主要代表。GeminiPro1.5雖然也非常出色,但它本質(zhì)上是其前作GeminiPro的升級(jí),其突破性要稍遜一些。因此,如果要討論新模型的影響,我們不妨將重點(diǎn)放在Sora和V-JEPA上。

那么,讓我們先從外界關(guān)注度最高的Sora開(kāi)始吧。從OpenAI公布的視頻上看,這款以日文“天空”(空,そら)命名的模型表現(xiàn)確實(shí)非常突出:過(guò)去,文生視頻模型通常只能生成幾秒的視頻,而Sora生成的視頻則長(zhǎng)達(dá)一分鐘。不僅如此,它還可以在一定程度上呈現(xiàn)出因果關(guān)系和物理規(guī)律。比如,在一個(gè)視頻中,畫師下筆之后,紙上就出現(xiàn)了朵朵桃花;在另一個(gè)視頻中,隨著食客的一口咬下,原先完整的漢堡就缺了一角。對(duì)于類似的這些物體互相作用后改變形狀的現(xiàn)象,過(guò)去的文生視頻模型很難生成,而Sora卻很好地實(shí)現(xiàn)了這一點(diǎn)。

出于維護(hù)其商業(yè)秘密的考慮,Ope-nAI在發(fā)布ChatGPT之后,就不再公布其產(chǎn)品的相關(guān)論文,這讓完全破解Sora的秘密幾乎成了不可能。好在OpenAI為Sora附上了一份簡(jiǎn)要的技術(shù)報(bào)告,對(duì)于了解技術(shù)概況,這份報(bào)告其實(shí)已經(jīng)足夠了。

按照?qǐng)?bào)告,Sora在原理上可以被概括為“擴(kuò)散模型+Transformer架構(gòu)”的應(yīng)用。

(1)擴(kuò)散模型

說(shuō)到擴(kuò)散模型,相信很多人對(duì)這個(gè)詞并不陌生。雖然這個(gè)模型的詳細(xì)原理必須用數(shù)學(xué)公式才能說(shuō)明,但簡(jiǎn)單來(lái)說(shuō),它可以被理解為一個(gè)降噪生成的過(guò)程。

喜歡看電視的讀者想必都會(huì)有這樣的經(jīng)驗(yàn):當(dāng)電視信號(hào)遇到干擾時(shí),原本的電視畫面上就會(huì)出現(xiàn)一層不規(guī)則的雪花點(diǎn)。干擾信號(hào)越強(qiáng),雪花點(diǎn)就越濃密。當(dāng)干擾強(qiáng)到一定的程度,屏幕上就會(huì)只剩下雪花點(diǎn)。用數(shù)學(xué)的語(yǔ)言講,這種在原本的圖像上加入雪花點(diǎn)的過(guò)程就是“加噪”。

一開(kāi)始,這種滿是雪花點(diǎn)的畫面會(huì)讓人非常不適應(yīng)。但只要看得多了,干擾的影響就會(huì)越來(lái)越小。即使電視屏幕上遍布雪花,人們也可以通過(guò)像素的運(yùn)動(dòng),配合畫外的聲音,自動(dòng)“腦補(bǔ)”出一幅幅清晰的畫面。這樣,他們的腦中就完成了一個(gè)“降噪”的過(guò)程。

為什么人腦可以開(kāi)發(fā)出這樣的“腦補(bǔ)”功能呢?歸根到底,這還是一個(gè)訓(xùn)練的過(guò)程。當(dāng)信號(hào)干擾不嚴(yán)重的時(shí)候,圖形上的雪花并不多,這時(shí)人們可以很容易地結(jié)合先前的觀看經(jīng)驗(yàn),聯(lián)想出清晰的畫面是什么樣的。當(dāng)人們對(duì)輕微干擾習(xí)以為常后,就可以進(jìn)一步去適應(yīng)更為嚴(yán)重的干擾——在腦中,他們可以先把被重度干擾的畫面還原為輕度干擾,再將其還原為清晰畫面。這樣,只要觀看經(jīng)驗(yàn)足夠,人們就可以在腦中訓(xùn)練出自動(dòng)還原雪花點(diǎn)的功能。需要指出的是,在還原的過(guò)程中,額外信息的提示很重要。比如,面對(duì)一團(tuán)模糊的雪花點(diǎn),如果配上《敢問(wèn)路在何方》,人們就很容易“腦補(bǔ)”出唐僧師徒四人跋山涉水的圖像;而如果配上鋼琴曲《TomandJer-ry》,他們“腦補(bǔ)”出的就可能是貓?jiān)谧分鹄鲜蟮膱?chǎng)景。

上面這種從雪花點(diǎn)中“腦補(bǔ)”出圖像的做法,我們也可以用AI來(lái)實(shí)現(xiàn)。具體來(lái)說(shuō),人們可以將大批的圖片“投喂”給AI模型,然后再將這些圖片“加噪”。機(jī)器通過(guò)將加噪前后的圖片進(jìn)行對(duì)比,就可以訓(xùn)練出從帶噪的圖片中還原出清晰圖片的功能。當(dāng)然,AI不可能完美復(fù)現(xiàn)出原圖,只能根據(jù)它從樣本中學(xué)習(xí)到的經(jīng)驗(yàn)來(lái)盡可能對(duì)干擾進(jìn)行修補(bǔ)。這時(shí),它就已經(jīng)在一定程度上具有了創(chuàng)作的能力。人們可以在此基礎(chǔ)上不斷加入更多的干擾,讓模型從干擾中還原出圖像的能力變得越來(lái)越強(qiáng)。最終,他們就可以得到一個(gè)能在完全由無(wú)規(guī)則雪花圖上還原出圖像的模型。由于還原的起點(diǎn)是徹底隨機(jī)的,所以所謂的“還原”就變成了一種徹底的創(chuàng)作。要讓AI明確應(yīng)該往什么方向還原,就需要告訴它一定的提示詞(prompt)。其道理就好像我們要從遍布雪花點(diǎn)的電視中“腦補(bǔ)”圖像,需要有畫外音的幫助一樣。

上述這個(gè)降噪還原的過(guò)程,就是擴(kuò)散模型的基本原理。隨著生成式AI的火爆,它已經(jīng)得到了十分廣泛的應(yīng)用。像MidJourney、StableDiffusion等文生圖模型,Runway、Pika等文生視頻模型,本質(zhì)上都是擴(kuò)散模型的應(yīng)用。

在Sora之前,雖然已經(jīng)有了不少基于擴(kuò)散模型的文生視頻的模型,但這些模型生成的視頻時(shí)間都很短,呈現(xiàn)角度也比較單一。之所以會(huì)出現(xiàn)這樣的問(wèn)題,很大程度上是由于其訓(xùn)練數(shù)據(jù)導(dǎo)致的。受算力等因素的限制,目前用來(lái)訓(xùn)練文生視頻的數(shù)據(jù)主要是一些時(shí)長(zhǎng)較短的視頻,這就導(dǎo)致了由此訓(xùn)練出的模型只能根據(jù)這些短小的視頻來(lái)進(jìn)行外推,其“腦補(bǔ)”能力也就受到了很大的限制。如果要生成長(zhǎng)視頻,就需要額外采用計(jì)算量巨大且速度緩慢的滑動(dòng)窗口方法,從經(jīng)濟(jì)角度看,這是得不償失的。

那么,Sora又是如何克服這些困難的呢?其奧秘就在于它很好地將Transformer和擴(kuò)散模型結(jié)合了起來(lái)。

(2)Transformer架構(gòu)

得益于GPT模型的火爆,作為其基礎(chǔ)架構(gòu)的Transformer的大名也早已被人們熟知。對(duì)于語(yǔ)言模型而言,Transformer是具有革命性的。過(guò)去,語(yǔ)言模型一直面臨著一個(gè)很大的困難,即所謂的“長(zhǎng)期記憶難題”。我們知道,一句話究竟是什么意思很大程度上取決于其上下文。比如,當(dāng)某人說(shuō)“我想買512G的蘋果”時(shí),他究竟是想要買一個(gè)內(nèi)存為512G的蘋果手機(jī),還是想買512克的蘋果,就需要看這句話出現(xiàn)在什么語(yǔ)境之中。因而,至少在理論上,要理解一句話是什么意思,就需要對(duì)其所在的整個(gè)文本進(jìn)行解讀。對(duì)于計(jì)算機(jī)來(lái)說(shuō),這是非常麻煩的。因?yàn)檫@意味著在處理文本時(shí),只能用一種串行的方式來(lái)逐字進(jìn)行解讀,而難以采用并行的處理辦法,處理的效率會(huì)被鎖死在一定的水平。

如何才能打破這個(gè)瓶頸呢?一個(gè)思路是將句子拆分成一個(gè)個(gè)的詞,分別識(shí)別出它們的含義。在完成了這些工作后,再將各詞的意思整合起來(lái),就可以得到這個(gè)句子的意思。但是,怎樣才能保證對(duì)詞的含義識(shí)別精準(zhǔn)呢?那就要看一下它的相對(duì)位置。一般來(lái)說(shuō),距離一個(gè)詞很近的幾個(gè)詞對(duì)其含義的影響是最大的。比如,如果在“蘋果”這個(gè)詞的附近,出現(xiàn)了“手機(jī)”、“芯片”等詞,那么它多半就是指手機(jī);而如果在它的附近,出現(xiàn)了“果汁”、“榨汁機(jī)”等詞,那么它指的就多半是水果。對(duì)于一個(gè)特定的詞,臨近詞對(duì)它的影響大小是不一的。比如,其前一個(gè)詞對(duì)其含義的影響權(quán)重為0.5,其后一個(gè)詞對(duì)其含義的影響為0.3。在AI中,這個(gè)權(quán)重就叫做“注意力”(attention)。通過(guò)對(duì)大樣本數(shù)據(jù)的學(xué)習(xí),AI模型可以對(duì)每一個(gè)詞都給出一個(gè)完整的“注意力”表格。這樣,當(dāng)它再面對(duì)一個(gè)詞的時(shí)候,就可以根據(jù)其在語(yǔ)段中與其他詞的相對(duì)位置很快地識(shí)別出其最可能的含義,而不用在讀完整個(gè)文本后再得出某個(gè)詞的含義。通過(guò)這樣的處理,AI模型就可以實(shí)現(xiàn)對(duì)語(yǔ)言模型的并行處理,從而讓其處理效率得到大規(guī)模的提升。所謂的Transformer模型,就是基于以上注意力機(jī)制設(shè)計(jì)的機(jī)器學(xué)習(xí)架構(gòu)。

(3)Sora是怎樣工作的

雖然文生視頻并不同于語(yǔ)言處理,但它們兩者也有很多相似之處。在某種意義上,人們過(guò)去采用的文生視頻技術(shù)有一點(diǎn)兒類似早期的語(yǔ)言處理,大致上是從一個(gè)畫面出發(fā),逐步根據(jù)初始的圖去擴(kuò)展后續(xù)的畫面。很顯然,這樣的效率是相當(dāng)有限的。怎么才能對(duì)其進(jìn)行改進(jìn)呢?一個(gè)現(xiàn)成的思路就是仿照Transformer的思路,將提示詞的文本拆分,從每個(gè)詞中去識(shí)別出相關(guān)的信息,并根據(jù)這些信息去標(biāo)識(shí)出視頻需要的空間和時(shí)間信息,即視頻需要在什么時(shí)候出現(xiàn)什么樣的圖像?;谶@些信息,再調(diào)用擴(kuò)散模型來(lái)生成所需要的畫面。在Sora當(dāng)中,采用的就是這個(gè)思路。

具體來(lái)說(shuō),Sora在訓(xùn)練過(guò)程中會(huì)先用視頻壓縮技術(shù)將大量的視頻材料進(jìn)行壓縮。經(jīng)過(guò)這一步操作,龐大的視頻資料就被還原成了一堆矩陣的特征值。盡管它們看起來(lái)雜亂無(wú)章,但其中卻包含了關(guān)于視頻變化的最重要信息。通過(guò)機(jī)器學(xué)習(xí),模型可以將這些特征值與標(biāo)識(shí)視頻的文字建立起聯(lián)系。這樣一來(lái),當(dāng)它再看到某一個(gè)詞的時(shí)候,就會(huì)猜出這個(gè)詞意味著應(yīng)該在哪個(gè)時(shí)間點(diǎn)出現(xiàn)怎樣的畫面。在Sora的技術(shù)文檔中,這種標(biāo)識(shí)時(shí)空信息的快照被稱為“時(shí)空補(bǔ)丁”(Spacetimepatches)。在根據(jù)文字生成視頻的過(guò)程中,Sora并不和早期的文生視頻模型那樣直接生成視頻,而是先根據(jù)提示詞翻譯成一系列關(guān)于時(shí)空的信息。比如,“玫瑰逐步綻放”就可能被其解讀為“在視頻第一幀,出現(xiàn)一朵玫瑰;在下一幀,這朵玫瑰的花瓣長(zhǎng)大了一些……”當(dāng)然,這些信息都是由“時(shí)空補(bǔ)丁”來(lái)表現(xiàn)的。當(dāng)有了這一系列的“時(shí)空補(bǔ)丁”后,就相當(dāng)于為有待生成的視頻搭起了框架。隨后,再利用擴(kuò)散模型,就可以在這些時(shí)空補(bǔ)丁的提示之下完成每一幀的圖像。而這些圖像加總在一起,就構(gòu)成了完整的視頻。

當(dāng)然,為了保證生成視頻的質(zhì)量,Sora還在訓(xùn)練時(shí)對(duì)模型進(jìn)行了很多的限制。比如,為了保證視頻不違背物理規(guī)律,它專門植入了相關(guān)的知識(shí)圖譜。但大致上,我們可以將Sora理解為擴(kuò)散模型和Transformer結(jié)合的產(chǎn)物。

(4)或許算力才是重要的

通過(guò)以上介紹,我們可以看到,至少在原理上,Sora并不復(fù)雜。由于我之前對(duì)生成式AI下過(guò)一些功夫,所以在閱讀它的技術(shù)報(bào)告時(shí),也基本沒(méi)有遇到什么困難。

不過(guò),在讀這份報(bào)告的過(guò)程中,我卻總感覺(jué)報(bào)告中闡述的技術(shù)原理和之前讀過(guò)的某篇論文十分相似。很快,我就在報(bào)告的參考文獻(xiàn)中找到了這篇文章,就是OpenAI團(tuán)隊(duì)在去年3月發(fā)表的《基于Transformer的可擴(kuò)展擴(kuò)散模型》(ScalableDiffusionModelswithTransformers)。有很多網(wǎng)友也在第一時(shí)間發(fā)現(xiàn)了這一點(diǎn),為此,一些人還將這篇論文的作者之一——謝賽寧,誤認(rèn)為了Sora的主要開(kāi)發(fā)者之一,最后鬧得謝賽寧本人不得不親自出來(lái)辟謠。

在這篇論文中,早已提出了用Transformer架構(gòu)來(lái)運(yùn)行擴(kuò)散模型的思路,即所謂的DiT。從原理上看,這幾乎和Sora技術(shù)報(bào)告中公布的信息如出一轍。然而,從這篇論文給出的案例看,當(dāng)時(shí)用DiT生成視頻的效率和質(zhì)量都完全無(wú)法和今天的Sora相比。那么,問(wèn)題出在哪兒呢?憑借我個(gè)人的知識(shí),實(shí)在是百思不得其解。直到幾天之后,我在微信上看到了著名AI科學(xué)家李沐的一段評(píng)論,才恍然大悟。

李沐認(rèn)為,Sora和一年前的DiT的關(guān)系,可能就好像GPT-3和GPT-2的關(guān)系。從模型的角度看,GPT-3和GPT-2并沒(méi)有本質(zhì)的差別,但不同的是,GPT-3的參數(shù)量要比GPT-2大得多,并且在訓(xùn)練GPT-3的時(shí)候,投入的算力也要比訓(xùn)練GPT-2時(shí)高出百倍。所謂“大力出奇跡”,很多研究已經(jīng)表明,似乎正是在這種海量算力的投入導(dǎo)致了“涌現(xiàn)”現(xiàn)象的發(fā)生,讓模型的性能出現(xiàn)了質(zhì)的變化。有消息透露,Sora在訓(xùn)練時(shí)投入的算力也比之前訓(xùn)練幾個(gè)DiT模型時(shí)高出了幾百倍。如果這個(gè)消息屬實(shí),那么我們就可以猜想,此次Sora表現(xiàn)出的卓越性能其實(shí)也是涌現(xiàn)的后果——或許,這就是隱藏在天空背后的秘密。

生成模型還是世界模型?

(1)Sora真的懂它在干什么嗎?

在對(duì)Sora模型進(jìn)行了深入分析之后,我們可以得出結(jié)論:雖然Sora的性能確實(shí)比之前的模型有了巨大飛躍,但是,這種飛躍并非源自于原理上的變革,而是由巨大算力堆出來(lái)的另一個(gè)工程奇跡。

事實(shí)上,在最初的一輪熱潮退去之后,不少更為中立的分析都表明,先前人們對(duì)Sora的革命性評(píng)價(jià)似乎有些過(guò)于高估了。比如,雖然根據(jù)Sora發(fā)布的畫面,它已經(jīng)擁有了一定的因果識(shí)別能力,但這種表現(xiàn)似乎更像是來(lái)自開(kāi)發(fā)者對(duì)其事先設(shè)定的知識(shí)圖譜,而并非來(lái)自模型自身能力的改進(jìn)。正是因?yàn)檫@個(gè)道理,所以不少用Sora生成的畫面還會(huì)出現(xiàn)很多不合邏輯之處。比如,在一個(gè)老婦人吹生日蠟燭的視頻中,面對(duì)吹過(guò)的氣流,蠟燭上的火焰竟絲毫沒(méi)有受到影響;而在另外一個(gè)投籃的視頻中,籃球竟在穿過(guò)籃筐之后發(fā)生了爆炸。很顯然,這些情況在現(xiàn)實(shí)中是不可能發(fā)生的。這只能說(shuō)明Sora模型本身還并沒(méi)有能力自行判斷出這些簡(jiǎn)單的道理。只要人們沒(méi)有人為地植入知識(shí)圖譜來(lái)進(jìn)行引導(dǎo),它就可能犯錯(cuò)誤。如果這些判斷是正確的,那么Sora模型所代表的技術(shù)路徑可能就不那么樂(lè)觀。因?yàn)樵诂F(xiàn)實(shí)中,經(jīng)驗(yàn)的規(guī)則是無(wú)窮無(wú)盡的,人們幾乎不可能有能力將所有的規(guī)則都設(shè)定到模型當(dāng)中。

相比于中立的評(píng)論,以圖靈獎(jiǎng)得主、Meta首席人工智能專家楊立昆(YannLeCun)為代表的一些專家對(duì)Sora的批評(píng)則更為激烈。在Sora發(fā)布之后,他就在社交媒體上對(duì)其進(jìn)行了痛批,并斷言Sora代表的技術(shù)路徑必定失敗。在圈外人士看來(lái),楊立昆的這個(gè)批判完全是無(wú)理取鬧,甚至多少有點(diǎn)兒有辱斯文。然而,圈內(nèi)人對(duì)楊立昆的這個(gè)態(tài)度早已是見(jiàn)怪不怪了。從ChatGPT橫空出世開(kāi)始,他就在多個(gè)場(chǎng)合表示GPT模型,甚至更廣義上的生成模型都不會(huì)是通向AGI的正確道路,最終注定不能成功。

(2)世界模型

那么,楊立昆眼中的AGI會(huì)通過(guò)怎樣的技術(shù)路徑實(shí)現(xiàn)呢?他給出的答案是“世界模型”(WorldModels)。

所謂“世界模型”,通俗地說(shuō),就是一種讓機(jī)器能夠像人類一樣對(duì)真實(shí)世界有全面而準(zhǔn)確的認(rèn)知的模型。這個(gè)概念最早來(lái)自于德國(guó)的人工智能專家于爾根·施密德胡伯(JürgenSchmidhu-ber)。

在闡述“世界模型”的開(kāi)創(chuàng)性論文中,他用了一副漫畫來(lái)對(duì)這類模型的基本理念進(jìn)行刻畫。在漫畫中,一個(gè)人正在騎車,而在他的腦海中,也在想象著一個(gè)騎車的人。事實(shí)上,這就是人們?cè)谌粘I钪械男袆?dòng)方式。正所謂“意動(dòng)形隨”,我們?cè)谧龀瞿硞€(gè)動(dòng)作(不包括下意識(shí)的動(dòng)作)之前,都會(huì)先在腦海中對(duì)這個(gè)動(dòng)作進(jìn)行模擬,然后再根據(jù)模擬的后果來(lái)行動(dòng)。顯然,要實(shí)現(xiàn)這一切,人們就必須對(duì)其所處的世界有相當(dāng)?shù)牧私?。類比到AI的語(yǔ)境中,這就要求在AI智能體中嵌入關(guān)于外部世界的內(nèi)部模型,并以此來(lái)驅(qū)動(dòng)其行為。

世界模型有何優(yōu)勢(shì)呢?

第一,從理論層面看,它才是可以真正做到理解事物的模型。盡管現(xiàn)在的很多大模型在功能上已經(jīng)非常強(qiáng)大,可以在很大程度上模擬世界的運(yùn)作,但從其運(yùn)作機(jī)制上看,它們并不能真正地“懂”這個(gè)世界。雖然它們可以順暢地和用戶進(jìn)行交互,并根據(jù)用戶的要求完成各種任務(wù),但它們所生成的內(nèi)容本質(zhì)上是基于和問(wèn)題之間的概率關(guān)聯(lián)產(chǎn)出的。例如,當(dāng)你向ChatGPT說(shuō)“你好”時(shí),它會(huì)禮貌地回敬你一句“你好”,這讓它看起來(lái)就像一個(gè)有禮貌的老伙計(jì)。但從底層程序看,它其實(shí)并不懂這個(gè)回應(yīng)的含義,只是由于它從先前學(xué)習(xí)的數(shù)據(jù)中發(fā)現(xiàn),人們?cè)诒蝗藛?wèn)好時(shí)會(huì)大概率選擇以“你好”作為回應(yīng)。在很多AI研究者看來(lái),想要真正達(dá)到AGI,既需要“知其然”,更需要“知其所以然”。

第二,與生成模型相比,世界模型可以用更小的成本進(jìn)行訓(xùn)練。我們知道,模型的訓(xùn)練是需要耗費(fèi)大量的資源的,尤其是在訓(xùn)練AI去完成各種任務(wù)時(shí),就需要讓它不斷重復(fù)完成這個(gè)任務(wù)。比如,要訓(xùn)練一個(gè)文生圖模型,就需要讓它不斷地生成圖片,再對(duì)這些圖片的毛病進(jìn)行糾錯(cuò);要訓(xùn)練一個(gè)能自動(dòng)打游戲的AI,就需要讓它不斷地打游戲,然后根據(jù)每場(chǎng)的得分狀況進(jìn)行復(fù)盤。但是,這樣的訓(xùn)練都是必須的嗎?對(duì)比一下人類的學(xué)習(xí),就會(huì)發(fā)現(xiàn)情況可能并不是這樣。以學(xué)習(xí)寫作為例,我們當(dāng)然需要寫作一定量的文本,但在我們已經(jīng)窺得一定的寫作門徑之后,在多數(shù)時(shí)候就未必把文章真的寫出來(lái),而只需要在腦中對(duì)文字不斷地進(jìn)行打磨。所謂的“打腹稿”,就是這個(gè)意思。容易看到,這種學(xué)習(xí)方式是要比不斷寫成文字要更為經(jīng)濟(jì)和高效的。

在世界模型的倡導(dǎo)者中,類似的過(guò)程被冠之以一個(gè)更為通俗的名字——“做夢(mèng)”(dreaming)。當(dāng)一個(gè)世界模型通過(guò)對(duì)樣本數(shù)據(jù)的學(xué)習(xí),總結(jié)出了一定的規(guī)律性知識(shí)后,它就可以拋開(kāi)樣本,通過(guò)“做夢(mèng)”的方式來(lái)進(jìn)行學(xué)習(xí),從而讓模型的效率得到提升。舉例來(lái)說(shuō),施密德胡伯就在其論文中訓(xùn)練過(guò)一個(gè)會(huì)打《毀滅戰(zhàn)士》(Doom)游戲的AI智能體。他首先對(duì)這個(gè)智能體輸入了游戲的相關(guān)規(guī)則,并讓其通過(guò)游戲訓(xùn)練建立了一定的游戲經(jīng)驗(yàn)。這樣,他就讓這個(gè)智能體初步建立了關(guān)于游戲世界的認(rèn)識(shí)。然后,他讓智能體基于這些知識(shí),通過(guò)“做夢(mèng)”的方式進(jìn)行訓(xùn)練。最終的測(cè)試結(jié)果表明,這確實(shí)可以讓智能體獲得不錯(cuò)的游戲表現(xiàn)。更為重要的是,其訓(xùn)練成本和訓(xùn)練時(shí)間都要比讓智能體不斷打游戲低得多。

第三,相比于生成模型,世界模型更易于調(diào)試,也可以做更好的外推。為了理解這一點(diǎn),我們可以考慮一個(gè)例子,相信大家小時(shí)候畫過(guò)畫,比如,我小時(shí)候就特別喜歡畫各種昆蟲。然而,當(dāng)我把畫的蟲子拿給大人看時(shí),大人們經(jīng)常會(huì)指出,我畫的蟲子的腿的數(shù)目不對(duì)——昆蟲的腿有六條,但我有時(shí)會(huì)畫成八條,有時(shí)會(huì)畫成十條。在多次被大人指出這個(gè)錯(cuò)誤后,我通過(guò)對(duì)昆蟲進(jìn)行了大量的觀察,才終于悟出了原來(lái)昆蟲的腿應(yīng)該是六條,后來(lái)再畫時(shí),就再也沒(méi)有畫錯(cuò)昆蟲的腿數(shù)。現(xiàn)在回想起來(lái),我這個(gè)觀察昆蟲、自己總結(jié)規(guī)律,然后將它們畫出來(lái)的過(guò)程,其實(shí)就類似于現(xiàn)在生成式AI的運(yùn)作過(guò)程。雖然這也可以讓我最終總結(jié)出正確的規(guī)律,“生成”出正確的內(nèi)容,但這個(gè)過(guò)程是非常漫長(zhǎng)和低效的。并且,這種基于經(jīng)驗(yàn)和概率的知識(shí)非常容易出錯(cuò)。比如我在領(lǐng)悟出昆蟲應(yīng)該有六條腿這個(gè)道理后,就曾把蜘蛛畫成六條腿。因?yàn)樵谖铱磥?lái),蜘蛛和昆蟲太像了,既然原來(lái)的昆蟲都是六條腿,那么它也應(yīng)該是六條腿。到后來(lái)上了學(xué),學(xué)了生物的分類知識(shí),才知道蜘蛛和昆蟲并不是同類生物這些知識(shí)。如果將這個(gè)過(guò)程用AI的語(yǔ)言表示,那就是因?yàn)槲乙呀?jīng)掌握了世界模型,并用它來(lái)替代了原本的生成模型。

(3)Meta的世界模型

由于世界模型有上述的諸多優(yōu)點(diǎn),不少學(xué)者認(rèn)為它才是通往AGI的正確道路。在主張世界模型的學(xué)者中,楊立昆就是最為堅(jiān)定的代表。在實(shí)踐中,他不僅極力對(duì)生成模型這種他眼中的“異端”大加批判,而且利用其在Meta的地位大力推動(dòng)非生成式的世界模型的開(kāi)發(fā),并已經(jīng)取得了一定的成就。

比如,在去年6月,楊立昆就帶領(lǐng)其團(tuán)隊(duì)發(fā)布了一款名為I-JEPA的圖形生成模型。所謂I-JEPA,是“基于圖像的聯(lián)合嵌入預(yù)測(cè)架構(gòu)”(ImageJointEmbeddingPredictiveArchitecture)的簡(jiǎn)稱。根據(jù)隨模型發(fā)表的論文,I-JEPA模型放棄了被廣泛采用的生成模型思路,轉(zhuǎn)而用一種類似嬰兒的方式來(lái)認(rèn)識(shí)和理解世界,并基于這些學(xué)習(xí)到的認(rèn)識(shí)來(lái)指導(dǎo)內(nèi)容的生成。如前所述,生成模型的機(jī)理是將文字和像素之間的特征加以對(duì)應(yīng)。舉例說(shuō),如果要生成“一只正在曬太陽(yáng)的大橘貓”,它們就需要先把這段文字進(jìn)行拆解,找到每一個(gè)詞最可能對(duì)應(yīng)的像素顏色和位置,然后根據(jù)這些信息來(lái)拼接出一副圖畫。

然而,對(duì)于人來(lái)說(shuō),想象的過(guò)程并不是這樣的。在看到“一只正在曬太陽(yáng)的大橘貓”這段文字后,人們?cè)谀X海里首先浮現(xiàn)的是一只貓的形象,然后在這只貓的身上填上顏色,再調(diào)整其形態(tài),最終形成對(duì)應(yīng)的圖像。類似的,I-JEPA模型在生成圖片時(shí),會(huì)根據(jù)它所理解的要求,將每個(gè)文字對(duì)應(yīng)出一個(gè)抽象的形象,比如“貓”對(duì)應(yīng)出一個(gè)貓的形象,“橘”對(duì)應(yīng)出橘色,然后將這些信息組合起來(lái),生成相關(guān)的內(nèi)容。容易看到,相比于生成模型,I-JEPA模型的運(yùn)作機(jī)理其實(shí)是更接近人類的,而這也是楊立昆本人最為自豪的。

在I-JEPA發(fā)布之后,楊立昆和Meta團(tuán)隊(duì)又進(jìn)一步對(duì)視頻生成模型進(jìn)行了研發(fā)。本文開(kāi)頭提到的V-JEPA模型(它是“基于視頻的聯(lián)合嵌入預(yù)測(cè)架構(gòu)”即VideoJointEmbeddingPre-dictiveArchitecture的簡(jiǎn)稱)就是其最新結(jié)果。如前所述,客觀上V-JEPA模型的表現(xiàn)也非常不錯(cuò)。但正所謂“不怕不識(shí)貨,就怕貨比貨”,不知道是否是出于巧合,這個(gè)模型的發(fā)布時(shí)間正好選在了和Sora同一天,而Sora在視頻生成方面的表現(xiàn)顯然要比它更優(yōu)。這款被楊立昆寄予厚望的模型不僅沒(méi)有獲得預(yù)想的好評(píng),反而成了被群嘲的對(duì)象。

面對(duì)人們的嘲諷,這位高傲的圖靈獎(jiǎng)得主顯然被激怒了。他在社交平臺(tái)X上回應(yīng)道:“我從未預(yù)料到,那么多從未對(duì)人工智能或機(jī)器學(xué)習(xí)做出任何貢獻(xiàn)的人,其中一些人在達(dá)克效應(yīng)(Dun-ning-Krugereffect,一種認(rèn)知偏差)上已經(jīng)走得很遠(yuǎn),卻告訴我,我在人工智能和機(jī)器學(xué)習(xí)方面是錯(cuò)誤、愚蠢、盲目、無(wú)知、誤導(dǎo)、嫉妒、偏見(jiàn)、脫節(jié)的……”

從這番回應(yīng)可以看出,以楊立昆為代表的世界模型支持者并沒(méi)有因當(dāng)前的挫折而放棄自己的主張。恰恰相反,這可能會(huì)更加激發(fā)他們的創(chuàng)新動(dòng)力,沿著他們相信的道路加速前進(jìn),從而讓這個(gè)技術(shù)路線實(shí)現(xiàn)更多的突破。

坦然面對(duì)“奇點(diǎn)”

在通往AGI的道路上,生成模型和世界模型究竟誰(shuí)會(huì)最終勝出?坦白說(shuō),在現(xiàn)在這個(gè)階段,我們還很難得出結(jié)論。事實(shí)上,在AI發(fā)展史上,已經(jīng)上演了很多次落后技術(shù)路徑的趕超。不過(guò),無(wú)論是哪種模型勝出,AGI的到來(lái)似乎都已經(jīng)是非常近的事情了。

在2005年出版的《奇點(diǎn)將近》一書中,庫(kù)茨維爾(RaymondKurzweil)曾預(yù)言人類將在2045年前后迎來(lái)“奇點(diǎn)”,屆時(shí)AI的智能將全方位超越人類。而在最近即將出版的一部新書中,他已經(jīng)將這個(gè)時(shí)間提前到了2029年。從目前技術(shù)發(fā)展的趨勢(shì)看,這個(gè)預(yù)測(cè)似乎還算是比較客觀的。而這對(duì)于人類而言,確實(shí)不算是一個(gè)好消息。

幸運(yùn)的是,我們還有五年左右的時(shí)間。即使“奇點(diǎn)”到來(lái)無(wú)法避免,至少我們還能利用這段時(shí)間來(lái)為即將到來(lái)的新時(shí)代做一些準(zhǔn)備。在這個(gè)過(guò)程中,我們有很多需要做的,而在這些待辦事宜中,有兩件是特別重要的:

第一件是要重新挖掘人本身的價(jià)值。通過(guò)前面的技術(shù)拆解,我們已經(jīng)看到,雖然AI模型看似強(qiáng)大,但歸根到底,它們都是由一些十分基本的原理支配的。支配生成式模型的是概率原理;世界模型雖然可以在一定程度上了解規(guī)律,并按照規(guī)律“做夢(mèng)”,但它的想象空間在本質(zhì)上還是受限于訓(xùn)練數(shù)據(jù)和預(yù)先設(shè)定的規(guī)則。相比之下,人的想象力則要自由得多。可以預(yù)見(jiàn),當(dāng)人的其他能力被AI趕超后,這種自由的想象力將會(huì)變得更為寶貴。當(dāng)然,除了想象力之外,像情感、意志力、決斷力等,也都是AI所不具有的。關(guān)于這些品質(zhì),我們應(yīng)該更為珍惜。

第二件是要教好AI。無(wú)論AI會(huì)是以生成模型,還是以世界模型來(lái)實(shí)現(xiàn)AGI,它們的行為特點(diǎn)都在很大程度上受制于人們對(duì)其的輸入。人們給它學(xué)習(xí)怎樣的數(shù)據(jù),設(shè)定怎樣的規(guī)則,都會(huì)最終影響AI的行為。遺憾的是,現(xiàn)在我們看到,很多人出于各種目的,將暴力、種族歧視、極端思想等教給了AI,并在很大程度上帶偏了AI的價(jià)值觀。很顯然,這并不是我們?cè)敢饪吹降摹?/p>

或許,“奇點(diǎn)”即將到來(lái),但這絕不是人類的結(jié)束,甚至也不是結(jié)束的開(kāi)始,這只是開(kāi)始的結(jié)束。我相信,只要我們準(zhǔn)備得當(dāng),人類必將會(huì)在AI的幫助下,迎來(lái)一個(gè)更美好的新時(shí)代。

 

熱新聞