這只是開(kāi)始的結(jié)束

陳永偉2024-03-04 14:36

陳永偉/文

當(dāng)?shù)貢r(shí)間2月15日，美國(guó)科技公司OpenAI、Meta和谷歌不約而同地選擇在這一天發(fā)布了自己的新模型（OpenAI的Sora、Meta的V-JEPA、谷歌的GeminiPro1.5），這讓本已高度“內(nèi)卷”的AI市場(chǎng)的競(jìng)爭(zhēng)達(dá)到了白熱化的程度。

三款模型中，Sora可以根據(jù)文本生成遠(yuǎn)比過(guò)去同類產(chǎn)品驚艷的視頻；V-JEPA雖然在視頻生成上的表現(xiàn)略遜于Sora，但卻號(hào)稱應(yīng)用了非生成式的世界模型；而GeminiPro1.5作為一個(gè)多模態(tài)模型，其支持的上下文竟達(dá)到了驚人的1000萬(wàn)token（計(jì)算機(jī)運(yùn)行中，文本處理的最小單位）。在如此集中的時(shí)間，AI技術(shù)竟然在三個(gè)不同的方向上取得了如此巨大的突破，實(shí)在令人驚嘆。

在驚嘆之余，一些老生常談的問(wèn)題又再次出現(xiàn)在了各大媒體。比如：這一場(chǎng)AI大戰(zhàn)的終局會(huì)是如何？AI能力的突飛猛進(jìn)，是否意味著“通用人工智能”（Artificial General Inteligence，簡(jiǎn)稱A－GI）已經(jīng)近在咫尺？在AGI到來(lái)之后，人類的命運(yùn)又會(huì)走向何方？

這些問(wèn)題十分重要，但是，如果我們對(duì)這些問(wèn)題的討論僅僅只是基于科幻式的想象，那么討論本身也就會(huì)最終淪為空談。相比之下，一種更為科學(xué)的討論方式或許是：在思考這些新模型會(huì)帶來(lái)什么影響之前，先從技術(shù)的角度弄清楚，這些模型究竟意味著什么。下面，我們就從這個(gè)理念出發(fā)，開(kāi)始我們的探究之旅。

天空背后的秘密

盡管Sora、V-JEPA和GeminiPro1.5都十分亮眼，但從原創(chuàng)性角度看，前兩款模型的重要性似乎是更為突出的，因?yàn)樗鼈儙缀蹩梢员灰暈槭峭ㄏ駻GI的兩種主要思路——生成模型和世界模型的最主要代表。GeminiPro1.5雖然也非常出色，但它本質(zhì)上是其前作GeminiPro的升級(jí)，其突破性要稍遜一些。因此，如果要討論新模型的影響，我們不妨將重點(diǎn)放在Sora和V-JEPA上。

那么，讓我們先從外界關(guān)注度最高的Sora開(kāi)始吧。從OpenAI公布的視頻上看，這款以日文“天空”（空，そら）命名的模型表現(xiàn)確實(shí)非常突出：過(guò)去，文生視頻模型通常只能生成幾秒的視頻，而Sora生成的視頻則長(zhǎng)達(dá)一分鐘。不僅如此，它還可以在一定程度上呈現(xiàn)出因果關(guān)系和物理規(guī)律。比如，在一個(gè)視頻中，畫師下筆之后，紙上就出現(xiàn)了朵朵桃花；在另一個(gè)視頻中，隨著食客的一口咬下，原先完整的漢堡就缺了一角。對(duì)于類似的這些物體互相作用后改變形狀的現(xiàn)象，過(guò)去的文生視頻模型很難生成，而Sora卻很好地實(shí)現(xiàn)了這一點(diǎn)。

出于維護(hù)其商業(yè)秘密的考慮，Ope－nAI在發(fā)布ChatGPT之后，就不再公布其產(chǎn)品的相關(guān)論文，這讓完全破解Sora的秘密幾乎成了不可能。好在OpenAI為Sora附上了一份簡(jiǎn)要的技術(shù)報(bào)告，對(duì)于了解技術(shù)概況，這份報(bào)告其實(shí)已經(jīng)足夠了。

按照?qǐng)?bào)告，Sora在原理上可以被概括為“擴(kuò)散模型+Transformer架構(gòu)”的應(yīng)用。

（1）擴(kuò)散模型

說(shuō)到擴(kuò)散模型，相信很多人對(duì)這個(gè)詞并不陌生。雖然這個(gè)模型的詳細(xì)原理必須用數(shù)學(xué)公式才能說(shuō)明，但簡(jiǎn)單來(lái)說(shuō)，它可以被理解為一個(gè)降噪生成的過(guò)程。

喜歡看電視的讀者想必都會(huì)有這樣的經(jīng)驗(yàn)：當(dāng)電視信號(hào)遇到干擾時(shí)，原本的電視畫面上就會(huì)出現(xiàn)一層不規(guī)則的雪花點(diǎn)。干擾信號(hào)越強(qiáng)，雪花點(diǎn)就越濃密。當(dāng)干擾強(qiáng)到一定的程度，屏幕上就會(huì)只剩下雪花點(diǎn)。用數(shù)學(xué)的語(yǔ)言講，這種在原本的圖像上加入雪花點(diǎn)的過(guò)程就是“加噪”。

一開(kāi)始，這種滿是雪花點(diǎn)的畫面會(huì)讓人非常不適應(yīng)。但只要看得多了，干擾的影響就會(huì)越來(lái)越小。即使電視屏幕上遍布雪花，人們也可以通過(guò)像素的運(yùn)動(dòng)，配合畫外的聲音，自動(dòng)“腦補(bǔ)”出一幅幅清晰的畫面。這樣，他們的腦中就完成了一個(gè)“降噪”的過(guò)程。

為什么人腦可以開(kāi)發(fā)出這樣的“腦補(bǔ)”功能呢？歸根到底，這還是一個(gè)訓(xùn)練的過(guò)程。當(dāng)信號(hào)干擾不嚴(yán)重的時(shí)候，圖形上的雪花并不多，這時(shí)人們可以很容易地結(jié)合先前的觀看經(jīng)驗(yàn)，聯(lián)想出清晰的畫面是什么樣的。當(dāng)人們對(duì)輕微干擾習(xí)以為常后，就可以進(jìn)一步去適應(yīng)更為嚴(yán)重的干擾——在腦中，他們可以先把被重度干擾的畫面還原為輕度干擾，再將其還原為清晰畫面。這樣，只要觀看經(jīng)驗(yàn)足夠，人們就可以在腦中訓(xùn)練出自動(dòng)還原雪花點(diǎn)的功能。需要指出的是，在還原的過(guò)程中，額外信息的提示很重要。比如，面對(duì)一團(tuán)模糊的雪花點(diǎn)，如果配上《敢問(wèn)路在何方》，人們就很容易“腦補(bǔ)”出唐僧師徒四人跋山涉水的圖像；而如果配上鋼琴曲《TomandJer－ry》，他們“腦補(bǔ)”出的就可能是貓?jiān)谧分鹄鲜蟮膱?chǎng)景。

上面這種從雪花點(diǎn)中“腦補(bǔ)”出圖像的做法，我們也可以用AI來(lái)實(shí)現(xiàn)。具體來(lái)說(shuō)，人們可以將大批的圖片“投喂”給AI模型，然后再將這些圖片“加噪”。機(jī)器通過(guò)將加噪前后的圖片進(jìn)行對(duì)比，就可以訓(xùn)練出從帶噪的圖片中還原出清晰圖片的功能。當(dāng)然，AI不可能完美復(fù)現(xiàn)出原圖，只能根據(jù)它從樣本中學(xué)習(xí)到的經(jīng)驗(yàn)來(lái)盡可能對(duì)干擾進(jìn)行修補(bǔ)。這時(shí)，它就已經(jīng)在一定程度上具有了創(chuàng)作的能力。人們可以在此基礎(chǔ)上不斷加入更多的干擾，讓模型從干擾中還原出圖像的能力變得越來(lái)越強(qiáng)。最終，他們就可以得到一個(gè)能在完全由無(wú)規(guī)則雪花圖上還原出圖像的模型。由于還原的起點(diǎn)是徹底隨機(jī)的，所以所謂的“還原”就變成了一種徹底的創(chuàng)作。要讓AI明確應(yīng)該往什么方向還原，就需要告訴它一定的提示詞（prompt）。其道理就好像我們要從遍布雪花點(diǎn)的電視中“腦補(bǔ)”圖像，需要有畫外音的幫助一樣。

上述這個(gè)降噪還原的過(guò)程，就是擴(kuò)散模型的基本原理。隨著生成式AI的火爆，它已經(jīng)得到了十分廣泛的應(yīng)用。像MidJourney、StableDiffusion等文生圖模型，Runway、Pika等文生視頻模型，本質(zhì)上都是擴(kuò)散模型的應(yīng)用。

在Sora之前，雖然已經(jīng)有了不少基于擴(kuò)散模型的文生視頻的模型，但這些模型生成的視頻時(shí)間都很短，呈現(xiàn)角度也比較單一。之所以會(huì)出現(xiàn)這樣的問(wèn)題，很大程度上是由于其訓(xùn)練數(shù)據(jù)導(dǎo)致的。受算力等因素的限制，目前用來(lái)訓(xùn)練文生視頻的數(shù)據(jù)主要是一些時(shí)長(zhǎng)較短的視頻，這就導(dǎo)致了由此訓(xùn)練出的模型只能根據(jù)這些短小的視頻來(lái)進(jìn)行外推，其“腦補(bǔ)”能力也就受到了很大的限制。如果要生成長(zhǎng)視頻，就需要額外采用計(jì)算量巨大且速度緩慢的滑動(dòng)窗口方法，從經(jīng)濟(jì)角度看，這是得不償失的。

那么，Sora又是如何克服這些困難的呢？其奧秘就在于它很好地將Transformer和擴(kuò)散模型結(jié)合了起來(lái)。

（2）Transformer架構(gòu)

得益于GPT模型的火爆，作為其基礎(chǔ)架構(gòu)的Transformer的大名也早已被人們熟知。對(duì)于語(yǔ)言模型而言，Transformer是具有革命性的。過(guò)去，語(yǔ)言模型一直面臨著一個(gè)很大的困難，即所謂的“長(zhǎng)期記憶難題”。我們知道，一句話究竟是什么意思很大程度上取決于其上下文。比如，當(dāng)某人說(shuō)“我想買512G的蘋果”時(shí)，他究竟是想要買一個(gè)內(nèi)存為512G的蘋果手機(jī)，還是想買512克的蘋果，就需要看這句話出現(xiàn)在什么語(yǔ)境之中。因而，至少在理論上，要理解一句話是什么意思，就需要對(duì)其所在的整個(gè)文本進(jìn)行解讀。對(duì)于計(jì)算機(jī)來(lái)說(shuō)，這是非常麻煩的。因?yàn)檫@意味著在處理文本時(shí)，只能用一種串行的方式來(lái)逐字進(jìn)行解讀，而難以采用并行的處理辦法，處理的效率會(huì)被鎖死在一定的水平。

如何才能打破這個(gè)瓶頸呢？一個(gè)思路是將句子拆分成一個(gè)個(gè)的詞，分別識(shí)別出它們的含義。在完成了這些工作后，再將各詞的意思整合起來(lái)，就可以得到這個(gè)句子的意思。但是，怎樣才能保證對(duì)詞的含義識(shí)別精準(zhǔn)呢？那就要看一下它的相對(duì)位置。一般來(lái)說(shuō)，距離一個(gè)詞很近的幾個(gè)詞對(duì)其含義的影響是最大的。比如，如果在“蘋果”這個(gè)詞的附近，出現(xiàn)了“手機(jī)”、“芯片”等詞，那么它多半就是指手機(jī)；而如果在它的附近，出現(xiàn)了“果汁”、“榨汁機(jī)”等詞，那么它指的就多半是水果。對(duì)于一個(gè)特定的詞，臨近詞對(duì)它的影響大小是不一的。比如，其前一個(gè)詞對(duì)其含義的影響權(quán)重為0.5，其后一個(gè)詞對(duì)其含義的影響為0.3。在AI中，這個(gè)權(quán)重就叫做“注意力”（attention）。通過(guò)對(duì)大樣本數(shù)據(jù)的學(xué)習(xí)，AI模型可以對(duì)每一個(gè)詞都給出一個(gè)完整的“注意力”表格。這樣，當(dāng)它再面對(duì)一個(gè)詞的時(shí)候，就可以根據(jù)其在語(yǔ)段中與其他詞的相對(duì)位置很快地識(shí)別出其最可能的含義，而不用在讀完整個(gè)文本后再得出某個(gè)詞的含義。通過(guò)這樣的處理，AI模型就可以實(shí)現(xiàn)對(duì)語(yǔ)言模型的并行處理，從而讓其處理效率得到大規(guī)模的提升。所謂的Transformer模型，就是基于以上注意力機(jī)制設(shè)計(jì)的機(jī)器學(xué)習(xí)架構(gòu)。

（3）Sora是怎樣工作的

雖然文生視頻并不同于語(yǔ)言處理，但它們兩者也有很多相似之處。在某種意義上，人們過(guò)去采用的文生視頻技術(shù)有一點(diǎn)兒類似早期的語(yǔ)言處理，大致上是從一個(gè)畫面出發(fā)，逐步根據(jù)初始的圖去擴(kuò)展后續(xù)的畫面。很顯然，這樣的效率是相當(dāng)有限的。怎么才能對(duì)其進(jìn)行改進(jìn)呢？一個(gè)現(xiàn)成的思路就是仿照Transformer的思路，將提示詞的文本拆分，從每個(gè)詞中去識(shí)別出相關(guān)的信息，并根據(jù)這些信息去標(biāo)識(shí)出視頻需要的空間和時(shí)間信息，即視頻需要在什么時(shí)候出現(xiàn)什么樣的圖像?；谶@些信息，再調(diào)用擴(kuò)散模型來(lái)生成所需要的畫面。在Sora當(dāng)中，采用的就是這個(gè)思路。

具體來(lái)說(shuō)，Sora在訓(xùn)練過(guò)程中會(huì)先用視頻壓縮技術(shù)將大量的視頻材料進(jìn)行壓縮。經(jīng)過(guò)這一步操作，龐大的視頻資料就被還原成了一堆矩陣的特征值。盡管它們看起來(lái)雜亂無(wú)章，但其中卻包含了關(guān)于視頻變化的最重要信息。通過(guò)機(jī)器學(xué)習(xí)，模型可以將這些特征值與標(biāo)識(shí)視頻的文字建立起聯(lián)系。這樣一來(lái)，當(dāng)它再看到某一個(gè)詞的時(shí)候，就會(huì)猜出這個(gè)詞意味著應(yīng)該在哪個(gè)時(shí)間點(diǎn)出現(xiàn)怎樣的畫面。在Sora的技術(shù)文檔中，這種標(biāo)識(shí)時(shí)空信息的快照被稱為“時(shí)空補(bǔ)丁”（Spacetimepatches）。在根據(jù)文字生成視頻的過(guò)程中，Sora并不和早期的文生視頻模型那樣直接生成視頻，而是先根據(jù)提示詞翻譯成一系列關(guān)于時(shí)空的信息。比如，“玫瑰逐步綻放”就可能被其解讀為“在視頻第一幀，出現(xiàn)一朵玫瑰；在下一幀，這朵玫瑰的花瓣長(zhǎng)大了一些……”當(dāng)然，這些信息都是由“時(shí)空補(bǔ)丁”來(lái)表現(xiàn)的。當(dāng)有了這一系列的“時(shí)空補(bǔ)丁”后，就相當(dāng)于為有待生成的視頻搭起了框架。隨后，再利用擴(kuò)散模型，就可以在這些時(shí)空補(bǔ)丁的提示之下完成每一幀的圖像。而這些圖像加總在一起，就構(gòu)成了完整的視頻。

當(dāng)然，為了保證生成視頻的質(zhì)量，Sora還在訓(xùn)練時(shí)對(duì)模型進(jìn)行了很多的限制。比如，為了保證視頻不違背物理規(guī)律，它專門植入了相關(guān)的知識(shí)圖譜。但大致上，我們可以將Sora理解為擴(kuò)散模型和Transformer結(jié)合的產(chǎn)物。

（4）或許算力才是重要的

通過(guò)以上介紹，我們可以看到，至少在原理上，Sora并不復(fù)雜。由于我之前對(duì)生成式AI下過(guò)一些功夫，所以在閱讀它的技術(shù)報(bào)告時(shí)，也基本沒(méi)有遇到什么困難。

不過(guò)，在讀這份報(bào)告的過(guò)程中，我卻總感覺(jué)報(bào)告中闡述的技術(shù)原理和之前讀過(guò)的某篇論文十分相似。很快，我就在報(bào)告的參考文獻(xiàn)中找到了這篇文章，就是OpenAI團(tuán)隊(duì)在去年3月發(fā)表的《基于Transformer的可擴(kuò)展擴(kuò)散模型》（ScalableDiffusionModelswithTransformers）。有很多網(wǎng)友也在第一時(shí)間發(fā)現(xiàn)了這一點(diǎn)，為此，一些人還將這篇論文的作者之一——謝賽寧，誤認(rèn)為了Sora的主要開(kāi)發(fā)者之一，最后鬧得謝賽寧本人不得不親自出來(lái)辟謠。

在這篇論文中，早已提出了用Transformer架構(gòu)來(lái)運(yùn)行擴(kuò)散模型的思路，即所謂的DiT。從原理上看，這幾乎和Sora技術(shù)報(bào)告中公布的信息如出一轍。然而，從這篇論文給出的案例看，當(dāng)時(shí)用DiT生成視頻的效率和質(zhì)量都完全無(wú)法和今天的Sora相比。那么，問(wèn)題出在哪兒呢？憑借我個(gè)人的知識(shí)，實(shí)在是百思不得其解。直到幾天之后，我在微信上看到了著名AI科學(xué)家李沐的一段評(píng)論，才恍然大悟。

李沐認(rèn)為，Sora和一年前的DiT的關(guān)系，可能就好像GPT-3和GPT-2的關(guān)系。從模型的角度看，GPT-3和GPT-2并沒(méi)有本質(zhì)的差別，但不同的是，GPT-3的參數(shù)量要比GPT-2大得多，并且在訓(xùn)練GPT-3的時(shí)候，投入的算力也要比訓(xùn)練GPT-2時(shí)高出百倍。所謂“大力出奇跡”，很多研究已經(jīng)表明，似乎正是在這種海量算力的投入導(dǎo)致了“涌現(xiàn)”現(xiàn)象的發(fā)生，讓模型的性能出現(xiàn)了質(zhì)的變化。有消息透露，Sora在訓(xùn)練時(shí)投入的算力也比之前訓(xùn)練幾個(gè)DiT模型時(shí)高出了幾百倍。如果這個(gè)消息屬實(shí)，那么我們就可以猜想，此次Sora表現(xiàn)出的卓越性能其實(shí)也是涌現(xiàn)的后果——或許，這就是隱藏在天空背后的秘密。

生成模型還是世界模型？

（1）Sora真的懂它在干什么嗎？

在對(duì)Sora模型進(jìn)行了深入分析之后，我們可以得出結(jié)論：雖然Sora的性能確實(shí)比之前的模型有了巨大飛躍，但是，這種飛躍并非源自于原理上的變革，而是由巨大算力堆出來(lái)的另一個(gè)工程奇跡。

事實(shí)上，在最初的一輪熱潮退去之后，不少更為中立的分析都表明，先前人們對(duì)Sora的革命性評(píng)價(jià)似乎有些過(guò)于高估了。比如，雖然根據(jù)Sora發(fā)布的畫面，它已經(jīng)擁有了一定的因果識(shí)別能力，但這種表現(xiàn)似乎更像是來(lái)自開(kāi)發(fā)者對(duì)其事先設(shè)定的知識(shí)圖譜，而并非來(lái)自模型自身能力的改進(jìn)。正是因?yàn)檫@個(gè)道理，所以不少用Sora生成的畫面還會(huì)出現(xiàn)很多不合邏輯之處。比如，在一個(gè)老婦人吹生日蠟燭的視頻中，面對(duì)吹過(guò)的氣流，蠟燭上的火焰竟絲毫沒(méi)有受到影響；而在另外一個(gè)投籃的視頻中，籃球竟在穿過(guò)籃筐之后發(fā)生了爆炸。很顯然，這些情況在現(xiàn)實(shí)中是不可能發(fā)生的。這只能說(shuō)明Sora模型本身還并沒(méi)有能力自行判斷出這些簡(jiǎn)單的道理。只要人們沒(méi)有人為地植入知識(shí)圖譜來(lái)進(jìn)行引導(dǎo)，它就可能犯錯(cuò)誤。如果這些判斷是正確的，那么Sora模型所代表的技術(shù)路徑可能就不那么樂(lè)觀。因?yàn)樵诂F(xiàn)實(shí)中，經(jīng)驗(yàn)的規(guī)則是無(wú)窮無(wú)盡的，人們幾乎不可能有能力將所有的規(guī)則都設(shè)定到模型當(dāng)中。

相比于中立的評(píng)論，以圖靈獎(jiǎng)得主、Meta首席人工智能專家楊立昆（YannLeCun）為代表的一些專家對(duì)Sora的批評(píng)則更為激烈。在Sora發(fā)布之后，他就在社交媒體上對(duì)其進(jìn)行了痛批，并斷言Sora代表的技術(shù)路徑必定失敗。在圈外人士看來(lái)，楊立昆的這個(gè)批判完全是無(wú)理取鬧，甚至多少有點(diǎn)兒有辱斯文。然而，圈內(nèi)人對(duì)楊立昆的這個(gè)態(tài)度早已是見(jiàn)怪不怪了。從ChatGPT橫空出世開(kāi)始，他就在多個(gè)場(chǎng)合表示GPT模型，甚至更廣義上的生成模型都不會(huì)是通向AGI的正確道路，最終注定不能成功。

（2）世界模型

那么，楊立昆眼中的AGI會(huì)通過(guò)怎樣的技術(shù)路徑實(shí)現(xiàn)呢？他給出的答案是“世界模型”（WorldModels）。

所謂“世界模型”，通俗地說(shuō)，就是一種讓機(jī)器能夠像人類一樣對(duì)真實(shí)世界有全面而準(zhǔn)確的認(rèn)知的模型。這個(gè)概念最早來(lái)自于德國(guó)的人工智能專家于爾根·施密德胡伯（JürgenSchmidhu－ber）。

在闡述“世界模型”的開(kāi)創(chuàng)性論文中，他用了一副漫畫來(lái)對(duì)這類模型的基本理念進(jìn)行刻畫。在漫畫中，一個(gè)人正在騎車，而在他的腦海中，也在想象著一個(gè)騎車的人。事實(shí)上，這就是人們?cè)谌粘Ｉ钪械男袆?dòng)方式。正所謂“意動(dòng)形隨”，我們?cè)谧龀瞿硞€(gè)動(dòng)作（不包括下意識(shí)的動(dòng)作）之前，都會(huì)先在腦海中對(duì)這個(gè)動(dòng)作進(jìn)行模擬，然后再根據(jù)模擬的后果來(lái)行動(dòng)。顯然，要實(shí)現(xiàn)這一切，人們就必須對(duì)其所處的世界有相當(dāng)?shù)牧私?。類比到AI的語(yǔ)境中，這就要求在AI智能體中嵌入關(guān)于外部世界的內(nèi)部模型，并以此來(lái)驅(qū)動(dòng)其行為。

世界模型有何優(yōu)勢(shì)呢？

第一，從理論層面看，它才是可以真正做到理解事物的模型。盡管現(xiàn)在的很多大模型在功能上已經(jīng)非常強(qiáng)大，可以在很大程度上模擬世界的運(yùn)作，但從其運(yùn)作機(jī)制上看，它們并不能真正地“懂”這個(gè)世界。雖然它們可以順暢地和用戶進(jìn)行交互，并根據(jù)用戶的要求完成各種任務(wù)，但它們所生成的內(nèi)容本質(zhì)上是基于和問(wèn)題之間的概率關(guān)聯(lián)產(chǎn)出的。例如，當(dāng)你向ChatGPT說(shuō)“你好”時(shí)，它會(huì)禮貌地回敬你一句“你好”，這讓它看起來(lái)就像一個(gè)有禮貌的老伙計(jì)。但從底層程序看，它其實(shí)并不懂這個(gè)回應(yīng)的含義，只是由于它從先前學(xué)習(xí)的數(shù)據(jù)中發(fā)現(xiàn)，人們?cè)诒蝗藛?wèn)好時(shí)會(huì)大概率選擇以“你好”作為回應(yīng)。在很多AI研究者看來(lái)，想要真正達(dá)到AGI，既需要“知其然”，更需要“知其所以然”。

第二，與生成模型相比，世界模型可以用更小的成本進(jìn)行訓(xùn)練。我們知道，模型的訓(xùn)練是需要耗費(fèi)大量的資源的，尤其是在訓(xùn)練AI去完成各種任務(wù)時(shí)，就需要讓它不斷重復(fù)完成這個(gè)任務(wù)。比如，要訓(xùn)練一個(gè)文生圖模型，就需要讓它不斷地生成圖片，再對(duì)這些圖片的毛病進(jìn)行糾錯(cuò)；要訓(xùn)練一個(gè)能自動(dòng)打游戲的AI，就需要讓它不斷地打游戲，然后根據(jù)每場(chǎng)的得分狀況進(jìn)行復(fù)盤。但是，這樣的訓(xùn)練都是必須的嗎？對(duì)比一下人類的學(xué)習(xí)，就會(huì)發(fā)現(xiàn)情況可能并不是這樣。以學(xué)習(xí)寫作為例，我們當(dāng)然需要寫作一定量的文本，但在我們已經(jīng)窺得一定的寫作門徑之后，在多數(shù)時(shí)候就未必把文章真的寫出來(lái)，而只需要在腦中對(duì)文字不斷地進(jìn)行打磨。所謂的“打腹稿”，就是這個(gè)意思。容易看到，這種學(xué)習(xí)方式是要比不斷寫成文字要更為經(jīng)濟(jì)和高效的。

在世界模型的倡導(dǎo)者中，類似的過(guò)程被冠之以一個(gè)更為通俗的名字——“做夢(mèng)”（dreaming）。當(dāng)一個(gè)世界模型通過(guò)對(duì)樣本數(shù)據(jù)的學(xué)習(xí)，總結(jié)出了一定的規(guī)律性知識(shí)后，它就可以拋開(kāi)樣本，通過(guò)“做夢(mèng)”的方式來(lái)進(jìn)行學(xué)習(xí)，從而讓模型的效率得到提升。舉例來(lái)說(shuō)，施密德胡伯就在其論文中訓(xùn)練過(guò)一個(gè)會(huì)打《毀滅戰(zhàn)士》（Doom）游戲的AI智能體。他首先對(duì)這個(gè)智能體輸入了游戲的相關(guān)規(guī)則，并讓其通過(guò)游戲訓(xùn)練建立了一定的游戲經(jīng)驗(yàn)。這樣，他就讓這個(gè)智能體初步建立了關(guān)于游戲世界的認(rèn)識(shí)。然后，他讓智能體基于這些知識(shí)，通過(guò)“做夢(mèng)”的方式進(jìn)行訓(xùn)練。最終的測(cè)試結(jié)果表明，這確實(shí)可以讓智能體獲得不錯(cuò)的游戲表現(xiàn)。更為重要的是，其訓(xùn)練成本和訓(xùn)練時(shí)間都要比讓智能體不斷打游戲低得多。

第三，相比于生成模型，世界模型更易于調(diào)試，也可以做更好的外推。為了理解這一點(diǎn)，我們可以考慮一個(gè)例子，相信大家小時(shí)候畫過(guò)畫，比如，我小時(shí)候就特別喜歡畫各種昆蟲。然而，當(dāng)我把畫的蟲子拿給大人看時(shí)，大人們經(jīng)常會(huì)指出，我畫的蟲子的腿的數(shù)目不對(duì)——昆蟲的腿有六條，但我有時(shí)會(huì)畫成八條，有時(shí)會(huì)畫成十條。在多次被大人指出這個(gè)錯(cuò)誤后，我通過(guò)對(duì)昆蟲進(jìn)行了大量的觀察，才終于悟出了原來(lái)昆蟲的腿應(yīng)該是六條，后來(lái)再畫時(shí)，就再也沒(méi)有畫錯(cuò)昆蟲的腿數(shù)。現(xiàn)在回想起來(lái)，我這個(gè)觀察昆蟲、自己總結(jié)規(guī)律，然后將它們畫出來(lái)的過(guò)程，其實(shí)就類似于現(xiàn)在生成式AI的運(yùn)作過(guò)程。雖然這也可以讓我最終總結(jié)出正確的規(guī)律，“生成”出正確的內(nèi)容，但這個(gè)過(guò)程是非常漫長(zhǎng)和低效的。并且，這種基于經(jīng)驗(yàn)和概率的知識(shí)非常容易出錯(cuò)。比如我在領(lǐng)悟出昆蟲應(yīng)該有六條腿這個(gè)道理后，就曾把蜘蛛畫成六條腿。因?yàn)樵谖铱磥?lái)，蜘蛛和昆蟲太像了，既然原來(lái)的昆蟲都是六條腿，那么它也應(yīng)該是六條腿。到后來(lái)上了學(xué)，學(xué)了生物的分類知識(shí)，才知道蜘蛛和昆蟲并不是同類生物這些知識(shí)。如果將這個(gè)過(guò)程用AI的語(yǔ)言表示，那就是因?yàn)槲乙呀?jīng)掌握了世界模型，并用它來(lái)替代了原本的生成模型。

（3）Meta的世界模型

由于世界模型有上述的諸多優(yōu)點(diǎn)，不少學(xué)者認(rèn)為它才是通往AGI的正確道路。在主張世界模型的學(xué)者中，楊立昆就是最為堅(jiān)定的代表。在實(shí)踐中，他不僅極力對(duì)生成模型這種他眼中的“異端”大加批判，而且利用其在Meta的地位大力推動(dòng)非生成式的世界模型的開(kāi)發(fā)，并已經(jīng)取得了一定的成就。

比如，在去年6月，楊立昆就帶領(lǐng)其團(tuán)隊(duì)發(fā)布了一款名為I-JEPA的圖形生成模型。所謂I-JEPA，是“基于圖像的聯(lián)合嵌入預(yù)測(cè)架構(gòu)”（ImageJointEmbeddingPredictiveArchitecture）的簡(jiǎn)稱。根據(jù)隨模型發(fā)表的論文，I-JEPA模型放棄了被廣泛采用的生成模型思路，轉(zhuǎn)而用一種類似嬰兒的方式來(lái)認(rèn)識(shí)和理解世界，并基于這些學(xué)習(xí)到的認(rèn)識(shí)來(lái)指導(dǎo)內(nèi)容的生成。如前所述，生成模型的機(jī)理是將文字和像素之間的特征加以對(duì)應(yīng)。舉例說(shuō)，如果要生成“一只正在曬太陽(yáng)的大橘貓”，它們就需要先把這段文字進(jìn)行拆解，找到每一個(gè)詞最可能對(duì)應(yīng)的像素顏色和位置，然后根據(jù)這些信息來(lái)拼接出一副圖畫。

然而，對(duì)于人來(lái)說(shuō)，想象的過(guò)程并不是這樣的。在看到“一只正在曬太陽(yáng)的大橘貓”這段文字后，人們?cè)谀X海里首先浮現(xiàn)的是一只貓的形象，然后在這只貓的身上填上顏色，再調(diào)整其形態(tài)，最終形成對(duì)應(yīng)的圖像。類似的，I-JEPA模型在生成圖片時(shí)，會(huì)根據(jù)它所理解的要求，將每個(gè)文字對(duì)應(yīng)出一個(gè)抽象的形象，比如“貓”對(duì)應(yīng)出一個(gè)貓的形象，“橘”對(duì)應(yīng)出橘色，然后將這些信息組合起來(lái)，生成相關(guān)的內(nèi)容。容易看到，相比于生成模型，I-JEPA模型的運(yùn)作機(jī)理其實(shí)是更接近人類的，而這也是楊立昆本人最為自豪的。

在I-JEPA發(fā)布之后，楊立昆和Meta團(tuán)隊(duì)又進(jìn)一步對(duì)視頻生成模型進(jìn)行了研發(fā)。本文開(kāi)頭提到的V-JEPA模型（它是“基于視頻的聯(lián)合嵌入預(yù)測(cè)架構(gòu)”即VideoJointEmbeddingPre－dictiveArchitecture的簡(jiǎn)稱）就是其最新結(jié)果。如前所述，客觀上V-JEPA模型的表現(xiàn)也非常不錯(cuò)。但正所謂“不怕不識(shí)貨，就怕貨比貨”，不知道是否是出于巧合，這個(gè)模型的發(fā)布時(shí)間正好選在了和Sora同一天，而Sora在視頻生成方面的表現(xiàn)顯然要比它更優(yōu)。這款被楊立昆寄予厚望的模型不僅沒(méi)有獲得預(yù)想的好評(píng)，反而成了被群嘲的對(duì)象。

面對(duì)人們的嘲諷，這位高傲的圖靈獎(jiǎng)得主顯然被激怒了。他在社交平臺(tái)X上回應(yīng)道：“我從未預(yù)料到，那么多從未對(duì)人工智能或機(jī)器學(xué)習(xí)做出任何貢獻(xiàn)的人，其中一些人在達(dá)克效應(yīng)（Dun－ning-Krugereffect，一種認(rèn)知偏差）上已經(jīng)走得很遠(yuǎn)，卻告訴我，我在人工智能和機(jī)器學(xué)習(xí)方面是錯(cuò)誤、愚蠢、盲目、無(wú)知、誤導(dǎo)、嫉妒、偏見(jiàn)、脫節(jié)的……”

從這番回應(yīng)可以看出，以楊立昆為代表的世界模型支持者并沒(méi)有因當(dāng)前的挫折而放棄自己的主張。恰恰相反，這可能會(huì)更加激發(fā)他們的創(chuàng)新動(dòng)力，沿著他們相信的道路加速前進(jìn)，從而讓這個(gè)技術(shù)路線實(shí)現(xiàn)更多的突破。

坦然面對(duì)“奇點(diǎn)”

在通往AGI的道路上，生成模型和世界模型究竟誰(shuí)會(huì)最終勝出？坦白說(shuō)，在現(xiàn)在這個(gè)階段，我們還很難得出結(jié)論。事實(shí)上，在AI發(fā)展史上，已經(jīng)上演了很多次落后技術(shù)路徑的趕超。不過(guò)，無(wú)論是哪種模型勝出，AGI的到來(lái)似乎都已經(jīng)是非常近的事情了。

在2005年出版的《奇點(diǎn)將近》一書中，庫(kù)茨維爾（RaymondKurzweil）曾預(yù)言人類將在2045年前后迎來(lái)“奇點(diǎn)”，屆時(shí)AI的智能將全方位超越人類。而在最近即將出版的一部新書中，他已經(jīng)將這個(gè)時(shí)間提前到了2029年。從目前技術(shù)發(fā)展的趨勢(shì)看，這個(gè)預(yù)測(cè)似乎還算是比較客觀的。而這對(duì)于人類而言，確實(shí)不算是一個(gè)好消息。

幸運(yùn)的是，我們還有五年左右的時(shí)間。即使“奇點(diǎn)”到來(lái)無(wú)法避免，至少我們還能利用這段時(shí)間來(lái)為即將到來(lái)的新時(shí)代做一些準(zhǔn)備。在這個(gè)過(guò)程中，我們有很多需要做的，而在這些待辦事宜中，有兩件是特別重要的：

第一件是要重新挖掘人本身的價(jià)值。通過(guò)前面的技術(shù)拆解，我們已經(jīng)看到，雖然AI模型看似強(qiáng)大，但歸根到底，它們都是由一些十分基本的原理支配的。支配生成式模型的是概率原理；世界模型雖然可以在一定程度上了解規(guī)律，并按照規(guī)律“做夢(mèng)”，但它的想象空間在本質(zhì)上還是受限于訓(xùn)練數(shù)據(jù)和預(yù)先設(shè)定的規(guī)則。相比之下，人的想象力則要自由得多。可以預(yù)見(jiàn)，當(dāng)人的其他能力被AI趕超后，這種自由的想象力將會(huì)變得更為寶貴。當(dāng)然，除了想象力之外，像情感、意志力、決斷力等，也都是AI所不具有的。關(guān)于這些品質(zhì)，我們應(yīng)該更為珍惜。

第二件是要教好AI。無(wú)論AI會(huì)是以生成模型，還是以世界模型來(lái)實(shí)現(xiàn)AGI，它們的行為特點(diǎn)都在很大程度上受制于人們對(duì)其的輸入。人們給它學(xué)習(xí)怎樣的數(shù)據(jù)，設(shè)定怎樣的規(guī)則，都會(huì)最終影響AI的行為。遺憾的是，現(xiàn)在我們看到，很多人出于各種目的，將暴力、種族歧視、極端思想等教給了AI，并在很大程度上帶偏了AI的價(jià)值觀。很顯然，這并不是我們?cè)敢饪吹降摹?/p>

或許，“奇點(diǎn)”即將到來(lái)，但這絕不是人類的結(jié)束，甚至也不是結(jié)束的開(kāi)始，這只是開(kāi)始的結(jié)束。我相信，只要我們準(zhǔn)備得當(dāng)，人類必將會(huì)在AI的幫助下，迎來(lái)一個(gè)更美好的新時(shí)代。