【經(jīng)觀講堂第33期】竇德景:從大模型的前世今生,理解AI時代的盼與憂

2024-05-29 17:11

 
 

【經(jīng)觀講堂】系經(jīng)濟觀察報社年度培訓(xùn)項目,邀請來自經(jīng)濟、傳媒、科學(xué)、文化、法律、商業(yè)等領(lǐng)域知名人士講授常識與新知,分享經(jīng)典和創(chuàng)新,是助力提升經(jīng)觀內(nèi)容品質(zhì)和傳播影響的開放型課堂。

竇德景是北電數(shù)智首席科學(xué)家,復(fù)旦大學(xué)特聘教授,清華大學(xué)電子工程系兼職教授,此前曾擔(dān)任波士頓咨詢公司(BCG)合伙人、副總裁、中國區(qū)首席數(shù)據(jù)科學(xué)家,百度研究院大數(shù)據(jù)實驗室和商業(yè)智能實驗室主任,美國俄勒岡大學(xué)計算機和信息科學(xué)系教授。他的研究領(lǐng)域包括人工智能、數(shù)據(jù)挖掘、數(shù)據(jù)整合、自然語言處理和健康信息學(xué)等。

本文根據(jù)竇德景在【經(jīng)觀講堂】上的發(fā)言整理。

 
 

非常高興能夠來到《經(jīng)濟觀察報》做這樣一個分享,我把講的內(nèi)容分成兩部分,一部分是前大模型時代,基本上是基于2022年之前的工作;一部分是大模型時代,也就是2022年之后發(fā)生的事情。在前大模型時代,大數(shù)據(jù)已經(jīng)很火了,深度學(xué)習(xí)已經(jīng)出來了,大模型也是深度學(xué)習(xí)技術(shù)發(fā)展的最新產(chǎn)物。當(dāng)然我相信,除了大模型,以后還會有更強大、更先進的新的人工智能(AI)算法和模型出來。大模型就是現(xiàn)在最好的AI技術(shù)。

我給大家講一點科普,也是給前大模型時代的AI正名。大模型出來了,前面的工作就沒有意義了嗎?不是這樣的,其實前面的AI現(xiàn)在也還在用。而且很多時候,作為一家公司也好,作為一個政府組織也好,你可能沒有那么多的成本直接上大模型。這些比較傳統(tǒng)的、比較簡單的AI,其實也可以用。

AI概念是如何出現(xiàn)的

那么我給AI先做一點簡介?!度斯ぶ悄埽阂环N現(xiàn)代方法》(Artificial Intelligence: A Modern Approach)這本書,是斯圖爾特·羅素(Stuart Russell)和彼得·諾維格(Peter Norvig)合寫的,羅素是加州大學(xué)伯克利分校的教授,諾維格一直在谷歌工作。

人工智能教科書第三版和第四版的封面

《人工智能:一種現(xiàn)代方法》第三版和第四版的封面

大家一看就知道,這本書的封面是個國際象棋盤。如果你對AI的歷史有了解的話,你會知道,這是因為1997年IBM的深藍計算機在國際象棋上贏了加里·卡斯帕羅夫(Garry Kasparov)。這個封面是這本書的第三版,那時還沒有第四版。2019年,我最后一次在俄勒岡大學(xué)教AI的時候,跟學(xué)生開玩笑,說你們可以預(yù)測一下第四版應(yīng)該是什么樣的封面。有的學(xué)生就猜到了,說第四版的封面應(yīng)該是一個圍棋盤。第四版在2020年出來了,封面其實也還是一個國際象棋盤,但是它把封面上的一位科學(xué)家換成了圍棋盤。但我覺得第四版的封面應(yīng)該對圍棋大書特書,好好講講圍棋對AI的貢獻。

在AI的概念上,我一定要給AI正名。因為人工智能(Artificial Intelligence)這個英語單詞的出現(xiàn),是在1956年的達特茅斯會議上,由約翰·麥卡錫(John McCarthy)和馬文·明斯基(Marvin Minsky)促成的。所以AI這個詞是1956年出來的,它絕對比2022年出來的大模型要早得多,大家一定不要認為是因為有大模型才有AI的。

AI這個概念出現(xiàn)的時間,甚至比1956年還要早,因為1950年艾倫·圖靈(Alan Turing)在圖靈測試中就提出了這樣一個概念,而且他用的詞叫做機器智能(Machine Intelligence)。到底人工智能和機器智能哪個詞更合適呢?我覺得都行。從技術(shù)角度來說,我覺得機器智能更合適,圖靈希望機器擁有人的智能,但是從推廣的角度來說,普通老百姓可能不太能夠接受機器智能這個詞,所以麥卡錫就創(chuàng)造了人工智能這個詞。在英語里面,Artificial這個詞既有人工的概念,又代表人造的東西。人工智能這個詞,比圖靈最早用的機器智能更受歡迎,所以后來大家都用人工智能了。

圖靈測試示意圖2

圖靈測試示意圖

為什么說圖靈是AI的鼻祖?因為他在1950年就提出了這個概念,他覺得50年以后,機器在5分鐘內(nèi)有30%的可能性可以騙過人類。比如說做一個測試,圖中左邊是一位人類測試官,他來判斷圖中右邊哪個是人、哪臺是機器。其實在50年以后的2000年,我們基本上認為是沒有機器能通過圖靈測試的。但是從2000年開始,特別到了2010年深度學(xué)習(xí)出現(xiàn)以后,2022年大模型出來以后,我覺得AI的發(fā)展快了很多?,F(xiàn)在我們基本認為,假如用比較原始的圖靈測試的條件做測試的話,現(xiàn)在的GPT-4(美國AI公司OpenAI研發(fā)的大模型)應(yīng)該就可以騙過人了。

因為各種各樣的限制條件,最早圖靈提出圖靈測試的時候,通訊只是靠兩根線連著。但是如果你想把中間的隔板去掉,造一臺能夠真的騙過人的機器,你得希望這臺機器長得就像真人,這還是很困難的,我覺得可能還要再過幾十年才能達到這個要求。但是圖靈測試基本上比較早地就給大家指明了一個方向,我們要做一個AI,應(yīng)該要做到什么樣?GPT大模型可以產(chǎn)生文字、聲音、視頻,我覺得它已經(jīng)比較完整了。但是你真要和它對話,聊久了,GPT也會露餡。因為當(dāng)時圖靈也說了,給5分鐘的時間,看看機器能不能騙過人類。我覺得真要做這種測試,應(yīng)該雙盲的。它不能假定,像圖中的圖靈測試一樣,隔板右邊一定是一臺機器和一個人。它不應(yīng)該告訴你有幾臺機器、幾個人,讓人類測試官自己判斷就好了。我覺得這是圖靈測試后面可以再改進的地方。

深度學(xué)習(xí)技術(shù)在棋類游戲中發(fā)展

那么為什么第四版教科書的封面上出現(xiàn)了圍棋?1997年深藍贏了卡斯帕羅夫之后,《紐約時報》想找一位做AI的專家,來評論一下這個成果怎么樣。我的導(dǎo)師德魯·麥狄蒙(Drew McDermott)當(dāng)時是耶魯大學(xué)計算機系主任,他告訴《紐約時報》的第一句話就是,這個東西不是AI。因為深藍下國際象棋,基本上就是通過并行計算做一個遍歷搜索。因為國際象棋才32個位置,只要你算力足夠的話,很容易把所有的步子都算一遍,至少IBM那個時候就做到了,機器基本上輸不了。

但是用這個辦法為什么下不了圍棋呢?因為圍棋從第一步開始,理論上是361個點,你都可以選。然后第二步、第三步,你可以在360個點、359個點里面選。這樣對一個程序來說,宇宙里面所有分子的數(shù)量,都不夠用來表示所有的可能性,所以沒法用遍歷搜索的方法下圍棋,機器在下圍棋方面一直是不行的。直到2016年出現(xiàn)了突破,它不是靠遍歷搜索來決定到底應(yīng)該走哪一步。我們看到圍棋的復(fù)雜度,如果你把它做成一個樹狀結(jié)構(gòu)來搜索的話,那棵樹太大了,又大又深,你沒法全部把它遍歷。

所以Deepmind(谷歌旗下的AI公司)當(dāng)時就用到了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network),它把國際象棋上每個點的可能的贏率都算一下,如果你走這個地方,你贏的可能性有多大,這叫估值網(wǎng)絡(luò)(Value Network)。圍棋盤上有360個空的點,你還是能算出來哪個點贏的可能性最大,但是你選的這個點贏率最大,并不等于這個點是最后走下來最合適的點。所以它有另外一個網(wǎng)絡(luò),叫策略網(wǎng)絡(luò)(Policy Network),就是我一步一步走,它也可以算三十幾步,就跟國際象棋的三十幾步差不多,基本上就用三十幾步的路徑來算一下哪個路徑最合適。這兩個網(wǎng)絡(luò)都是神經(jīng)網(wǎng)絡(luò)(Neural Network),把兩個網(wǎng)絡(luò)算的內(nèi)容加在一起,一個是棋盤上某一個單獨的點的最大贏率,另外一個是走十幾步、二十幾步或者三十幾步,哪一條路徑最好。在人類的圍棋九段高手的腦袋里面,是可以看十幾步的,但是三十幾步,他們看不到。所以后來機器就完全比人類強了,這是當(dāng)時的一個突破。

但是它有個特點,2016年的AlphaGo(Deepmind研發(fā)的AI程序)是用人類高手的100萬盤棋譜訓(xùn)練出來的,所以它就通過100萬盤棋譜計算,大家下圍棋時一般走哪一步,這個概率可以算出來。為什么李世石還贏了AlphaGo一盤棋?李世石當(dāng)時輸?shù)袅饲皟杀P棋,已經(jīng)沒有心理負擔(dān)了。在下第三盤棋的時候,他走了一個不常見的走法。AlphaGo根據(jù)高手的傳統(tǒng)走法計算怎么下棋,碰到李世石的這個走法,它就蒙了,不知道應(yīng)該怎么應(yīng)對,所以說李世石還贏了一盤棋。

AlphaGo登上了《自然》(Nature)雜志封面,但是在我看來這并不是最大的成功,最大的成功反而是Deepmind后面一年的工作,就是研發(fā)出了AlphaGo Zero。AlphaGo Zero不用人類下過的棋譜做訓(xùn)練,它就設(shè)計兩個最簡單的、只知道規(guī)則的機器棋手——Alpha和Beta。圍棋規(guī)則很簡單,所以很容易在計算機里面把它們的規(guī)則定好。機器棋手是不用休息的,讓它們24小時不停地互相下,這兩個機器棋手就能不斷地提高水平。到AlphaGo Zero出來以后,它的勝率大概是AlphaGo最初版本的100倍。所以在李世石跟AlphaGo下圍棋的時候,人類還有可能贏。到了AlphaGo Zero這樣的技術(shù)水平,它跟當(dāng)時世界圍棋排名第一的柯潔下時,柯潔就一點機會都沒有了。

2018年圖靈獎得主

2018年圖靈獎得主

一般來說,圖靈獎不像菲爾茲獎,要求40歲以下的人選才能獲獎。圖靈獎和諾貝爾獎基本上是一種終身成就獎。所以圖靈獎一般會在研究者做出研究成果的很多年之后授予,作為對他的成就的承認。但是深度學(xué)習(xí)出來以后,特別是AlphaGo、AlphaGo Zero出來以后,圖靈獎很快就授予了三巨頭——約書亞·本吉奧(Yoshua Bengio)、杰弗里·辛頓(Geoffrey Hinton)和雅恩·樂昆(Yann LeCun)。人們有一個誤區(qū),認為這三個人是AI之父,這絕對是錯誤的,說他們是深度學(xué)習(xí)之父是對的,深度學(xué)習(xí)只是AI比較新的或者比較成功的分支。

其實,圍棋是比較小眾的棋類游戲,特別是在西方世界。一般來說,就是中國、日本、韓國三個國家的人比較喜歡下圍棋。我覺得后面的這項工作更有意義,2020年AlphaFold2(Deepmind研發(fā)的AI程序)出來了,上個星期AlphaFold3出來了。它們基本上可以開展對原來技術(shù)水平來說很復(fù)雜的科學(xué)工作,比如蛋白質(zhì)結(jié)構(gòu)預(yù)測。因為一個氨基酸的序列,你可以折疊成各種各樣的蛋白結(jié)構(gòu),AlphaFold可以算出來哪幾個結(jié)構(gòu)的可能性更大。當(dāng)然它也不能根據(jù)一個序列(sequence)推斷出,一定就是這樣一個結(jié)構(gòu),它給出的是概率,但是它的預(yù)測準(zhǔn)確度當(dāng)時已經(jīng)超過80%了。對人類來說,工作就變得很簡單,你可以先用機器幫你算一下,然后針對比較可能的那幾個結(jié)構(gòu),再去做濕實驗,這大大節(jié)省了時間和財力、物力。

另外,從機器人的角度來說,波士頓動力應(yīng)該是全球做得最好的,因為AI的發(fā)展必然會帶動機器人的進步。現(xiàn)在假如你把大模型或者深度學(xué)習(xí)的東西,加到機器人里面,它的整個動作都會比原來的更精確。

大數(shù)據(jù)的4個特征

大數(shù)據(jù)是在大模型之前比較火的一個概念。大家可能都理解,因為特別是在我們這個時代,經(jīng)歷了互聯(lián)網(wǎng)、iPhone,應(yīng)該說數(shù)據(jù)的產(chǎn)生和處理比原來多得多。

大數(shù)據(jù)基本上有3個特征,叫做3個V。一個是規(guī)模性(volume),就是數(shù)據(jù)量非常大。從數(shù)據(jù)的增長速度來看,大模型的參數(shù)都是這樣的,不是線性的增長,而是指數(shù)級的增長。另一個是速度性(Velocity),處理數(shù)據(jù)時要快速地解決。我舉個例子,你如果要盡快地完成促銷,捕捉到用戶的信息后,要趕快行動起來,不然用戶的興趣會發(fā)生變化。你要是隔上一星期、兩星期,才知道用戶對這個東西感興趣,這時用戶可能已經(jīng)不感興趣了。像醫(yī)療健康這類行業(yè),你發(fā)現(xiàn)一些異常,要趕快處理。還有一個是多樣性(Variety),一定要把不同種類的數(shù)據(jù)放在一起處理,這樣才有意義,才能更好地做決定。數(shù)據(jù)種類是各種各樣的,不僅有文本、序列,還有圖片、表格,它們都在一起,這也就是所謂的多模態(tài),跟大模型其實也相關(guān)。

原來大數(shù)據(jù)的特征肯定是這3個V,現(xiàn)在我對第四個V——真實性(Veracity)特別感興趣。特別是在大模型出現(xiàn)以后,數(shù)據(jù)越來越不可信了。所以數(shù)據(jù)的準(zhǔn)確度、一致性、真實性都成了問題。在這種情況下再說大數(shù)據(jù),一定要強調(diào)真實性。

大模型的參數(shù)規(guī)模呈指數(shù)級增長

接下來我介紹大模型時代。大家都知道,特別是在2022年底,大模型的關(guān)注度增長非常快。因為你用搜索引擎的時候,可以看出一個詞的關(guān)注度。另外一點,ChatGPT(OpenAI研發(fā)的聊天機器人程序)的用戶數(shù)5天達到100萬,更夸張的是,不到兩個月,它的用戶數(shù)達到1億。所以它是歷史上用戶數(shù)最快到達1億的App。我可以說這肯定是前無古人的,但絕對不是后無來者,我相信下一個爆款A(yù)pp的用戶數(shù)應(yīng)該會比ChatGPT更快地達到1億。因為ChatGPT出現(xiàn)以后,大家對AI的接受速度快了很多,我相信下一個爆款A(yù)pp出來了,更多人會很快地去用。

我剛才給大家做了一點科普,AI這個詞在1956年就有了,后來出現(xiàn)專家系統(tǒng)(Expert Systems)等詞。如果從參數(shù)這個角度來說,專家系統(tǒng)的參數(shù)基本是零或者比較少。深度學(xué)習(xí)的參數(shù)就比較多了。到了大模型最初的產(chǎn)品GPT-1,它的參數(shù)大概是1000萬。到了GPT-3,它的參數(shù)達到1750億,模型參數(shù)(Model Parameters)的增長曲線在這里出現(xiàn)了拐點。GPT-4的參數(shù)大概是1.8萬億,不到10萬億。而且模型參數(shù)的增長跟大數(shù)據(jù)一樣,它絕對不是線性增長,而是指數(shù)級的增長。

模型參數(shù)不是指有多少個神經(jīng)元,而是指有多少個神經(jīng)元之間的連接。因為一個神經(jīng)元可以連很多個神經(jīng)元,所以它自然對應(yīng)著多個連接。今年年底就要出來的GPT-5,它的參數(shù)至少是5萬億至10萬億。人腦中大概有100萬億個連接。其實人腦的神經(jīng)元數(shù)量大概也就是100億個,但是假如人腦中的連接,是任何一個神經(jīng)元連接任何一個神經(jīng)元,那么連接的數(shù)量就是100億個乘以100億個,這個數(shù)量太大了,所以人腦中的神經(jīng)元只是和附近的一些神經(jīng)元連接,而不是和所有的連接。

從這個角度來說,我覺得大模型發(fā)展到了GPT-5,成為10萬億參數(shù)的模型,它的能力基本上跟人腦差不多了。人腦雖然有100萬億個連接,但是人類平常使用的面積大概只有十分之一,人腦很多時候都是閑的。當(dāng)然阿爾伯特·愛因斯坦(Albert Einstein)大腦的使用面積可能大一點,普通人使用不了那么多。所以根據(jù)我的估計,這條路如果走通了,這是一個模擬人或者逼近人的智力的最佳方式。10萬億參數(shù)的模型就足夠了,我們就拭目以待吧。因為山姆·奧特曼(Sam Altman)已經(jīng)在不同場合放話了,GPT-5會比GPT-4強太多。

Transformer算法推動生成式AI發(fā)展

生成式AI不僅是最早的文本對話機器人,其實在圖片、視頻領(lǐng)域,現(xiàn)在也能看出來它有一個非常清楚的多模態(tài)聯(lián)系。為什么它能把這些模態(tài)的聯(lián)系建立起來?它用的算法,不僅只是文本之間相互的token(文本中的最小語義單元)的聯(lián)系,還可以把文本和圖像、文本和視頻、文本和聲音都聯(lián)系起來。2017年,其實就出現(xiàn)了現(xiàn)在大家都在談的生成式AI這個概念,但是2022年的ChatGPT真正讓大家認識到大模型、生成式AI有這么強大的功能。

其實OpenAI選了一個大家都不看好的方向來突破。人們從2018年10月開始做大模型,一直沒有找到突破點,讓大家知道這個東西有用。結(jié)果OpenAI選擇做了對話機器人(Chatbot),其實這個東西最早從20世紀50年代—60年代就開始做了。只要做AI,你就會想到去跟它對話,做智能客服什么的,但是原來做得都不太好。到了2017年,谷歌發(fā)明了一種叫Transformer的算法。我認為發(fā)表關(guān)于Transformer論文的這些人里面,未來肯定有人拿圖靈獎,關(guān)鍵是這篇文章的作者名單很長,到底把獎給誰是個問題。因為圖靈獎最多就給三個人,所以怎么把這幾個人挑出來,我覺得是評委會發(fā)愁的問題。

我講講Transformer的原理,我可以用它算我輸入的所有token之間的關(guān)系。我經(jīng)常舉這樣一個例子,姚明有沒有拿過奧運獎牌?姚明沒有拿過。如果我現(xiàn)在問GPT-3.5這個問題,它的回答還是錯的,GPT-4和文心一言的回答是對的。GPT-3.5一直認為姚明拿過奧運獎牌,這是因為我們在做模型預(yù)訓(xùn)練的時候,其實是在做完形填空。比如我把姚明、奧運等幾個詞列出來,把中間的獎牌這個詞給摳掉,讓大模型去猜,姚明到底有沒有拿過。GPT-3.5在做這個完形填空的時候,就去把姚明、籃球這些詞,跟奧運會的金牌、銀牌、銅牌聯(lián)系起來,相當(dāng)于它算了一個概率。它用大量的語料去訓(xùn)練,就能夠把這些詞的關(guān)系給算出來。當(dāng)時我對GPT-3.5的回答也好奇,就去網(wǎng)絡(luò)上搜索姚明、奧運、獎牌這些詞,沒有任何一個網(wǎng)絡(luò)上的公開信息說,姚明拿過奧運獎牌。

那么GPT-3.5為什么這樣回答?當(dāng)它接收你的問題的時候,它先算一下哪些詞跟姚明、奧運、獎牌這幾個詞相關(guān)。跟姚明相關(guān)的詞,是籃球、NBA、選秀狀元、世界第一中鋒、國家隊主力。跟奧運相關(guān)的詞,與姚明聯(lián)系在一起的是悉尼、雅典、北京三屆奧運會。跟獎牌相關(guān)的詞,那就是金、銀、銅三種奧運獎牌。所以這是第一輪,在它算了相關(guān)性以后,就把這些詞給找出來了。再想想這些詞之外的詞,就不一定跟姚明相關(guān)了。比如它看到偉大的籃球運動員、MBA選秀狀元、第一中鋒這些詞,就會想到科比·布萊恩特(Kobe Bryant)、勒布朗·詹姆斯(LeBron James)、保羅·加索爾(Pau Gasol)。GPT-3.5想到這幾個人的話,再去聯(lián)想他們參加的奧運會、他們是否拿過奧運獎牌。他們拿過奧運獎牌的。所以,它從合理性角度計算,姚明那么偉大,偉大到和這幾個人相提并論,姚明就應(yīng)該拿過奧運獎牌。所以GPT-3.5的問題就出在這里。但是GPT-4或者文心一言就不會出現(xiàn)這種情況。這種問題是問事實、歷史的問題,不是讓它來寫一首詩、一部小說,它不需要生成內(nèi)容。它直接去搜,一搜的話就會發(fā)現(xiàn),姚明確實沒有拿過奧運獎牌。

Transformer產(chǎn)生了預(yù)訓(xùn)練語言模型。語言預(yù)訓(xùn)練能夠把關(guān)聯(lián)關(guān)系建立起來,可以完成完形填空。但是如果你要用它真正來做一些事,要用新的強化學(xué)習(xí)算法RLHF(Reinforcement Learning with Human Feedback,即從人類反饋中強化學(xué)習(xí)),用人類的反饋指導(dǎo)模型做具體的工作。因為預(yù)訓(xùn)練只是把一些基礎(chǔ)的知識、基本的概念給建立起來了,但它應(yīng)該做什么事,由你來告訴它。所以GPT-3.5這個模型,是基于GPT-3來訓(xùn)練它的對話的,給它一些對話的標(biāo)準(zhǔn)答案,看它答得怎么樣。它答得好,我給高分,答得差,我給低分。要不停地給它一些反饋,不斷地提高它。

生成式AI的幾個特征

生成式AI的技術(shù)突破有4點原因。第一是模型規(guī)模,GPT-3的參數(shù)規(guī)模是1750億,GPT-4的參數(shù)規(guī)模是1.8萬億。清華的開源模型ChatGLM,參數(shù)規(guī)模也能達到1300億。現(xiàn)在看來,基本上參數(shù)規(guī)模在千億以上的模型,性能是比較突出的。第二是訓(xùn)練數(shù)據(jù),因為做完形填空,是不需要做標(biāo)注的。我們把所有數(shù)據(jù)扔進去,萬億的token也好,各種類型的數(shù)據(jù)語料也好,扔進去讓它不停地去填空。這是一個好處,它不需要人來做標(biāo)注。第三是訓(xùn)練方法,可以把人類的反饋加進來。第四是算力,英偉達A100顯卡和高性能并行計算平臺,提供了超強算力支持。其實英偉達這個公司一開始不溫不火,它就是做電腦游戲需要用到的顯卡。后來,人們發(fā)現(xiàn)它的顯卡可以給深度學(xué)習(xí)模型用。特別是到了大模型時代,更是需要它的顯卡。所以英偉達是現(xiàn)在最火的公司,它的市值漲上去了。黃仁勛也成了美國工程院院士,他也在做建議,要引導(dǎo)AI的發(fā)展方向。生成式AI成就了黃仁勛。

從生成式AI的整個架構(gòu)來看,在硬件設(shè)施也就是算力層面,英偉達的市場份額可能占了95%,其他廠商包括谷歌、英特爾、華為、百度昆侖芯等,最近好像AMD也準(zhǔn)備做AI芯片。硬件設(shè)施層面之上是云平臺,因為這些算力最后要放在云上面來計算。云平臺層面之上是模型,模型又分為閉源模型和開源模型。模型層面之上是應(yīng)用,千萬不要認為ChatGPT或者文心一言是大模型,它們是基于大模型的應(yīng)用。另外,也有一些做生態(tài)的公司,做端到端的解決方案。

我再講講生成式AI的應(yīng)用場景。生成式AI現(xiàn)在已經(jīng)能夠生成對話的文本,也可以寫代碼,生成圖像和視頻??梢源_定的是,GPT-5是一個多模態(tài)的模型,多模態(tài)已經(jīng)不是什么新鮮事了,但GPT-5可能是多模態(tài)里面做得最好的。因為OpenAI已經(jīng)提前把Sora(OpenAI研發(fā)的文生視頻大模型)給放出來了,大家一下子就驚呆了。包括我也驚呆了,我不認為那么早能做出這么好的文生視頻,結(jié)果它今年初就做出來了,非常驚人,所以我們跟他們是有代差的。從行業(yè)應(yīng)用來說,生成式AI可以用來開發(fā)小程序,節(jié)省效率,也可以應(yīng)用于消費品、制藥、金融、娛樂、保險等行業(yè)。從應(yīng)用場景來說,它可能涉及營銷、銷售、物流、客戶支持、法務(wù)、財務(wù)、人力資源等多個方面。在任何行業(yè)、任何企業(yè)的不同職能部門里面,我們都可以用到生成式AI。

提問環(huán)節(jié):

問:您剛才講到,屬于前大模型時代的早期AI技術(shù),現(xiàn)在還有一些應(yīng)用,比如說大模型的成本比較高,現(xiàn)在有些地方?jīng)]法部署。這部分傳統(tǒng)的AI技術(shù)在大模型時代還能存在嗎?還是說目前應(yīng)用這些技術(shù)的場景,以后都需要慢慢轉(zhuǎn)型,去使用大模型?

竇德景:我在咨詢公司時也經(jīng)常聽到類似的問題,值不值得花成本去訓(xùn)練大模型?我想對大多數(shù)企業(yè)來說,應(yīng)該不需要自己訓(xùn)練模型。比如千億參數(shù)的模型,大概需要至少幾百張顯卡甚至上千張顯卡,訓(xùn)練幾個月,才能訓(xùn)練出來,算力和時間成本很高。你就算不訓(xùn)練上億參數(shù)模型的話,你使用模型,也需要投入幾百萬元。

總結(jié)一下,如果一定要追求大模型的效果,你的投入可能暫時也低不到哪去。我們一般會給用戶算投資回報率(ROI),你投入了多少,最后產(chǎn)出了多少。我當(dāng)時參與過一個醫(yī)藥公司使用大模型培訓(xùn)醫(yī)藥代表的項目,他如果每年都推出新藥,這筆賬肯定是劃算的。但如果幾年就培訓(xùn)這么一次的話,真不見得要使用大模型。

問:傳統(tǒng)的AI技術(shù)供應(yīng)商要么去做大模型的微調(diào),保持自己服務(wù)客戶的能力,要么就會被市場淘汰了?

竇德景:傳統(tǒng)供應(yīng)商不能寄希望于一些出不起錢的公司,來繼續(xù)做他們的客戶,他一定要有這個能力。但有一點好處是,大模型其實還是比較好用的。如果他原來就是搞AI的公司,要轉(zhuǎn)型去做生成式AI,就是換塊牌子,這個能力其實還是很容易掌握的。訓(xùn)練或者微調(diào)、提示、加訓(xùn),我覺得都能做。我這一年多也接觸了一些小公司,他們轉(zhuǎn)型還是很快的。

問:想請您預(yù)判一下,GPT-5出來之后,會對現(xiàn)在的AI能力有多大程度的提升?現(xiàn)在的大模型有各種幻覺,有人覺得不好用,GPT-5會變得好用嗎?

竇德景:GPT-5的幻覺會減少,因為GPT-4的幻覺已經(jīng)比GPT-3.5減少了,我前面說的姚明的例子就很明顯。但它絕對不是100%的準(zhǔn)確,這是第一點。第二點,GPT-5肯定是多模態(tài)。第三點,既然Sora現(xiàn)在放出的視頻都大概有一分鐘,GPT-5生成的視頻肯定會更長、更逼真?,F(xiàn)在Sora畫的幾個樣本里面,可能挑選出的是比較好的,但是里面還有一些瑕疵,你可以找出它們不符合所謂的物理世界的地方。GPT-5真正出來以后,Sora視頻中出現(xiàn)的人的左右腿在行走中互換的問題,肯定會被解決。

問:想問下您個人選擇的問題,現(xiàn)在很多做AI的人都在國外,因為跟國外比,國內(nèi)技術(shù)代差蠻大的,您為什么堅持在國內(nèi)做?另外,您為什么選擇去北電數(shù)智這樣一家算力公司,是看到什么機會嗎?

竇德景:第一個問題其實比較簡單。我2019年回國時,想的是不一定會留在中國。因為當(dāng)時美國大學(xué)每六年有一個學(xué)術(shù)休假,在學(xué)術(shù)休假的時候,我應(yīng)該去哪都可以。我當(dāng)時計劃在百度待個半年一年就回學(xué)校了,結(jié)果因為家庭等各方面的原因,就待下來了。到這一次再選擇的時候,其實我今年3月去美國出差,還回了趟學(xué)校。他們肯定還是歡迎我回去的,但是如果我現(xiàn)在去美國的話,我在國內(nèi)三四年時間積累的一些合作伙伴和關(guān)系,基本上用不了。所以我的選擇更多還是基于現(xiàn)實考量。

第二個問題,北電數(shù)智有算力,我們可以用這些算力服務(wù)國內(nèi)的模型公司。他大概會有1000P—2000P(P指10的15次方)的算力。用英偉達的顯卡來比較,一張A100的顯卡,算力大概是零點一幾P,一臺有8張顯卡的服務(wù)器,大概是1P。所以1000P的算力是很大的,相當(dāng)于8000張A100顯卡。

而且我們做的另外一件事情,是把國內(nèi)的芯片拿來做適配,因為很明顯現(xiàn)在國內(nèi)已經(jīng)買不到英偉達的顯卡了。所以我們一定要想辦法,幫助國內(nèi)還能用的芯片被使用起來。這些芯片來自華為、百度昆侖芯、摩爾線程、寒武紀等公司,我們拿它們和英偉達芯片一起工作。

以后我在復(fù)旦大學(xué)里面花的精力會更多一點,做比較前沿的研究。在大數(shù)據(jù)時代,我其實還不是最看重第四個V(Veracity)。大模型出來以后,數(shù)據(jù)的準(zhǔn)確性、真實性是很大的一個問題,現(xiàn)在的大模型在我看來是不安全的。第一點,大模型產(chǎn)生的一些信息,你要是完全不考慮真實性的話,會出問題。第二點,我覺得大模型本身并不壞,大模型不會自己主動地想去作惡,但總會有些壞人想利用大模型作惡。就像人類最早研究質(zhì)能方程,是希望用核能的辦法來產(chǎn)生更多的能量,產(chǎn)生核電。但是核武器出來以后,一旦恐怖分子拿到核武器,會是很大的一個問題。同樣,我覺得大模型以后的發(fā)展需要監(jiān)管,需要安全的控制措施。所以在回到學(xué)校以后,我會更關(guān)注大模型安全方面的問題。

問:不考慮倫理的問題,人類能不能造出超強大腦?您預(yù)測多長時間可以造出超強大腦?

竇德景:先定義一下超強,我理解你想表達的意思是比人還聰明。應(yīng)該說,目前大模型技術(shù)絕對是在往這個方向走。我覺得沒有任何理由說,以人的智力畫一條線,限制AI一定不能超過人。而且AI現(xiàn)在在很多方面已經(jīng)超過人,GPT-5可能也會在很多方面超過人。如果按照這個定義,人類已經(jīng)造出超強大腦了。

其實倫理方面的問題是什么?我們現(xiàn)在一定要想辦法,建立一套從上到下的機制或者是比較民間的機制,來限制AI作惡。我剛才已經(jīng)提到這個問題,我不認為現(xiàn)在的AI會主動作惡,AI還沒有自我意識。如果AI沒有自我意識,它不會真的為自己謀霸權(quán)、謀利益。人類為什么會自私?人的自我意識是天生的。即使某一個人生下來了,他的基因里面沒有自我意識,這種基因也很快就會失傳,因為他活不下去的。所以反過來說,現(xiàn)在的AI還沒有自我意識,它不可能為自己謀利益、謀霸權(quán),但是怎樣防止有些壞人想通過AI來統(tǒng)治其他人或者統(tǒng)治世界,這個是我們要關(guān)心的事情。

問:超強大腦以后會有自我意識嗎?

竇德景:我現(xiàn)在看不出有辦法讓它有自我意識。我在幾個公眾場合都講過,這是我自己的一個理論,可以說是我首創(chuàng)的。我認為,人為什么會有自我意識,是因為人生活在地球上,或者說我們這些碳基生物生活在地球上,資源是有限的,如果你不去爭資源,你就活不下去,所以你天生就會有自我意識?;蛘哒f一開始有些人類、猿人是沒有自我意識的,有些有自我意識,結(jié)果沒有自我意識的在過程中就被自然淘汰了。畢竟,碳基生物生活在一個資源有限的世界。

對硅基生物來說——假如我們認為大模型已經(jīng)具備了生命或者生物的一個基本形態(tài)的話,至少我們沒有看到電能已經(jīng)少到讓一些機器人活著、另外的一些機器人就要死掉的狀態(tài)。但是,地球的資源還是有限制的。地球可能可以承載100億人,如果地球上的生物全變成硅基生物,地球肯定能承載200億個、300億個。假如地球上有1000億個硅基生命,我覺得不管水電、風(fēng)電、火電可能都不夠用了,那時候硅基生命就會打起來,就必須有自我意識了。

問:其實大模型出來的時候,有很多細分領(lǐng)域也在蹭這個熱點。比如在醫(yī)藥領(lǐng)域,當(dāng)時就有一些制藥公司說自己在做AI制藥,但也有觀點說其實他們用的技術(shù)不能叫大模型。我想知道這種垂直細分領(lǐng)域的模型,和大模型到底有什么不一樣?

竇德景:很簡單,就看它有沒有用大模型。因為就算你用最小的大模型,比如清華的開源模型或者Llama開源模型(美國科技公司Meta研發(fā)的大模型),模型參數(shù)至少是60億到70億。理論上,英文單詞里面只有大語言模型(Large Language Model),沒有大模型。大模型這個概念,在英語單詞里面對應(yīng)的是基礎(chǔ)模型(Foundation Model)。但是我們還觀察到,如果模型參數(shù)小于幾十億,它的性能也不明顯。

特別是醫(yī)藥行業(yè)的公司,它不是簡單使用大模型的。因為現(xiàn)在這種公開的、要訓(xùn)練的基礎(chǔ)模型,它們拿到的這些跟醫(yī)藥相關(guān)的信息,都是從網(wǎng)絡(luò)上公開抓取的,相對來說都不專業(yè)。這些信息對特定的醫(yī)藥應(yīng)用基本上沒有用,你必須用你自己的專業(yè)數(shù)據(jù)來做微調(diào)或者二次訓(xùn)練,這個成本就上去了。所以,你就看他是不是真正用自己的數(shù)據(jù)訓(xùn)練,他不把這個過程走完的話,不應(yīng)該說自己用的是大模型。

問:之前幾波AI浪潮,都是經(jīng)歷了高潮,又退潮了。這一波浪潮會是怎么樣的?因為從2022年底OpenAI推出ChatGPT開始到現(xiàn)在,好像始終沒有找到一個明星級的應(yīng)用,能夠給人類的物理社會帶來巨大改變。我看到現(xiàn)在有經(jīng)濟學(xué)家說,它可能對全要素生產(chǎn)率沒有顯著提升。從您的觀察來看,這會是一個可能的情況嗎?如果始終找不到明星級的應(yīng)用,它會不會退潮?

竇德景:這是可能的,前兩波高潮也是這樣的。比如第一波,20世紀50年代—60年代,邏輯推理出來了,后來發(fā)現(xiàn)邏輯推理只能把一些確定的信息給推理出來。第二波,貝葉斯、專家系統(tǒng)、淺層神經(jīng)網(wǎng)絡(luò)都出來了,最終都沒有找到殺手級應(yīng)用程序(Killer App)。

但是這一波浪潮,應(yīng)該是在三波AI浪潮里面最有可能成功。我媽媽79歲了,雖然她也是重點大學(xué)畢業(yè)的,但是她以前一直做儀表那塊的東西,可以說是AI的“門外漢”。她對我原來做什么都不是很關(guān)心的,結(jié)果她有一次問我,你知不知道ChatGPT?她都知道ChatGPT了,你說影響力有多大?這波AI浪潮造成的沖擊力,已經(jīng)擴散到了計算機行業(yè)之外,它至少可以跟互聯(lián)網(wǎng)、iPhone相提并論,在我看來這波浪潮基本上是成功了。

只不過問題是,哪一個App可以先盈利?因為大模型成本比較高,能不能賺到錢,其實是一個ROI的問題。但總會有一個特定的應(yīng)用出現(xiàn),因為開源模型本身就不收費,閉源模型也會越來越便宜,我覺得最后閉源模型都可以免費給你用,通過這種手段來拉客戶,就像當(dāng)年的互聯(lián)網(wǎng)一樣。現(xiàn)在基本上大模型公司都在燒投資人的錢,有點跑馬圈地的感覺。但是總會剩下幾家擁有幾億用戶的公司,那他們總是能想辦法賺到錢的。

(經(jīng)濟觀察網(wǎng) 史額黎 整理)

版權(quán)聲明:以上內(nèi)容為《經(jīng)濟觀察報》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟觀察報》社所有。未經(jīng)《經(jīng)濟觀察報》社授權(quán),嚴禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電:【010-60910566-1260】。

熱新聞

電子刊物

點擊進入