對話面壁智能李大海:中國對端側(cè)模型的探索全球領(lǐng)先

任曉寧2024-06-16 12:24

經(jīng)濟(jì)觀察網(wǎng) 記者 任曉寧 “完全沒有想到會(huì)以這種方式出圈,挺惶恐的。”6月14日,面壁智能首席執(zhí)行官李大海在接受經(jīng)濟(jì)觀察網(wǎng)采訪時(shí),提到了此前火爆一時(shí)的斯坦福大學(xué)學(xué)生抄襲面壁智能旗下大模型的事件。他認(rèn)為,從全球范圍看,目前中國在端側(cè)模型、開源模型等領(lǐng)域都有創(chuàng)新的地方。

5月29日,多模態(tài)大模型Llama3-V在開源社區(qū)走紅,其開發(fā)者是美國斯坦福大學(xué)學(xué)生組成的AI團(tuán)隊(duì),他們聲稱可以用500美元的價(jià)格訓(xùn)練出對標(biāo)GPT-4V(美國AI公司OpenAI旗下大模型)多模態(tài)能力的模型。

第二天,Llama3-V模型被網(wǎng)友指出涉嫌抄襲中國的端側(cè)模型MiniCPM-Llama3-V 2.5,這件事在國外AI圈引發(fā)關(guān)注,在國內(nèi)也多次登上微博熱搜。最終斯坦福大學(xué)學(xué)生選擇道歉并刪除Llama3-V模型。

MiniCPM系列模型由中國大模型創(chuàng)業(yè)公司面壁智能開發(fā)。這家公司此前只在AI圈內(nèi)知名,但因被抄襲一事名聲大噪。李大海在接受經(jīng)濟(jì)觀察網(wǎng)采訪時(shí),講述了該事件的來龍去脈。他認(rèn)為,該事件說明,中國的大模型技術(shù)在一些領(lǐng)域已經(jīng)處于全球領(lǐng)先位置。

面壁智能主要做端側(cè)模型。相比互聯(lián)網(wǎng)大廠和其他大模型創(chuàng)業(yè)公司主要發(fā)力的云側(cè)大模型,端側(cè)模型一般參數(shù)較小,比如MiniCPM的第一款模型,只有20億參數(shù),但可以實(shí)現(xiàn)文本翻譯、知識(shí)問答、代碼編程等大模型能力,也有多模態(tài)能力。由于成本低、參數(shù)小,端側(cè)模型更適合在手機(jī)端、個(gè)人電腦(PC)端和智能硬件端使用。

與已經(jīng)開啟“百模大戰(zhàn)”的云側(cè)大模型市場相比,端側(cè)模型市場的國內(nèi)參與者較少。李大海解釋,面壁智能所做的事,是在同樣的時(shí)間、同等參數(shù)量的條件下,把模型知識(shí)壓縮的效率做到極致,把更多的高質(zhì)量數(shù)據(jù)壓縮進(jìn)一個(gè)更小更優(yōu)的模型中。

面壁智能成立于2022年8月,創(chuàng)始團(tuán)隊(duì)主要來自清華大學(xué)自然語言處理實(shí)驗(yàn)室,聯(lián)合創(chuàng)始人劉知遠(yuǎn)是清華大學(xué)計(jì)算機(jī)系長聘副教授、博士生導(dǎo)師,李大海則擔(dān)任過知乎首席技術(shù)官。

2023年至今,面壁智能完成了兩輪融資。去年4月,知乎、智譜AI對其投資數(shù)千萬元。今年4月,面壁智能完成了新一輪數(shù)億元融資,由春華創(chuàng)投、華為哈勃領(lǐng)投,北京市人工智能產(chǎn)業(yè)投資基金等跟投。

以下為對話實(shí)錄:

經(jīng)濟(jì)觀察網(wǎng):之前斯坦福大學(xué)學(xué)生抄襲面壁智能模型的事件,是否說明當(dāng)前中美大模型的差距縮小了?

李大海:在最大、最聰明的模型層面,我們距離美國整體還有比較大的距離。這些差距是由于資金能力、算力水平、算力投入等造成的,我們需要正視這些現(xiàn)實(shí)。

但中國在很多領(lǐng)域也有自己的創(chuàng)新和探索。比如對端側(cè)模型的探索,我們在全球范圍內(nèi)都算是比較領(lǐng)先的,所以才會(huì)出現(xiàn)被抄襲的事情。此外,在開源模型這個(gè)領(lǐng)域,國內(nèi)有很多同行在不同層面都做出了創(chuàng)新,比如阿里通義千問對開源模型的貢獻(xiàn)就比較大。

經(jīng)濟(jì)觀察網(wǎng):今年是AI應(yīng)用元年,很多大模型產(chǎn)品正在落地,出現(xiàn)了各式各樣的應(yīng)用。你們所研發(fā)的端側(cè)模型,是否也已經(jīng)開始落地?現(xiàn)在有哪些應(yīng)用場景?

李大海:在PC、手機(jī)、智能汽車,以及一些前沿的智能終端領(lǐng)域,都有端側(cè)模型落地的場景。我們最近在和一家機(jī)器人公司合作,他們研發(fā)的是外形像寵物貓的情感類機(jī)器人,主要提供給愛貓的用戶。我們的端側(cè)模型與機(jī)器人結(jié)合在一起,能讓它更加懂用戶,能更好地與用戶進(jìn)行交流,給用戶帶來很多情緒價(jià)值。

經(jīng)濟(jì)觀察網(wǎng):為什么這家機(jī)器人公司要和你們的端側(cè)模型合作,而不是和其他大模型公司合作?

李大海:因?yàn)樵谶@樣的場景中,端側(cè)模型有比較大的優(yōu)勢。其他云側(cè)大模型也可以用在機(jī)器人之中,但端側(cè)模型的成本更低、可靠性更強(qiáng),因?yàn)樗恍枰蕾囉诰W(wǎng)絡(luò)。即使斷網(wǎng)后,用戶也可以和這只機(jī)器貓交流。

相比云側(cè)大模型,端側(cè)模型參數(shù)規(guī)模要小一些,它不可能做所有的事情,這是它的劣勢。但是它有非常好的隱私性,也有更強(qiáng)的可靠性,比如在飛機(jī)上、在隧道里或在野外,人們都可以放心大膽地使用它。

經(jīng)濟(jì)觀察網(wǎng):ChatGPT(OpenAI旗下聊天機(jī)器人)等大模型產(chǎn)品當(dāng)下已經(jīng)被廣泛應(yīng)用。端側(cè)模型技術(shù)進(jìn)展到了什么程度,可以落地應(yīng)用了嗎?

李大海:在一些特定的場景下,比如嵌入到寵物機(jī)器人中與人類進(jìn)行交流的場景,端側(cè)模型已經(jīng)是可用的了。但它現(xiàn)在還沒到大規(guī)模使用的時(shí)候。

關(guān)于端側(cè)模型什么時(shí)候可以大規(guī)模應(yīng)用到手機(jī)、PC中的問題,我想提供一個(gè)大模型維度的摩爾定律。我們發(fā)現(xiàn)無論是開源模型還是閉源模型,都呈現(xiàn)出每8個(gè)月左右參數(shù)規(guī)模下降一半,但模型性能維持不變的現(xiàn)象。有兩個(gè)例子可以說明這個(gè)現(xiàn)象,比如OpenAI幾年前發(fā)布了1750億參數(shù)的GPT-3模型,今年我們用20億參數(shù)的模型,就已經(jīng)可以實(shí)現(xiàn)同樣效果。另外,我們不久前發(fā)布的面壁小鋼炮MiniCPM-Llama3-V 2.5模型,使用80億參數(shù),能達(dá)到甚至超過業(yè)界多模態(tài)王者GPT-4V的多模態(tài)性能水平。

參數(shù)規(guī)模下降、性能維持不變,說明大模型的知識(shí)密度提升了。隨著大模型知識(shí)密度的提升和端側(cè)算力的提升,我相信我們能用2年左右做出等同于GPT-4水平的端側(cè)模型。到時(shí)候端側(cè)模型就能大范圍使用了。

經(jīng)濟(jì)觀察網(wǎng):大模型公司的競爭已經(jīng)非常激烈,價(jià)格戰(zhàn)也正在開啟。面壁智能在端側(cè)模型目前有領(lǐng)先優(yōu)勢,你們怎么能保證自己一直領(lǐng)先?

李大海:天下武功,唯快不破,在快速變化的環(huán)境里面更是如此。創(chuàng)業(yè)公司必須有足夠快的自我迭代速度。我們公司大的戰(zhàn)略方向是做端側(cè)模型,在這個(gè)大方向上我們會(huì)有定力。但在具體執(zhí)行戰(zhàn)略上,我們會(huì)不斷升級(jí)認(rèn)知、提升方法論、提高迭代速度,我覺得這是最重要的事情。

相比其他公司,面壁智能很早就看到了端側(cè)模型的價(jià)值,并把所有的資源都往上堆,目前也做出了一些成績。前兩天蘋果開發(fā)者大會(huì)也在強(qiáng)調(diào)端側(cè)模型,這說明行業(yè)里更多同行也認(rèn)可了這個(gè)方向,這也證明了這個(gè)方向的正確性。

版權(quán)聲明:以上內(nèi)容為《經(jīng)濟(jì)觀察報(bào)》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟(jì)觀察報(bào)》社所有。未經(jīng)《經(jīng)濟(jì)觀察報(bào)》社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電:【010-60910566-1260】。
TMT新聞部資深記者
關(guān)注并報(bào)道TMT(科技、傳媒、通信)領(lǐng)域重大事件,擅長行業(yè)分析、深度報(bào)道。
聯(lián)系郵箱:renxiaoning@eeo.com.cn
微信號(hào):tangtangxiaomo

熱新聞