對話面壁智能李大海：中國對端側(cè)模型的探索全球領(lǐng)先

任曉寧2024-06-16 12:24

經(jīng)濟(jì)觀察網(wǎng) 記者任曉寧 “完全沒有想到會(huì)以這種方式出圈，挺惶恐的。”6月14日，面壁智能首席執(zhí)行官李大海在接受經(jīng)濟(jì)觀察網(wǎng)采訪時(shí)，提到了此前火爆一時(shí)的斯坦福大學(xué)學(xué)生抄襲面壁智能旗下大模型的事件。他認(rèn)為，從全球范圍看，目前中國在端側(cè)模型、開源模型等領(lǐng)域都有創(chuàng)新的地方。

5月29日，多模態(tài)大模型Llama3-V在開源社區(qū)走紅，其開發(fā)者是美國斯坦福大學(xué)學(xué)生組成的AI團(tuán)隊(duì)，他們聲稱可以用500美元的價(jià)格訓(xùn)練出對標(biāo)GPT-4V（美國AI公司OpenAI旗下大模型）多模態(tài)能力的模型。

第二天，Llama3-V模型被網(wǎng)友指出涉嫌抄襲中國的端側(cè)模型MiniCPM-Llama3-V 2.5，這件事在國外AI圈引發(fā)關(guān)注，在國內(nèi)也多次登上微博熱搜。最終斯坦福大學(xué)學(xué)生選擇道歉并刪除Llama3-V模型。

MiniCPM系列模型由中國大模型創(chuàng)業(yè)公司面壁智能開發(fā)。這家公司此前只在AI圈內(nèi)知名，但因被抄襲一事名聲大噪。李大海在接受經(jīng)濟(jì)觀察網(wǎng)采訪時(shí)，講述了該事件的來龍去脈。他認(rèn)為，該事件說明，中國的大模型技術(shù)在一些領(lǐng)域已經(jīng)處于全球領(lǐng)先位置。

面壁智能主要做端側(cè)模型。相比互聯(lián)網(wǎng)大廠和其他大模型創(chuàng)業(yè)公司主要發(fā)力的云側(cè)大模型，端側(cè)模型一般參數(shù)較小，比如MiniCPM的第一款模型，只有20億參數(shù)，但可以實(shí)現(xiàn)文本翻譯、知識(shí)問答、代碼編程等大模型能力，也有多模態(tài)能力。由于成本低、參數(shù)小，端側(cè)模型更適合在手機(jī)端、個(gè)人電腦（PC）端和智能硬件端使用。

與已經(jīng)開啟“百模大戰(zhàn)”的云側(cè)大模型市場相比，端側(cè)模型市場的國內(nèi)參與者較少。李大海解釋，面壁智能所做的事，是在同樣的時(shí)間、同等參數(shù)量的條件下，把模型知識(shí)壓縮的效率做到極致，把更多的高質(zhì)量數(shù)據(jù)壓縮進(jìn)一個(gè)更小更優(yōu)的模型中。

面壁智能成立于2022年8月，創(chuàng)始團(tuán)隊(duì)主要來自清華大學(xué)自然語言處理實(shí)驗(yàn)室，聯(lián)合創(chuàng)始人劉知遠(yuǎn)是清華大學(xué)計(jì)算機(jī)系長聘副教授、博士生導(dǎo)師，李大海則擔(dān)任過知乎首席技術(shù)官。

2023年至今，面壁智能完成了兩輪融資。去年4月，知乎、智譜AI對其投資數(shù)千萬元。今年4月，面壁智能完成了新一輪數(shù)億元融資，由春華創(chuàng)投、華為哈勃領(lǐng)投，北京市人工智能產(chǎn)業(yè)投資基金等跟投。

以下為對話實(shí)錄：

經(jīng)濟(jì)觀察網(wǎng)：之前斯坦福大學(xué)學(xué)生抄襲面壁智能模型的事件，是否說明當(dāng)前中美大模型的差距縮小了？

李大海：在最大、最聰明的模型層面，我們距離美國整體還有比較大的距離。這些差距是由于資金能力、算力水平、算力投入等造成的，我們需要正視這些現(xiàn)實(shí)。

但中國在很多領(lǐng)域也有自己的創(chuàng)新和探索。比如對端側(cè)模型的探索，我們在全球范圍內(nèi)都算是比較領(lǐng)先的，所以才會(huì)出現(xiàn)被抄襲的事情。此外，在開源模型這個(gè)領(lǐng)域，國內(nèi)有很多同行在不同層面都做出了創(chuàng)新，比如阿里通義千問對開源模型的貢獻(xiàn)就比較大。

經(jīng)濟(jì)觀察網(wǎng)：今年是AI應(yīng)用元年，很多大模型產(chǎn)品正在落地，出現(xiàn)了各式各樣的應(yīng)用。你們所研發(fā)的端側(cè)模型，是否也已經(jīng)開始落地？現(xiàn)在有哪些應(yīng)用場景？

李大海：在PC、手機(jī)、智能汽車，以及一些前沿的智能終端領(lǐng)域，都有端側(cè)模型落地的場景。我們最近在和一家機(jī)器人公司合作，他們研發(fā)的是外形像寵物貓的情感類機(jī)器人，主要提供給愛貓的用戶。我們的端側(cè)模型與機(jī)器人結(jié)合在一起，能讓它更加懂用戶，能更好地與用戶進(jìn)行交流，給用戶帶來很多情緒價(jià)值。

經(jīng)濟(jì)觀察網(wǎng)：為什么這家機(jī)器人公司要和你們的端側(cè)模型合作，而不是和其他大模型公司合作？

李大海：因?yàn)樵谶@樣的場景中，端側(cè)模型有比較大的優(yōu)勢。其他云側(cè)大模型也可以用在機(jī)器人之中，但端側(cè)模型的成本更低、可靠性更強(qiáng)，因?yàn)樗恍枰蕾囉诰W(wǎng)絡(luò)。即使斷網(wǎng)后，用戶也可以和這只機(jī)器貓交流。

相比云側(cè)大模型，端側(cè)模型參數(shù)規(guī)模要小一些，它不可能做所有的事情，這是它的劣勢。但是它有非常好的隱私性，也有更強(qiáng)的可靠性，比如在飛機(jī)上、在隧道里或在野外，人們都可以放心大膽地使用它。

經(jīng)濟(jì)觀察網(wǎng)：ChatGPT（OpenAI旗下聊天機(jī)器人）等大模型產(chǎn)品當(dāng)下已經(jīng)被廣泛應(yīng)用。端側(cè)模型技術(shù)進(jìn)展到了什么程度，可以落地應(yīng)用了嗎？

李大海：在一些特定的場景下，比如嵌入到寵物機(jī)器人中與人類進(jìn)行交流的場景，端側(cè)模型已經(jīng)是可用的了。但它現(xiàn)在還沒到大規(guī)模使用的時(shí)候。

關(guān)于端側(cè)模型什么時(shí)候可以大規(guī)模應(yīng)用到手機(jī)、PC中的問題，我想提供一個(gè)大模型維度的摩爾定律。我們發(fā)現(xiàn)無論是開源模型還是閉源模型，都呈現(xiàn)出每8個(gè)月左右參數(shù)規(guī)模下降一半，但模型性能維持不變的現(xiàn)象。有兩個(gè)例子可以說明這個(gè)現(xiàn)象，比如OpenAI幾年前發(fā)布了1750億參數(shù)的GPT-3模型，今年我們用20億參數(shù)的模型，就已經(jīng)可以實(shí)現(xiàn)同樣效果。另外，我們不久前發(fā)布的面壁小鋼炮MiniCPM-Llama3-V 2.5模型，使用80億參數(shù)，能達(dá)到甚至超過業(yè)界多模態(tài)王者GPT-4V的多模態(tài)性能水平。

參數(shù)規(guī)模下降、性能維持不變，說明大模型的知識(shí)密度提升了。隨著大模型知識(shí)密度的提升和端側(cè)算力的提升，我相信我們能用2年左右做出等同于GPT-4水平的端側(cè)模型。到時(shí)候端側(cè)模型就能大范圍使用了。

經(jīng)濟(jì)觀察網(wǎng)：大模型公司的競爭已經(jīng)非常激烈，價(jià)格戰(zhàn)也正在開啟。面壁智能在端側(cè)模型目前有領(lǐng)先優(yōu)勢，你們怎么能保證自己一直領(lǐng)先？

李大海：天下武功，唯快不破，在快速變化的環(huán)境里面更是如此。創(chuàng)業(yè)公司必須有足夠快的自我迭代速度。我們公司大的戰(zhàn)略方向是做端側(cè)模型，在這個(gè)大方向上我們會(huì)有定力。但在具體執(zhí)行戰(zhàn)略上，我們會(huì)不斷升級(jí)認(rèn)知、提升方法論、提高迭代速度，我覺得這是最重要的事情。

相比其他公司，面壁智能很早就看到了端側(cè)模型的價(jià)值，并把所有的資源都往上堆，目前也做出了一些成績。前兩天蘋果開發(fā)者大會(huì)也在強(qiáng)調(diào)端側(cè)模型，這說明行業(yè)里更多同行也認(rèn)可了這個(gè)方向，這也證明了這個(gè)方向的正確性。

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟(jì)觀察報(bào)》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟(jì)觀察報(bào)》社所有。未經(jīng)《經(jīng)濟(jì)觀察報(bào)》社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電：【010-60910566-1260】。