AI四小龍闖關(guān)大模型

錢玉娟2023-05-26 21:54

經(jīng)濟觀察報報 記者 錢玉娟 當(dāng)被稱為“AI下一代風(fēng)口”的AIGC時代啟幕,ChatGPT激起的大模型浪潮也涌入中國后,原本深耕于AI賽道中的獨角獸們,被認為是紅利當(dāng)頭、最應(yīng)順勢而為的那個。

然而,要與一眾科技巨頭展開大模型競速,靠計算機視覺算法能力占領(lǐng)AI領(lǐng)域的“四小龍”——曠視科技、商湯科技、依圖科技和云從科技,在本就分化的發(fā)展路徑上,各有不同的故事在發(fā)生。

過去的兩個月里,商湯科技、云從科技分別面市了“日日新SenseNova”大模型體系和“從容”大模型,反觀曠視科技與依圖科技,則被質(zhì)疑“難產(chǎn)”。

被記者問及大模型的創(chuàng)新推進情況時,5月25日,曠視科技方面援引CEO印奇的話作出回應(yīng),“在過去四五年時間,我們對大模型這件事情一直非常深度follow的。”

印奇認為,大模型方向是確定的,曠視也會對其中的技術(shù)能力進行堅定投入,但“我們不會去趕這個熱點”。

同樣的疑問拋給依圖科技,盡管其創(chuàng)始管理團隊未予以答復(fù),但內(nèi)部一副總裁向記者透露,“作為AI公司,依圖很早就在關(guān)注Transformer和做相關(guān)方面的研究工作。”不過業(yè)務(wù)側(cè)進展如何,其表示目前沒有可以對外公布的訊息。

談及上述兩家公司的“低調(diào)”,來自云從科技的一位管理中層有種個人理解,“我們和商湯比較幸運,在最困難的時候,登陸了二級市場,不然現(xiàn)在肯定也很難。”

做大模型,燒錢

上述管理中層人士以云從科技為例指出,在投入基礎(chǔ)訓(xùn)練模型的同時,還要做行業(yè)模型,“行業(yè)模型天然就是需要算力的。”他覺得云從敢這樣做,底氣在于有資本的原始積累。

云從科技在其2022年年報中披露,過去一年因籌資活動產(chǎn)生的現(xiàn)金流入達29.4億元,其中59%為其當(dāng)年上市融資所得。

需要注意的是,大模型不但開發(fā)成本高,其因需求高算力,訓(xùn)練成本也不容小覷。之于云從科技,想要跨過算力這道門檻,其董事長兼總經(jīng)理周曦的理解是,投入得到位,于是,重視研發(fā)投入的云從科技,決定“一定要投一二十個億來做這件事”。

如何衡量云從科技面向大模型的這筆投入,一組數(shù)據(jù)顯示,2019年-2022年的四年間,云從科技在研發(fā)側(cè)的費用支出總計也就21億元。

舍得投入的同時,云從科技不是沒有資金壓力。“現(xiàn)在買卡很緊張,買不到,就相當(dāng)于無米之炊了。”上述管理中層人士給記者算了一筆賬,做一個ChatGPT大約需要耗費3萬張顯卡,參考英偉達最新的GPU芯片H100,“一張卡動輒數(shù)十萬人民幣”,一個大模型僅在算力這一基礎(chǔ)投入上,至少花費幾億元人民幣。

據(jù)他透露,云從科技雖然儲備有幾萬張顯卡,但目前能用來做大模型訓(xùn)練的卻很缺乏。一個更為嚴峻的現(xiàn)實,當(dāng)下英偉達H100、A100、A800等幾款GPU芯片,都出現(xiàn)了全球斷貨現(xiàn)象,包括云從科技在內(nèi)的正在進行大模型訓(xùn)練及優(yōu)化升級的企業(yè),都在尋找算力卡的替代和解決方案。

競爭之下,云從科技拋出了定向增資計劃。距離“從容”大模型面市也就一個半月前,云從科技公告稱,欲為“行業(yè)精靈”大模型研發(fā)項目,募集資金不超過36.35億元。

由于云從科技去年5月27日才登陸科創(chuàng)板,上市未滿一年便進行如此大規(guī)模募資,也引發(fā)監(jiān)管機構(gòu)疑慮。在“從容”大模型發(fā)布前兩天,云從科技披露公告稱,收到上交所下發(fā)的《關(guān)于云從科技向特定對象發(fā)行股票申請文件的審核問詢函》。

這一消息發(fā)出當(dāng)天,5月16日,云從科技的股價低開走低,盤中一度逼近跌停。整整十天之后,截至記者發(fā)稿前,上述云從科技管理中層人士表示,定增計劃的審核結(jié)果“應(yīng)該還有一段時間(才能公布)”,他希望這筆錢能讓團隊,“多采購一些不同的算力卡,以備模型的迭代升級和優(yōu)化。”

商業(yè)化故事,難講

其實,在推出“日日新”大模型體系時,商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒就當(dāng)場糾正了一個誤區(qū):不是“買了很多GPU,就可以去搭建超大規(guī)模的訓(xùn)練集群。”

不過,記者看到,彼時的商湯對外展示出了自己的“雄厚實力”:歷時五年建設(shè)的大裝置上,總共有27000塊的GPU芯片卡,是亞洲目前最大的智能計算平臺之一。

“秀肌肉”的同時,商湯科技董事長兼CEO徐立還不忘對外釋放AI大模型的商業(yè)化前景,“商湯并不需要再額外投入太多,甚至已經(jīng)開始通過大模型獲得收入。”

不過,講好大模型的故事,并沒有那么容易。

盡管商湯科技的2022年度財報,首次實現(xiàn)了五年以來的虧損收窄,其研發(fā)支出也同比實現(xiàn)雙位數(shù)增幅,但因其大模型發(fā)布當(dāng)天,對“秒畫”平臺的操作演示環(huán)節(jié)涉嫌“抄襲”AI模型站Civitai上的圖片,瞬時,商湯科技“匆忙”闖關(guān)被熱議,其大模型的實際效果更被質(zhì)疑與業(yè)界預(yù)期不符。

商湯科技、云從科技等以視覺算法技術(shù)見長的企業(yè),雖是AI 1.0時代的寵兒,但在《ChatGPT:讀懂人工智能新紀元》一書作者、前沿科技領(lǐng)域觀察分析人士陳根看來,邁向AI 2.0時代,尤其大模型浪潮涌起,上述企業(yè)在自然語言模型相關(guān)的技術(shù)儲備和路徑上都欠缺。

“發(fā)布大模型,只是為了迎合技術(shù)概念熱潮。”陳根直指商湯科技當(dāng)下的現(xiàn)實境遇,初始投資者沒有實現(xiàn)良好的收益,“它正面臨投資人退出的壓力,要么通過改善公司盈利能力來促進股價,要么就是抓住資本熱點來促進股價。”

顯然,從商湯科技的經(jīng)營層面來看,扭虧雖然有趨勢,但轉(zhuǎn)向盈利“基本看不到希望”,陳根對于AI企業(yè)借助概念熱點“講故事”的方式,不置可否。即便曠視科技、依圖科技當(dāng)前沒有對外實際公布,他也不覺得這些企業(yè)在大模型上存在“難產(chǎn)”。

“本身就是個技術(shù)故事,只是這個故事還一直在研發(fā)中心研發(fā)。”陳根說。

在接受媒體采訪時,印奇有這樣一句話令人印象深刻,“我們不會做純對話的事情。”他對ChatGPT進行解構(gòu)后,發(fā)現(xiàn)對話應(yīng)用背后的大模型,包含知識引擎和邏輯引擎兩部分,而印奇對曠視科技在邏輯引擎方面的能力予以肯定,他透露,曠視科技專門成立了一個叫“Foundation Model”的小組,“只做核心的模型設(shè)計,不做工程化的事。”

印奇認為,在當(dāng)下大模型已經(jīng)形成“大一統(tǒng)”的局面,多模態(tài)發(fā)展共識下,核心看誰在深度學(xué)習(xí)的模型領(lǐng)域有更深的理解和更強的模型設(shè)計功底。

新風(fēng)口下,蓄勢

曠視研究院主任研究員張祥雨,目前就擔(dān)任“Foundation Model”小組的負責(zé)人,他自ChatGPT發(fā)布以來,基本上每天都在使用,除了摸索這個智能機器人擁有的知識儲備,“我更關(guān)注它的邏輯推理能力。”

在張祥雨看來,目前包括ChatGPT在內(nèi)的大模型技術(shù)應(yīng)用,其實背后的邏輯是,在一個AI模型里,不斷增加數(shù)據(jù)和模型大小,來實現(xiàn)性能的持續(xù)提升,這與規(guī)?;?yīng)有關(guān)。當(dāng)曠視科技也進入其中摸索,面臨的挑戰(zhàn)是,視覺與自然語言的差異。

身在曠視科技,張祥雨正在思考,如何把視覺模型中的數(shù)據(jù)有效利用起來,再設(shè)計相關(guān)的無監(jiān)督、自監(jiān)督的方法,讓模型能在其中進行深度的理解學(xué)習(xí)。

“我更希望看到創(chuàng)業(yè)公司一邊賺錢、一邊賺數(shù)據(jù),一邊賺知識。”藍馳創(chuàng)投管理合伙人朱天宇覺得,企業(yè)邁向AGI時代,除了大模型應(yīng)用,還要考慮切入的場景中,能否持續(xù)獲得新數(shù)據(jù),數(shù)據(jù)能否反哺AI模型的訓(xùn)練,從而讓場景中的智能化服務(wù)的質(zhì)量效率更高。

不難想象,這是一個可以循環(huán)起來的閉環(huán)。微觀AI四小龍,除了曠視科技、依圖科技仍被資本市場拒之門外,每家公司都憑借各自的技術(shù)特點,在智慧城市、安防、物流、醫(yī)療等垂直領(lǐng)域形成了一定的優(yōu)勢壁壘。

陳根對依圖科技有所關(guān)注,這家AI公司在人工智能醫(yī)療領(lǐng)域的優(yōu)勢,完全有機會基于醫(yī)療這一垂直領(lǐng)域“打造一個GPT醫(yī)生”。這樣的例子不勝枚舉,再比如商湯科技,在智慧城市治理方面,也有獨特的數(shù)據(jù)與技術(shù)優(yōu)勢……陳根呼吁外界,在通用大模型技術(shù)應(yīng)用外,更多關(guān)注AI四小龍“是否能打造出更多垂直領(lǐng)域應(yīng)用的專業(yè)化GPT”。

朱天宇則強調(diào),不能迷信大模型,反倒要非常重視大數(shù)據(jù),“人工智能還是源于大數(shù)據(jù)蓬勃發(fā)展,沒有數(shù)據(jù),人工智能也是無米之炊。”來自云從科技的管理中層也有共識,“閉門造車”式訓(xùn)練AI模型,沒有來自千行百業(yè)的數(shù)據(jù),根本訓(xùn)練不出來一個真正智能化的大模型。

“沒有深入這個行業(yè),你連數(shù)據(jù)長什么樣,業(yè)務(wù)怎么樣,都不了解。”目前,這位云從科技管理中層就專注于借助“從容”大模型,深入不同行業(yè)進行優(yōu)化測試,從而研發(fā)出專屬于某垂直領(lǐng)域的行業(yè)大模型。

當(dāng)然,行業(yè)落地需分階段,上述云從管理中層看到,一些廠商號稱“敢去做行業(yè)模型”,但從現(xiàn)實看,其推出的基礎(chǔ)大模型多停留在互聯(lián)網(wǎng)產(chǎn)業(yè),“卡就那么幾萬張,訓(xùn)練萬億數(shù)據(jù)規(guī)模的大模型,卡都占了一大半,哪有資源來訓(xùn)練行業(yè)模型?”

采訪的最后,上述企業(yè)管理中層透露,目前云從科技的算力卡資源,傾向于行業(yè)模型訓(xùn)練,“基礎(chǔ)模型訓(xùn)練的算力芯片,最多不能超過1/3。”

版權(quán)聲明:以上內(nèi)容為《經(jīng)濟觀察報》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟觀察報》社所有。未經(jīng)《經(jīng)濟觀察報》社授權(quán),嚴禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電:【010-60910566-1260】。
TMT新聞部記者
長期關(guān)注并報道TMT領(lǐng)域的重大事件,時刻保持新聞敏感,發(fā)現(xiàn)前沿趨勢。擅長企業(yè)模式、人物專訪及行業(yè)深度報道。
重要新聞線索可聯(lián)系qianyujuan@eeo.com.cn
微信號:EstherQ138279

熱新聞

電子刊物

點擊進入