AI四小龍闖關(guān)大模型

錢玉娟2023-05-26 21:54

經(jīng)濟觀察報報記者錢玉娟 當(dāng)被稱為“AI下一代風(fēng)口”的AIGC時代啟幕，ChatGPT激起的大模型浪潮也涌入中國后，原本深耕于AI賽道中的獨角獸們，被認為是紅利當(dāng)頭、最應(yīng)順勢而為的那個。

然而，要與一眾科技巨頭展開大模型競速，靠計算機視覺算法能力占領(lǐng)AI領(lǐng)域的“四小龍”——曠視科技、商湯科技、依圖科技和云從科技，在本就分化的發(fā)展路徑上，各有不同的故事在發(fā)生。

過去的兩個月里，商湯科技、云從科技分別面市了“日日新SenseNova”大模型體系和“從容”大模型，反觀曠視科技與依圖科技，則被質(zhì)疑“難產(chǎn)”。

被記者問及大模型的創(chuàng)新推進情況時，5月25日，曠視科技方面援引CEO印奇的話作出回應(yīng)，“在過去四五年時間，我們對大模型這件事情一直非常深度follow的。”

印奇認為，大模型方向是確定的，曠視也會對其中的技術(shù)能力進行堅定投入，但“我們不會去趕這個熱點”。

同樣的疑問拋給依圖科技，盡管其創(chuàng)始管理團隊未予以答復(fù)，但內(nèi)部一副總裁向記者透露，“作為AI公司，依圖很早就在關(guān)注Transformer和做相關(guān)方面的研究工作。”不過業(yè)務(wù)側(cè)進展如何，其表示目前沒有可以對外公布的訊息。

談及上述兩家公司的“低調(diào)”，來自云從科技的一位管理中層有種個人理解，“我們和商湯比較幸運，在最困難的時候，登陸了二級市場，不然現(xiàn)在肯定也很難。”

做大模型，燒錢

上述管理中層人士以云從科技為例指出，在投入基礎(chǔ)訓(xùn)練模型的同時，還要做行業(yè)模型，“行業(yè)模型天然就是需要算力的。”他覺得云從敢這樣做，底氣在于有資本的原始積累。

云從科技在其2022年年報中披露，過去一年因籌資活動產(chǎn)生的現(xiàn)金流入達29.4億元，其中59%為其當(dāng)年上市融資所得。

需要注意的是，大模型不但開發(fā)成本高，其因需求高算力，訓(xùn)練成本也不容小覷。之于云從科技，想要跨過算力這道門檻，其董事長兼總經(jīng)理周曦的理解是，投入得到位，于是，重視研發(fā)投入的云從科技，決定“一定要投一二十個億來做這件事”。

如何衡量云從科技面向大模型的這筆投入，一組數(shù)據(jù)顯示，2019年-2022年的四年間，云從科技在研發(fā)側(cè)的費用支出總計也就21億元。

舍得投入的同時，云從科技不是沒有資金壓力。“現(xiàn)在買卡很緊張，買不到，就相當(dāng)于無米之炊了。”上述管理中層人士給記者算了一筆賬，做一個ChatGPT大約需要耗費3萬張顯卡，參考英偉達最新的GPU芯片H100，“一張卡動輒數(shù)十萬人民幣”，一個大模型僅在算力這一基礎(chǔ)投入上，至少花費幾億元人民幣。

據(jù)他透露，云從科技雖然儲備有幾萬張顯卡，但目前能用來做大模型訓(xùn)練的卻很缺乏。一個更為嚴峻的現(xiàn)實，當(dāng)下英偉達H100、A100、A800等幾款GPU芯片，都出現(xiàn)了全球斷貨現(xiàn)象，包括云從科技在內(nèi)的正在進行大模型訓(xùn)練及優(yōu)化升級的企業(yè)，都在尋找算力卡的替代和解決方案。

競爭之下，云從科技拋出了定向增資計劃。距離“從容”大模型面市也就一個半月前，云從科技公告稱，欲為“行業(yè)精靈”大模型研發(fā)項目，募集資金不超過36.35億元。

由于云從科技去年5月27日才登陸科創(chuàng)板，上市未滿一年便進行如此大規(guī)模募資，也引發(fā)監(jiān)管機構(gòu)疑慮。在“從容”大模型發(fā)布前兩天，云從科技披露公告稱，收到上交所下發(fā)的《關(guān)于云從科技向特定對象發(fā)行股票申請文件的審核問詢函》。

這一消息發(fā)出當(dāng)天，5月16日，云從科技的股價低開走低，盤中一度逼近跌停。整整十天之后，截至記者發(fā)稿前，上述云從科技管理中層人士表示，定增計劃的審核結(jié)果“應(yīng)該還有一段時間（才能公布）”，他希望這筆錢能讓團隊，“多采購一些不同的算力卡，以備模型的迭代升級和優(yōu)化。”

商業(yè)化故事，難講

其實，在推出“日日新”大模型體系時，商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒就當(dāng)場糾正了一個誤區(qū)：不是“買了很多GPU，就可以去搭建超大規(guī)模的訓(xùn)練集群。”

不過，記者看到，彼時的商湯對外展示出了自己的“雄厚實力”：歷時五年建設(shè)的大裝置上，總共有27000塊的GPU芯片卡，是亞洲目前最大的智能計算平臺之一。

“秀肌肉”的同時，商湯科技董事長兼CEO徐立還不忘對外釋放AI大模型的商業(yè)化前景，“商湯并不需要再額外投入太多，甚至已經(jīng)開始通過大模型獲得收入。”

不過，講好大模型的故事，并沒有那么容易。

盡管商湯科技的2022年度財報，首次實現(xiàn)了五年以來的虧損收窄，其研發(fā)支出也同比實現(xiàn)雙位數(shù)增幅，但因其大模型發(fā)布當(dāng)天，對“秒畫”平臺的操作演示環(huán)節(jié)涉嫌“抄襲”AI模型站Civitai上的圖片，瞬時，商湯科技“匆忙”闖關(guān)被熱議，其大模型的實際效果更被質(zhì)疑與業(yè)界預(yù)期不符。

商湯科技、云從科技等以視覺算法技術(shù)見長的企業(yè)，雖是AI 1.0時代的寵兒，但在《ChatGPT：讀懂人工智能新紀元》一書作者、前沿科技領(lǐng)域觀察分析人士陳根看來，邁向AI 2.0時代，尤其大模型浪潮涌起，上述企業(yè)在自然語言模型相關(guān)的技術(shù)儲備和路徑上都欠缺。

“發(fā)布大模型，只是為了迎合技術(shù)概念熱潮。”陳根直指商湯科技當(dāng)下的現(xiàn)實境遇，初始投資者沒有實現(xiàn)良好的收益，“它正面臨投資人退出的壓力，要么通過改善公司盈利能力來促進股價，要么就是抓住資本熱點來促進股價。”

顯然，從商湯科技的經(jīng)營層面來看，扭虧雖然有趨勢，但轉(zhuǎn)向盈利“基本看不到希望”，陳根對于AI企業(yè)借助概念熱點“講故事”的方式，不置可否。即便曠視科技、依圖科技當(dāng)前沒有對外實際公布，他也不覺得這些企業(yè)在大模型上存在“難產(chǎn)”。

“本身就是個技術(shù)故事，只是這個故事還一直在研發(fā)中心研發(fā)。”陳根說。

在接受媒體采訪時，印奇有這樣一句話令人印象深刻，“我們不會做純對話的事情。”他對ChatGPT進行解構(gòu)后，發(fā)現(xiàn)對話應(yīng)用背后的大模型，包含知識引擎和邏輯引擎兩部分，而印奇對曠視科技在邏輯引擎方面的能力予以肯定，他透露，曠視科技專門成立了一個叫“Foundation Model”的小組，“只做核心的模型設(shè)計，不做工程化的事。”

印奇認為，在當(dāng)下大模型已經(jīng)形成“大一統(tǒng)”的局面，多模態(tài)發(fā)展共識下，核心看誰在深度學(xué)習(xí)的模型領(lǐng)域有更深的理解和更強的模型設(shè)計功底。

新風(fēng)口下，蓄勢

曠視研究院主任研究員張祥雨，目前就擔(dān)任“Foundation Model”小組的負責(zé)人，他自ChatGPT發(fā)布以來，基本上每天都在使用，除了摸索這個智能機器人擁有的知識儲備，“我更關(guān)注它的邏輯推理能力。”

在張祥雨看來，目前包括ChatGPT在內(nèi)的大模型技術(shù)應(yīng)用，其實背后的邏輯是，在一個AI模型里，不斷增加數(shù)據(jù)和模型大小，來實現(xiàn)性能的持續(xù)提升，這與規(guī)?；?yīng)有關(guān)。當(dāng)曠視科技也進入其中摸索，面臨的挑戰(zhàn)是，視覺與自然語言的差異。

身在曠視科技，張祥雨正在思考，如何把視覺模型中的數(shù)據(jù)有效利用起來，再設(shè)計相關(guān)的無監(jiān)督、自監(jiān)督的方法，讓模型能在其中進行深度的理解學(xué)習(xí)。

“我更希望看到創(chuàng)業(yè)公司一邊賺錢、一邊賺數(shù)據(jù)，一邊賺知識。”藍馳創(chuàng)投管理合伙人朱天宇覺得，企業(yè)邁向AGI時代，除了大模型應(yīng)用，還要考慮切入的場景中，能否持續(xù)獲得新數(shù)據(jù)，數(shù)據(jù)能否反哺AI模型的訓(xùn)練，從而讓場景中的智能化服務(wù)的質(zhì)量效率更高。

不難想象，這是一個可以循環(huán)起來的閉環(huán)。微觀AI四小龍，除了曠視科技、依圖科技仍被資本市場拒之門外，每家公司都憑借各自的技術(shù)特點，在智慧城市、安防、物流、醫(yī)療等垂直領(lǐng)域形成了一定的優(yōu)勢壁壘。

陳根對依圖科技有所關(guān)注，這家AI公司在人工智能醫(yī)療領(lǐng)域的優(yōu)勢，完全有機會基于醫(yī)療這一垂直領(lǐng)域“打造一個GPT醫(yī)生”。這樣的例子不勝枚舉，再比如商湯科技，在智慧城市治理方面，也有獨特的數(shù)據(jù)與技術(shù)優(yōu)勢……陳根呼吁外界，在通用大模型技術(shù)應(yīng)用外，更多關(guān)注AI四小龍“是否能打造出更多垂直領(lǐng)域應(yīng)用的專業(yè)化GPT”。

朱天宇則強調(diào)，不能迷信大模型，反倒要非常重視大數(shù)據(jù)，“人工智能還是源于大數(shù)據(jù)蓬勃發(fā)展，沒有數(shù)據(jù)，人工智能也是無米之炊。”來自云從科技的管理中層也有共識，“閉門造車”式訓(xùn)練AI模型，沒有來自千行百業(yè)的數(shù)據(jù)，根本訓(xùn)練不出來一個真正智能化的大模型。

“沒有深入這個行業(yè)，你連數(shù)據(jù)長什么樣，業(yè)務(wù)怎么樣，都不了解。”目前，這位云從科技管理中層就專注于借助“從容”大模型，深入不同行業(yè)進行優(yōu)化測試，從而研發(fā)出專屬于某垂直領(lǐng)域的行業(yè)大模型。

當(dāng)然，行業(yè)落地需分階段，上述云從管理中層看到，一些廠商號稱“敢去做行業(yè)模型”，但從現(xiàn)實看，其推出的基礎(chǔ)大模型多停留在互聯(lián)網(wǎng)產(chǎn)業(yè)，“卡就那么幾萬張，訓(xùn)練萬億數(shù)據(jù)規(guī)模的大模型，卡都占了一大半，哪有資源來訓(xùn)練行業(yè)模型？”

采訪的最后，上述企業(yè)管理中層透露，目前云從科技的算力卡資源，傾向于行業(yè)模型訓(xùn)練，“基礎(chǔ)模型訓(xùn)練的算力芯片，最多不能超過1/3。”

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟觀察報》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟觀察報》社所有。未經(jīng)《經(jīng)濟觀察報》社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請致電：【010-60910566-1260】。