“日日新”大模型體系入局 商湯想提供一個(gè)大模型的“超市”

錢玉娟2023-04-11 10:28

經(jīng)濟(jì)觀察網(wǎng) 記者 錢玉娟  4月10日,商湯科技董事長(zhǎng)兼CEO徐立對(duì)外宣布,公司在“大模型+大算力”的戰(zhàn)略下,通過(guò)AI大裝置SenseCore打造出了AGI(通用人工智能)實(shí)現(xiàn)的基礎(chǔ)設(shè)施——一個(gè)大模型體系。該體系具備自然語(yǔ)言處理、內(nèi)容生成、自動(dòng)化數(shù)據(jù)標(biāo)注、自定義模型訓(xùn)練等多種大模型及能力,被命名為“日日新SenseNova(下文簡(jiǎn)稱:日日新)”。

“茍日新、日日新、又日新。”徐立分享了命名背后的寓意,他希望在模型的迭代速度及處理問(wèn)題的能力上,商湯可以“日日更新”,“不斷解鎖AGI的更多可能”。

在商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家王曉剛看來(lái),商湯的AGI催生了“新的研究范式”,即基于一個(gè)強(qiáng)大的多模態(tài)基模型,通過(guò)強(qiáng)化學(xué)習(xí)和人類反饋,不斷解鎖基模型新的能力,從而更高效地解決海量的開(kāi)放式任務(wù)。

據(jù)介紹,在“日日新”大模型體系下,商湯創(chuàng)造出了一系列生成式AI模型及應(yīng)用,諸如AI文生圖創(chuàng)作、2D/3D數(shù)字人生成、大場(chǎng)景/小物體生成等。

大模型的“超市”

自ChatGPT推出以來(lái),人們對(duì)自然語(yǔ)言大模型的關(guān)注度倍增,作為人機(jī)溝通的關(guān)鍵手段,自然語(yǔ)言也成為國(guó)內(nèi)一眾科技互聯(lián)網(wǎng)公司開(kāi)發(fā)大模型的重要方向,商湯也不例外。

在“日日新”大模型體系下,商湯研發(fā)了一個(gè)名為“商量SenseChat”的語(yǔ)言大模型,通過(guò)千億級(jí)參數(shù)等大量數(shù)據(jù)訓(xùn)練,充分考慮中文語(yǔ)境,現(xiàn)場(chǎng)演示出了其對(duì)中文文本的理解和處理。

記者了解到,“商量SenseChat”還具有編寫(xiě)和調(diào)試代碼、提供個(gè)性化醫(yī)療建議以及從復(fù)雜文檔中提取和概括信息的應(yīng)用體驗(yàn),商湯概括這一語(yǔ)言大模型可充當(dāng)編程、健康咨詢以及PDF文件閱讀等場(chǎng)景下的“助手”角色。

不只是語(yǔ)言大模型,“日日新”還為政企客戶提供了API接口,既包括圖片生成,自然語(yǔ)言生成,視覺(jué)感知通用任務(wù)與自動(dòng)化數(shù)據(jù)標(biāo)注等服務(wù),還可以提供大模型并行訓(xùn)練和模型增量訓(xùn)練服務(wù),便于客戶在大模型基礎(chǔ)上進(jìn)行自身垂直領(lǐng)域、行業(yè)的自定義模型開(kāi)發(fā)等。

技術(shù)創(chuàng)新能力,往往是內(nèi)生外化的。商湯基于“日日新”大模型體系中的基于視覺(jué)大模型,幫助自身提升了在智能駕駛領(lǐng)域中,對(duì)環(huán)境、行為及動(dòng)機(jī)的解碼能力;它還會(huì)面向行業(yè)開(kāi)發(fā)者開(kāi)放大量預(yù)訓(xùn)練模型及AI開(kāi)發(fā)工具鏈,以此幫助客戶提升開(kāi)發(fā)效率等。

在徐立的規(guī)劃里,商湯在推出“日日新”大模型體系后,便為上下游提供了一個(gè)大模型的“超市”,其中有數(shù)據(jù)、模型訓(xùn)練以及部署相關(guān)。

“商湯已建立了全棧的大模型研發(fā)體系,并已在多個(gè)行業(yè)場(chǎng)景中落地。”王曉剛覺(jué)得,從場(chǎng)景的多樣性,任務(wù)的復(fù)雜度以及數(shù)據(jù)的豐富度等多個(gè)維度看,都反映出商湯大模型的能力。

這種“既要有,還得全,最后還能對(duì)外供給”的能力,在深耕人工智能產(chǎn)業(yè)的量子位聯(lián)合創(chuàng)始人李根看來(lái),“這種能力不是誰(shuí)都有的。”

需要提及的是,商湯早自2018年左右就洞察了大模型趨勢(shì),也是中國(guó)較早押注進(jìn)行相關(guān)規(guī)劃的公司。但“模型太大、參數(shù)太多、訓(xùn)練成本太高。”李根告訴記者,商湯被迫走上了一條自建算力中心、自己造芯片的道路,由此摸索出的是一種提供模型與算力的商業(yè)模式,即“從提供掘金工具,到賣水賣服務(wù)。”

大模型的“超市”,當(dāng)商湯將這個(gè)目標(biāo)定位打出來(lái),陳根只覺(jué)得,不過(guò)是當(dāng)下時(shí)間點(diǎn)將大模型體系推到了臺(tái)前,“積累的工作,商湯早在之前就完成了。”

入局底氣何在?

徐立指出,“在AI大模型時(shí)代,數(shù)據(jù)、算法和算力這三要素也在經(jīng)歷新的演變。”

首先,大模型參數(shù)量將以指數(shù)級(jí)的速率提升,而數(shù)據(jù)量隨著多模態(tài)的引入也將大規(guī)模增長(zhǎng),這也必然會(huì)導(dǎo)致對(duì)算力需求的劇增。

正因當(dāng)前業(yè)界訓(xùn)練大模型對(duì)大算力的需求旺盛,但真正好用的基礎(chǔ)設(shè)施又是稀缺的。商湯則歷時(shí)五年,不僅建設(shè)了AI大裝置SenseCore,還基于大裝置的能力,構(gòu)建起了計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、AI內(nèi)容生成、多模態(tài)、決策智能等多個(gè)領(lǐng)域的大模型。

一組數(shù)據(jù)顯示,商湯的AI大裝置上共有27000塊的GPU芯片卡,可以輸出5.0 exaFLOPS的總算力,是亞洲目前最大的智能計(jì)算平臺(tái)之一?;诖?,商湯實(shí)現(xiàn)“大模型+大算力”的融合創(chuàng)新研發(fā)體系。

記者采訪了《ChatGPT:讀懂人工智能新紀(jì)元》一書(shū)作者、前沿科技領(lǐng)域作家陳根,他總結(jié)認(rèn)為,商湯目前階段有兩大優(yōu)勢(shì),一是它沒(méi)有被制裁前,在算力層面比較領(lǐng)先,但“這種領(lǐng)先只能是相較同樣被制裁環(huán)境下的大廠有領(lǐng)先性,不代表明天和后天仍占優(yōu)勢(shì)。”

另外,商湯從人工智能技術(shù)研發(fā)與理論研究層面來(lái)講,“它擁有華人領(lǐng)域比較優(yōu)秀且龐大的人工智能專家團(tuán)隊(duì)。”

在陳根看來(lái),入局大模型,比拼的不僅僅是模型能力,還有模型的調(diào)參優(yōu)化、數(shù)據(jù)訓(xùn)練、算力支持等多維度能力的考驗(yàn)。他以谷歌為例,同樣擁有算力、數(shù)據(jù)、模型三方面優(yōu)勢(shì),“但在模型調(diào)參優(yōu)化上沒(méi)能突破,最終挑戰(zhàn)OpenAI也失敗了。”

陳根指出,大模型的技術(shù)體系不難,甚至是公開(kāi)的,有人工智能技術(shù)團(tuán)隊(duì)的企業(yè)都可以快速搭出來(lái),但能不能用卻是另一回事。從目前來(lái)看,他覺(jué)得模型愿景是否明朗以及技術(shù)實(shí)現(xiàn)與否的評(píng)價(jià)標(biāo)準(zhǔn),“就是敢不敢公測(cè)。”

盡管商湯在官宣現(xiàn)場(chǎng)進(jìn)行了實(shí)測(cè),但被記者問(wèn)及測(cè)試賬號(hào)信息時(shí),相關(guān)人士回應(yīng)稱,“目前這是主要面向B端的技術(shù)”,其表示,商湯日日新大模型體系開(kāi)放面向政企客戶的API接口,客戶可以登錄商湯官網(wǎng)申請(qǐng),后續(xù)或有序開(kāi)放To C的測(cè)試賬號(hào)。

商湯方面表達(dá)著對(duì)大模型研發(fā)的一種期待,“在數(shù)據(jù)量上、參數(shù)結(jié)構(gòu)上、以及能處理的問(wèn)題上,可以日復(fù)一日的提高。”

陳根覺(jué)得,從現(xiàn)實(shí)來(lái)看,商湯依然面臨訓(xùn)練數(shù)據(jù)、參數(shù)優(yōu)化、硬件算力等方面的硬傷,這并非孤例,他告訴記者,當(dāng)下各大廠開(kāi)發(fā)的大模型,都仍處于研發(fā)、訓(xùn)練階段,“不日日新、不日日抓緊優(yōu)化、調(diào)參、訓(xùn)練,就沒(méi)辦法實(shí)現(xiàn)公測(cè),也沒(méi)辦法投入使用。”

版權(quán)聲明:以上內(nèi)容為《經(jīng)濟(jì)觀察報(bào)》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟(jì)觀察報(bào)》社所有。未經(jīng)《經(jīng)濟(jì)觀察報(bào)》社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責(zé)任。版權(quán)合作請(qǐng)致電:【010-60910566-1260】。
TMT新聞部記者
長(zhǎng)期關(guān)注并報(bào)道TMT領(lǐng)域的重大事件,時(shí)刻保持新聞敏感,發(fā)現(xiàn)前沿趨勢(shì)。擅長(zhǎng)企業(yè)模式、人物專訪及行業(yè)深度報(bào)道。
重要新聞線索可聯(lián)系qianyujuan@eeo.com.cn
微信號(hào):EstherQ138279

熱新聞