商湯,將AIGC進(jìn)行到底

經(jīng)觀新科技2023-07-13 17:20

當(dāng)AIGC熱潮在中國(guó)涌動(dòng)時(shí),作為AI領(lǐng)域的領(lǐng)航員之一,商湯科技率先推出了“日日新SenseNova”的大模型體系,多個(gè)大模型產(chǎn)品以體系化方式切入不同場(chǎng)景,摸索落地。

7月7日,在上海舉行的第六屆世界人工智能大會(huì)(WAIC 2023)上,商湯科技董事長(zhǎng)兼CEO徐立介紹,過(guò)去短短不到100天時(shí)間里,商湯除了在大模型能力上“日日新”,在結(jié)合場(chǎng)景給出的綜合解決方案和行業(yè)發(fā)展能力方面“又日新”。

身處大模型掀起的這一輪新的AI革命中,徐立看到,產(chǎn)業(yè)需求呈現(xiàn)爆炸式增長(zhǎng),全新的應(yīng)用場(chǎng)景和應(yīng)用模式正迅速涌現(xiàn)?!吧虦ㄟ^(guò)‘大模型+大裝置’持續(xù)推動(dòng)AI基礎(chǔ)設(shè)施能力的躍進(jìn)提升,不僅打造通用能力更加強(qiáng)大的基礎(chǔ)模型,也進(jìn)一步高效融合不同垂直領(lǐng)域的專(zhuān)業(yè)知識(shí),構(gòu)建更懂行業(yè)、更具專(zhuān)長(zhǎng)的專(zhuān)業(yè)大模型?!?/p>

通往AGI之路,徐立帶領(lǐng)下的團(tuán)隊(duì)選擇把一個(gè)個(gè)分解的任務(wù)變成端到端,也就是“多模態(tài)的接口開(kāi)放”,這讓商湯對(duì)開(kāi)放世界的理解更為深入,伴隨多模態(tài)交互能力的升級(jí),賦能下游產(chǎn)業(yè)應(yīng)用期間,不但可以從根本上降低大模型應(yīng)用成本和門(mén)檻,還進(jìn)一步讓大模型的產(chǎn)業(yè)價(jià)值在千行百業(yè)中綻放。

大模型“超市”全面升級(jí)

正如徐立所言,商湯的模型能力每天都在迭代,而基于“大模型+大裝置”的AGI戰(zhàn)略布局,大模型“超市”中的每個(gè)產(chǎn)品,也實(shí)現(xiàn)著飛速升級(jí)。

作為千億級(jí)參數(shù)的自然語(yǔ)言處理模型,商湯商量SenseChat 2.0版本不僅新增了像阿拉伯語(yǔ)、粵語(yǔ)等涉及小語(yǔ)種、地區(qū)語(yǔ)言的使用場(chǎng)景,還突破了大語(yǔ)言模型輸入長(zhǎng)度的限制,并推出了不同參數(shù)量級(jí)的模型版本,開(kāi)放新的API接口,完美適配移動(dòng)端、云端等不同終端及場(chǎng)景的應(yīng)用需求,降低部署成本。

基于十幾張徐立的照片,商湯自研生成式大模型商湯秒畫(huà)SenseMirage 3.0“畫(huà)”出了手捧鮮花、抱著吉他、旅游購(gòu)物等多個(gè)場(chǎng)景下的“徐立”照片,徐立講述,將這些照片發(fā)給家人時(shí),“很多人都信以為真。”

徐立將這種體驗(yàn)簡(jiǎn)而言之概括為“畫(huà)我想畫(huà)”,而在這一生成式體驗(yàn)實(shí)現(xiàn)背后,秒畫(huà)的模型參數(shù)已經(jīng)從4月首次發(fā)布時(shí)的10億提升至現(xiàn)今的70億量級(jí),從而使之達(dá)到如同專(zhuān)業(yè)攝影級(jí)的圖片細(xì)節(jié)刻畫(huà)與光影效果呈現(xiàn)。

徐立的“分身”也在商湯如影SenseAvatar 2.0數(shù)字人生成平臺(tái)得以實(shí)現(xiàn),除了AIGC生成形象外,這一數(shù)字人連語(yǔ)氣都能還原到徐立的五六分,語(yǔ)音和口型流暢度也較上代版本直接提升了30%以上。

數(shù)字人之外,面對(duì)空間“重構(gòu)”的需求,商湯瓊宇SenseSpace 2.0,在1200 TFLOPS/秒算力的理想狀態(tài)支持下,38小時(shí)內(nèi)就能完成100平方公里的場(chǎng)景建圖,相較上一代實(shí)現(xiàn)了效率提升20%,渲染性能提升50%。

若配搭商湯格物SenseThings 2.0對(duì)小物體的紋理及材質(zhì)還原達(dá)到毫米級(jí)精細(xì)度,這種3D還原還能突破對(duì)高反光和鏡面物體的采集難題,讓物體空間在數(shù)字化的世界里,也能立體且“逼真”。

落地場(chǎng)景激發(fā)生產(chǎn)力

當(dāng)越來(lái)越多的科技巨頭投身到中國(guó)通用大模型的自研創(chuàng)新中,應(yīng)用落地成為檢驗(yàn)各個(gè)大模型能力的關(guān)鍵,而千行百業(yè)則給出了“跨場(chǎng)景”的考驗(yàn)。

就此,商湯通過(guò)大模型的多模態(tài)能力,組合式賦能產(chǎn)業(yè)升級(jí),從而引領(lǐng)多行業(yè)實(shí)現(xiàn)全新突破。

徐立以落地嚴(yán)謹(jǐn)?shù)慕鹑谛袠I(yè)為例,商湯在與銀行、保險(xiǎn)、券商等客戶(hù)合作時(shí),會(huì)利用數(shù)字人進(jìn)行智能客服、智慧營(yíng)銷(xiāo)等工作,并通過(guò)接入大語(yǔ)言模型能力,提供投研分析、研報(bào)撰寫(xiě)等新功能,實(shí)現(xiàn)降本增效。

商湯還會(huì)和客戶(hù)一起“打磨適用產(chǎn)業(yè)領(lǐng)域的垂直模型”,掛載金融知識(shí)庫(kù)后,能100%基于客戶(hù)的產(chǎn)品說(shuō)明進(jìn)行內(nèi)容問(wèn)答輸出,實(shí)現(xiàn)信息及時(shí)更新。

另外,在醫(yī)療場(chǎng)景中,商湯打造的中文醫(yī)療語(yǔ)言大模型“大醫(yī)”,可以提供導(dǎo)診、問(wèn)診、健康咨詢(xún)、輔助決策等多場(chǎng)景多輪會(huì)話,還能通過(guò)支持醫(yī)學(xué)圖像、文本、結(jié)構(gòu)化數(shù)據(jù)等多模態(tài)綜合分析,不斷提升醫(yī)療相關(guān)圖文的理解和推理能力,進(jìn)一步在醫(yī)院和醫(yī)療機(jī)構(gòu)的落地過(guò)程中,提升診療效率及患者服務(wù)體驗(yàn)。

其實(shí),在通用大語(yǔ)言模型通過(guò)掛載知識(shí)庫(kù)解決特定領(lǐng)域問(wèn)題的基礎(chǔ)上,商湯還憑借多模態(tài)能力解決著很多“長(zhǎng)尾”的開(kāi)放世界問(wèn)題,例如電網(wǎng)巡檢、智慧城市檢測(cè)等。正是在這樣的大模型體系落地場(chǎng)景過(guò)程中,除了單項(xiàng)能力的激發(fā),商湯釋放出了更多綜合能力。

得益于商量2.0和秒畫(huà)3.0的綜合能力,將其應(yīng)用綜合至手機(jī)這一移動(dòng)終端上,商湯針對(duì)終端用戶(hù)在信息獲取中的問(wèn)答交互、生活場(chǎng)景下的知識(shí)交互,以及語(yǔ)言和圖像生成的內(nèi)容交互等,通過(guò)大模型的輕量化部署和運(yùn)行,為客戶(hù)帶來(lái)多種智能交互解決方案。

那些“再造”能力背后

在商湯踏上這條通往AGI的道路后,“我們要將AIGC進(jìn)行到底?!闭f(shuō)出這句話的欒青,是商湯科技數(shù)字空間事業(yè)群數(shù)字文娛事業(yè)部總經(jīng)理。

筆者看到,商湯大模型體系升級(jí)后,如影2.0推出的數(shù)字人,除了展示視頻效果已能達(dá)到4K高清,技術(shù)賦能下,甚至能讓一個(gè)五音不全的人實(shí)現(xiàn)數(shù)字“分身”放聲歌唱等。

不只是簡(jiǎn)單“再造”數(shù)字人形象,欒青道出了AGI技術(shù)競(jìng)逐階段,商湯與同業(yè)在數(shù)字人方向上的差異之處?!拔覀冋J(rèn)為它的智能以及內(nèi)容呈現(xiàn)的能力,會(huì)有一個(gè)質(zhì)的提升。”區(qū)別于過(guò)去NLP方式生成的數(shù)字人,如今商湯的數(shù)字人“說(shuō)的話,做的事,都是通過(guò)AIGC生成的”。

在欒青看來(lái),如影這樣一個(gè)全棧式視頻內(nèi)容生產(chǎn)平臺(tái),視頻里的人與物,每一個(gè)像素、聲音、音樂(lè)等素材,都是由AIGC生成,“一定程度上能降低內(nèi)容創(chuàng)作的門(mén)檻。”當(dāng)然,在“以假亂真”的數(shù)字人背后,商湯也在推動(dòng)行業(yè)建立數(shù)字人可信白皮書(shū)和規(guī)則,以保障下游應(yīng)用安心且放心地使用技術(shù)去賦能內(nèi)容創(chuàng)作。

其實(shí),除了滿(mǎn)足內(nèi)容創(chuàng)作者需求,電商、文娛、工業(yè)設(shè)計(jì)、游戲開(kāi)發(fā)、教育,甚至是博物館、藝術(shù)展等行業(yè)及場(chǎng)景中,借助AI技術(shù)手段實(shí)現(xiàn)內(nèi)容生成的需求也在爆發(fā),而商湯推出的3D內(nèi)容生成平臺(tái)格物,基于神經(jīng)輻射場(chǎng)技術(shù)(NeRF)切入上述場(chǎng)景,擔(dān)綱起了解決痛點(diǎn)需求的重任。

在商湯科技靈境空間事業(yè)部總監(jiān)李宇飛的眼里,格物1.0版本是NeRF技術(shù)完成了初級(jí)產(chǎn)品化,“可以高逼真地解決一些復(fù)雜的幾何結(jié)構(gòu)物體的還原。”而今三個(gè)月時(shí)間過(guò)去,格物可還原的物體精度負(fù)荷從4毫米左右提升至1毫米左右,物體品類(lèi)也逐漸擴(kuò)張。

“一些高反光材質(zhì),是激光或光場(chǎng)重建難以搞定的品類(lèi)?!崩钣铒w對(duì)商湯大模型對(duì)于光影控制的能力加以強(qiáng)調(diào),他還透露,格物技術(shù)突破對(duì)高反光和鏡面物體的采集難題后,已經(jīng)跟黃金首飾品類(lèi)下的一些頭部珠寶廠商展開(kāi)深度合作,“賦能百業(yè)的進(jìn)度在某些品類(lèi)上遠(yuǎn)遠(yuǎn)快于國(guó)外。”

其實(shí),在將技術(shù)“輸出”至場(chǎng)景落地時(shí),商湯也在降低行業(yè)應(yīng)用的“門(mén)檻”。李宇飛以自然博物館對(duì)幾萬(wàn)件動(dòng)物標(biāo)本進(jìn)行3D化處理為例,依賴(lài)激光重建技術(shù)還原一個(gè)標(biāo)本就要千把塊錢(qián),這項(xiàng)投入高達(dá)數(shù)千萬(wàn)元,顯然,沒(méi)有哪個(gè)博物館具備如此資金量去做這樣一件事。

而今,格物2.0依賴(lài)更為強(qiáng)大的NeRF技術(shù),完成效果更好的重建,“成本可以打到很低。”李宇飛講述。

李宇飛希望具備“人、物、場(chǎng)”因素的行業(yè)企業(yè),可以清醒地意識(shí)到,“未來(lái)3D內(nèi)容生成一定是趨勢(shì)和未來(lái)?!憋@然,商湯的如影數(shù)字人、瓊宇與格物目標(biāo)切中的,正是那個(gè)可以被AI再造,另一個(gè)“逼真”的數(shù)字化世界。

實(shí)際上,這個(gè)過(guò)程中,商湯日日新大模型仿佛一個(gè)堅(jiān)實(shí)穩(wěn)固的“基座”,為上述多模態(tài)的產(chǎn)品提供著支持,“幫我們?nèi)ビ?xùn)練神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí),來(lái)提升效率?!崩钣铒w坦言,商湯持續(xù)加大研發(fā)算法和人員的投入同時(shí),也在人、物、場(chǎng)的復(fù)刻及未來(lái)AIGC生成式技術(shù)方向上“投入堅(jiān)決”。

產(chǎn)業(yè)價(jià)值與AGI之路

在WAIC2023的上海世博中心和徐匯濱江會(huì)場(chǎng),由商湯打造的兩位數(shù)字人員工,作為線下新聞官為參會(huì)嘉賓和觀展者提供引導(dǎo)和議程介紹服務(wù)。

欒青介紹,不論商湯的數(shù)字人還是如影平臺(tái),抑或大模型及AIGC產(chǎn)品系列,都在展開(kāi)千行百業(yè)的合作探路。她透露,一些市場(chǎng)上有需求的客戶(hù)和渠道商,正在與商湯交流數(shù)字人定制等方面事宜,而如影平臺(tái)也在進(jìn)入銀行、保險(xiǎn)、教育等需要營(yíng)銷(xiāo)內(nèi)容輸出、運(yùn)營(yíng)服務(wù)解決方案的行業(yè)客戶(hù)場(chǎng)景中去,也讓商湯得到了不少技術(shù)和產(chǎn)品優(yōu)化和提升的正反饋。

與一些只做三維重建的“小故事”不同,李宇飛認(rèn)為,格物與秒畫(huà)等商湯大模型體系中的產(chǎn)品協(xié)同,目的是“為客戶(hù)構(gòu)建更多和商業(yè)鏈接的服務(wù)”。

立足當(dāng)前看,不論是格物這一產(chǎn)品,還是商湯整體的技術(shù)能力,“跨過(guò)下游客戶(hù)的門(mén)檻,沒(méi)問(wèn)題”,但李宇飛指出,實(shí)操中并非單純一項(xiàng)人工智能技術(shù)單點(diǎn)突破,就能實(shí)現(xiàn)落地,過(guò)程中仍需要相關(guān)技術(shù)領(lǐng)域、產(chǎn)業(yè)多方協(xié)同。

商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車(chē)事業(yè)群總裁王曉剛,詳細(xì)講解了商湯大模型體系落地智能汽車(chē)領(lǐng)域中的協(xié)同效應(yīng)。

像商湯打造的車(chē)路云協(xié)同的交通體系,憑借多模態(tài)、多任務(wù)通用大模型,開(kāi)發(fā)了路側(cè)視覺(jué)感知大模型,又結(jié)合瓊宇2.0及格物2.0構(gòu)建了一個(gè)智能交通孿生與仿真系統(tǒng),利用商量2.0的感知推理和人機(jī)交互能力,實(shí)現(xiàn)了車(chē)路云共同向大模型對(duì)話式交互的演進(jìn)。

不只是在車(chē)艙外展開(kāi)端云協(xié)同,為了抓住車(chē)艙內(nèi)這一流量入口,商湯還通過(guò)大模型的環(huán)境理解、邏輯思維和內(nèi)容生成能力,打造了一個(gè)更懂用戶(hù)的“車(chē)艙大腦”,并支持形象、語(yǔ)音快速定制的數(shù)字人進(jìn)行擬人化交互,帶來(lái)集安全、娛樂(lè)、教育及效率于一體的智能座艙體驗(yàn)。

可以看到,如今在日日新大模型體系的升級(jí)和迭代下,商湯在中國(guó)大模型浪潮中持續(xù)進(jìn)擊,在備受關(guān)注的應(yīng)用落地側(cè),它也走在產(chǎn)業(yè)市場(chǎng)探索的前列。

金融、醫(yī)療、電商消費(fèi)、電力、城市管理、短視頻直播以及智能車(chē)載領(lǐng)域,具備 “大模型+大裝置”的能力的商湯,都已進(jìn)入其中,深入賦能產(chǎn)業(yè)的同時(shí),這一AI巨頭也在挖掘更多技術(shù)創(chuàng)新的商業(yè)化潛能。之于商湯,通往AGI的路并非坦途,但它過(guò)去多年構(gòu)建起的競(jìng)爭(zhēng)力和創(chuàng)新力,正匯聚于大模型體系中。

應(yīng)對(duì)當(dāng)前產(chǎn)業(yè)展開(kāi)的一場(chǎng)生成式AI技術(shù)競(jìng)逐,商湯不遺余力,堅(jiān)定投入,將AIGC進(jìn)行到底。

文/錢(qián)玉娟

版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【經(jīng)觀新科技】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù),不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議

熱新聞