商湯，將AIGC進(jìn)行到底

經(jīng)觀新科技2023-07-13 17:20

當(dāng)AIGC熱潮在中國(guó)涌動(dòng)時(shí)，作為AI領(lǐng)域的領(lǐng)航員之一，商湯科技率先推出了“日日新SenseNova”的大模型體系，多個(gè)大模型產(chǎn)品以體系化方式切入不同場(chǎng)景，摸索落地。

7月7日，在上海舉行的第六屆世界人工智能大會(huì)（WAIC 2023）上，商湯科技董事長(zhǎng)兼CEO徐立介紹，過(guò)去短短不到100天時(shí)間里，商湯除了在大模型能力上“日日新”，在結(jié)合場(chǎng)景給出的綜合解決方案和行業(yè)發(fā)展能力方面“又日新”。

身處大模型掀起的這一輪新的AI革命中，徐立看到，產(chǎn)業(yè)需求呈現(xiàn)爆炸式增長(zhǎng)，全新的應(yīng)用場(chǎng)景和應(yīng)用模式正迅速涌現(xiàn)?！吧虦ㄟ^(guò)‘大模型+大裝置’持續(xù)推動(dòng)AI基礎(chǔ)設(shè)施能力的躍進(jìn)提升，不僅打造通用能力更加強(qiáng)大的基礎(chǔ)模型，也進(jìn)一步高效融合不同垂直領(lǐng)域的專(zhuān)業(yè)知識(shí)，構(gòu)建更懂行業(yè)、更具專(zhuān)長(zhǎng)的專(zhuān)業(yè)大模型?！?/p>

通往AGI之路，徐立帶領(lǐng)下的團(tuán)隊(duì)選擇把一個(gè)個(gè)分解的任務(wù)變成端到端，也就是“多模態(tài)的接口開(kāi)放”，這讓商湯對(duì)開(kāi)放世界的理解更為深入，伴隨多模態(tài)交互能力的升級(jí)，賦能下游產(chǎn)業(yè)應(yīng)用期間，不但可以從根本上降低大模型應(yīng)用成本和門(mén)檻，還進(jìn)一步讓大模型的產(chǎn)業(yè)價(jià)值在千行百業(yè)中綻放。

大模型“超市”全面升級(jí)

正如徐立所言，商湯的模型能力每天都在迭代，而基于“大模型+大裝置”的AGI戰(zhàn)略布局，大模型“超市”中的每個(gè)產(chǎn)品，也實(shí)現(xiàn)著飛速升級(jí)。

作為千億級(jí)參數(shù)的自然語(yǔ)言處理模型，商湯商量SenseChat 2.0版本不僅新增了像阿拉伯語(yǔ)、粵語(yǔ)等涉及小語(yǔ)種、地區(qū)語(yǔ)言的使用場(chǎng)景，還突破了大語(yǔ)言模型輸入長(zhǎng)度的限制，并推出了不同參數(shù)量級(jí)的模型版本，開(kāi)放新的API接口，完美適配移動(dòng)端、云端等不同終端及場(chǎng)景的應(yīng)用需求，降低部署成本。

基于十幾張徐立的照片，商湯自研生成式大模型商湯秒畫(huà)SenseMirage 3.0“畫(huà)”出了手捧鮮花、抱著吉他、旅游購(gòu)物等多個(gè)場(chǎng)景下的“徐立”照片，徐立講述，將這些照片發(fā)給家人時(shí)，“很多人都信以為真。”

徐立將這種體驗(yàn)簡(jiǎn)而言之概括為“畫(huà)我想畫(huà)”，而在這一生成式體驗(yàn)實(shí)現(xiàn)背后，秒畫(huà)的模型參數(shù)已經(jīng)從4月首次發(fā)布時(shí)的10億提升至現(xiàn)今的70億量級(jí)，從而使之達(dá)到如同專(zhuān)業(yè)攝影級(jí)的圖片細(xì)節(jié)刻畫(huà)與光影效果呈現(xiàn)。

徐立的“分身”也在商湯如影SenseAvatar 2.0數(shù)字人生成平臺(tái)得以實(shí)現(xiàn)，除了AIGC生成形象外，這一數(shù)字人連語(yǔ)氣都能還原到徐立的五六分，語(yǔ)音和口型流暢度也較上代版本直接提升了30%以上。

數(shù)字人之外，面對(duì)空間“重構(gòu)”的需求，商湯瓊宇SenseSpace 2.0，在1200 TFLOPS/秒算力的理想狀態(tài)支持下，38小時(shí)內(nèi)就能完成100平方公里的場(chǎng)景建圖，相較上一代實(shí)現(xiàn)了效率提升20%，渲染性能提升50%。

若配搭商湯格物SenseThings 2.0對(duì)小物體的紋理及材質(zhì)還原達(dá)到毫米級(jí)精細(xì)度，這種3D還原還能突破對(duì)高反光和鏡面物體的采集難題，讓物體空間在數(shù)字化的世界里，也能立體且“逼真”。

落地場(chǎng)景激發(fā)生產(chǎn)力

當(dāng)越來(lái)越多的科技巨頭投身到中國(guó)通用大模型的自研創(chuàng)新中，應(yīng)用落地成為檢驗(yàn)各個(gè)大模型能力的關(guān)鍵，而千行百業(yè)則給出了“跨場(chǎng)景”的考驗(yàn)。

就此，商湯通過(guò)大模型的多模態(tài)能力，組合式賦能產(chǎn)業(yè)升級(jí)，從而引領(lǐng)多行業(yè)實(shí)現(xiàn)全新突破。

徐立以落地嚴(yán)謹(jǐn)?shù)慕鹑谛袠I(yè)為例，商湯在與銀行、保險(xiǎn)、券商等客戶(hù)合作時(shí)，會(huì)利用數(shù)字人進(jìn)行智能客服、智慧營(yíng)銷(xiāo)等工作，并通過(guò)接入大語(yǔ)言模型能力，提供投研分析、研報(bào)撰寫(xiě)等新功能，實(shí)現(xiàn)降本增效。

商湯還會(huì)和客戶(hù)一起“打磨適用產(chǎn)業(yè)領(lǐng)域的垂直模型”，掛載金融知識(shí)庫(kù)后，能100%基于客戶(hù)的產(chǎn)品說(shuō)明進(jìn)行內(nèi)容問(wèn)答輸出，實(shí)現(xiàn)信息及時(shí)更新。

另外，在醫(yī)療場(chǎng)景中，商湯打造的中文醫(yī)療語(yǔ)言大模型“大醫(yī)”，可以提供導(dǎo)診、問(wèn)診、健康咨詢(xún)、輔助決策等多場(chǎng)景多輪會(huì)話，還能通過(guò)支持醫(yī)學(xué)圖像、文本、結(jié)構(gòu)化數(shù)據(jù)等多模態(tài)綜合分析，不斷提升醫(yī)療相關(guān)圖文的理解和推理能力，進(jìn)一步在醫(yī)院和醫(yī)療機(jī)構(gòu)的落地過(guò)程中，提升診療效率及患者服務(wù)體驗(yàn)。

其實(shí)，在通用大語(yǔ)言模型通過(guò)掛載知識(shí)庫(kù)解決特定領(lǐng)域問(wèn)題的基礎(chǔ)上，商湯還憑借多模態(tài)能力解決著很多“長(zhǎng)尾”的開(kāi)放世界問(wèn)題，例如電網(wǎng)巡檢、智慧城市檢測(cè)等。正是在這樣的大模型體系落地場(chǎng)景過(guò)程中，除了單項(xiàng)能力的激發(fā)，商湯釋放出了更多綜合能力。

得益于商量2.0和秒畫(huà)3.0的綜合能力，將其應(yīng)用綜合至手機(jī)這一移動(dòng)終端上，商湯針對(duì)終端用戶(hù)在信息獲取中的問(wèn)答交互、生活場(chǎng)景下的知識(shí)交互，以及語(yǔ)言和圖像生成的內(nèi)容交互等，通過(guò)大模型的輕量化部署和運(yùn)行，為客戶(hù)帶來(lái)多種智能交互解決方案。

那些“再造”能力背后

在商湯踏上這條通往AGI的道路后，“我們要將AIGC進(jìn)行到底?！闭f(shuō)出這句話的欒青，是商湯科技數(shù)字空間事業(yè)群數(shù)字文娛事業(yè)部總經(jīng)理。

筆者看到，商湯大模型體系升級(jí)后，如影2.0推出的數(shù)字人，除了展示視頻效果已能達(dá)到4K高清，技術(shù)賦能下，甚至能讓一個(gè)五音不全的人實(shí)現(xiàn)數(shù)字“分身”放聲歌唱等。

不只是簡(jiǎn)單“再造”數(shù)字人形象，欒青道出了AGI技術(shù)競(jìng)逐階段，商湯與同業(yè)在數(shù)字人方向上的差異之處?！拔覀冋J(rèn)為它的智能以及內(nèi)容呈現(xiàn)的能力，會(huì)有一個(gè)質(zhì)的提升。”區(qū)別于過(guò)去NLP方式生成的數(shù)字人，如今商湯的數(shù)字人“說(shuō)的話，做的事，都是通過(guò)AIGC生成的”。

在欒青看來(lái)，如影這樣一個(gè)全棧式視頻內(nèi)容生產(chǎn)平臺(tái)，視頻里的人與物，每一個(gè)像素、聲音、音樂(lè)等素材，都是由AIGC生成，“一定程度上能降低內(nèi)容創(chuàng)作的門(mén)檻。”當(dāng)然，在“以假亂真”的數(shù)字人背后，商湯也在推動(dòng)行業(yè)建立數(shù)字人可信白皮書(shū)和規(guī)則，以保障下游應(yīng)用安心且放心地使用技術(shù)去賦能內(nèi)容創(chuàng)作。

其實(shí)，除了滿(mǎn)足內(nèi)容創(chuàng)作者需求，電商、文娛、工業(yè)設(shè)計(jì)、游戲開(kāi)發(fā)、教育，甚至是博物館、藝術(shù)展等行業(yè)及場(chǎng)景中，借助AI技術(shù)手段實(shí)現(xiàn)內(nèi)容生成的需求也在爆發(fā)，而商湯推出的3D內(nèi)容生成平臺(tái)格物，基于神經(jīng)輻射場(chǎng)技術(shù)（NeRF）切入上述場(chǎng)景，擔(dān)綱起了解決痛點(diǎn)需求的重任。

在商湯科技靈境空間事業(yè)部總監(jiān)李宇飛的眼里，格物1.0版本是NeRF技術(shù)完成了初級(jí)產(chǎn)品化，“可以高逼真地解決一些復(fù)雜的幾何結(jié)構(gòu)物體的還原。”而今三個(gè)月時(shí)間過(guò)去，格物可還原的物體精度負(fù)荷從4毫米左右提升至1毫米左右，物體品類(lèi)也逐漸擴(kuò)張。

“一些高反光材質(zhì)，是激光或光場(chǎng)重建難以搞定的品類(lèi)?！崩钣铒w對(duì)商湯大模型對(duì)于光影控制的能力加以強(qiáng)調(diào)，他還透露，格物技術(shù)突破對(duì)高反光和鏡面物體的采集難題后，已經(jīng)跟黃金首飾品類(lèi)下的一些頭部珠寶廠商展開(kāi)深度合作，“賦能百業(yè)的進(jìn)度在某些品類(lèi)上遠(yuǎn)遠(yuǎn)快于國(guó)外。”

其實(shí)，在將技術(shù)“輸出”至場(chǎng)景落地時(shí)，商湯也在降低行業(yè)應(yīng)用的“門(mén)檻”。李宇飛以自然博物館對(duì)幾萬(wàn)件動(dòng)物標(biāo)本進(jìn)行3D化處理為例，依賴(lài)激光重建技術(shù)還原一個(gè)標(biāo)本就要千把塊錢(qián)，這項(xiàng)投入高達(dá)數(shù)千萬(wàn)元，顯然，沒(méi)有哪個(gè)博物館具備如此資金量去做這樣一件事。

而今，格物2.0依賴(lài)更為強(qiáng)大的NeRF技術(shù)，完成效果更好的重建，“成本可以打到很低。”李宇飛講述。

李宇飛希望具備“人、物、場(chǎng)”因素的行業(yè)企業(yè)，可以清醒地意識(shí)到，“未來(lái)3D內(nèi)容生成一定是趨勢(shì)和未來(lái)?！憋@然，商湯的如影數(shù)字人、瓊宇與格物目標(biāo)切中的，正是那個(gè)可以被AI再造，另一個(gè)“逼真”的數(shù)字化世界。

實(shí)際上，這個(gè)過(guò)程中，商湯日日新大模型仿佛一個(gè)堅(jiān)實(shí)穩(wěn)固的“基座”，為上述多模態(tài)的產(chǎn)品提供著支持，“幫我們?nèi)ビ?xùn)練神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)，來(lái)提升效率?！崩钣铒w坦言，商湯持續(xù)加大研發(fā)算法和人員的投入同時(shí)，也在人、物、場(chǎng)的復(fù)刻及未來(lái)AIGC生成式技術(shù)方向上“投入堅(jiān)決”。

產(chǎn)業(yè)價(jià)值與AGI之路

在WAIC2023的上海世博中心和徐匯濱江會(huì)場(chǎng)，由商湯打造的兩位數(shù)字人員工，作為線下新聞官為參會(huì)嘉賓和觀展者提供引導(dǎo)和議程介紹服務(wù)。

欒青介紹，不論商湯的數(shù)字人還是如影平臺(tái)，抑或大模型及AIGC產(chǎn)品系列，都在展開(kāi)千行百業(yè)的合作探路。她透露，一些市場(chǎng)上有需求的客戶(hù)和渠道商，正在與商湯交流數(shù)字人定制等方面事宜，而如影平臺(tái)也在進(jìn)入銀行、保險(xiǎn)、教育等需要營(yíng)銷(xiāo)內(nèi)容輸出、運(yùn)營(yíng)服務(wù)解決方案的行業(yè)客戶(hù)場(chǎng)景中去，也讓商湯得到了不少技術(shù)和產(chǎn)品優(yōu)化和提升的正反饋。

與一些只做三維重建的“小故事”不同，李宇飛認(rèn)為，格物與秒畫(huà)等商湯大模型體系中的產(chǎn)品協(xié)同，目的是“為客戶(hù)構(gòu)建更多和商業(yè)鏈接的服務(wù)”。

立足當(dāng)前看，不論是格物這一產(chǎn)品，還是商湯整體的技術(shù)能力，“跨過(guò)下游客戶(hù)的門(mén)檻，沒(méi)問(wèn)題”，但李宇飛指出，實(shí)操中并非單純一項(xiàng)人工智能技術(shù)單點(diǎn)突破，就能實(shí)現(xiàn)落地，過(guò)程中仍需要相關(guān)技術(shù)領(lǐng)域、產(chǎn)業(yè)多方協(xié)同。

商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車(chē)事業(yè)群總裁王曉剛，詳細(xì)講解了商湯大模型體系落地智能汽車(chē)領(lǐng)域中的協(xié)同效應(yīng)。

像商湯打造的車(chē)路云協(xié)同的交通體系，憑借多模態(tài)、多任務(wù)通用大模型，開(kāi)發(fā)了路側(cè)視覺(jué)感知大模型，又結(jié)合瓊宇2.0及格物2.0構(gòu)建了一個(gè)智能交通孿生與仿真系統(tǒng)，利用商量2.0的感知推理和人機(jī)交互能力，實(shí)現(xiàn)了車(chē)路云共同向大模型對(duì)話式交互的演進(jìn)。

不只是在車(chē)艙外展開(kāi)端云協(xié)同，為了抓住車(chē)艙內(nèi)這一流量入口，商湯還通過(guò)大模型的環(huán)境理解、邏輯思維和內(nèi)容生成能力，打造了一個(gè)更懂用戶(hù)的“車(chē)艙大腦”，并支持形象、語(yǔ)音快速定制的數(shù)字人進(jìn)行擬人化交互，帶來(lái)集安全、娛樂(lè)、教育及效率于一體的智能座艙體驗(yàn)。

可以看到，如今在日日新大模型體系的升級(jí)和迭代下，商湯在中國(guó)大模型浪潮中持續(xù)進(jìn)擊，在備受關(guān)注的應(yīng)用落地側(cè)，它也走在產(chǎn)業(yè)市場(chǎng)探索的前列。

金融、醫(yī)療、電商消費(fèi)、電力、城市管理、短視頻直播以及智能車(chē)載領(lǐng)域，具備 “大模型+大裝置”的能力的商湯，都已進(jìn)入其中，深入賦能產(chǎn)業(yè)的同時(shí)，這一AI巨頭也在挖掘更多技術(shù)創(chuàng)新的商業(yè)化潛能。之于商湯，通往AGI的路并非坦途，但它過(guò)去多年構(gòu)建起的競(jìng)爭(zhēng)力和創(chuàng)新力，正匯聚于大模型體系中。

應(yīng)對(duì)當(dāng)前產(chǎn)業(yè)展開(kāi)的一場(chǎng)生成式AI技術(shù)競(jìng)逐，商湯不遺余力，堅(jiān)定投入，將AIGC進(jìn)行到底。

文/錢(qián)玉娟

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【經(jīng)觀新科技】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議