混元文生圖大模型開源,騰訊想縮小與閉源模型的差距

崔鵬CP2024-05-18 12:21

“在文生圖領(lǐng)域,開源(模型)和閉源的差距是逐漸拉大的,希望我們的開源能把這個(gè)差距縮小?!?/p>

5月14日下午,騰訊宣布最新混元文生圖大模型對(duì)外開源,該產(chǎn)品負(fù)責(zé)人蘆清林在一場(chǎng)小型溝通會(huì)上對(duì)界面新聞等媒體如是說。

據(jù)騰訊方面介紹,上述大模型是業(yè)內(nèi)首個(gè)中文原生的DiT(Diffusion With Transformer)架構(gòu)文生圖開源模型,支持中英文雙語輸入及理解,參數(shù)量為15億(1.5B)。DiT的核心思想是將Transformer架構(gòu)應(yīng)用于擴(kuò)散模型中,以此來提高生成圖像的質(zhì)量和效率。

該模型采用的DiT架構(gòu)與Open AI的革命性產(chǎn)品Sora保持一致,不僅可支持文生圖,也可作為視頻等多模態(tài)視覺生成的基礎(chǔ)。目前其已在專注于自然語言處理(NLP)的開源機(jī)器學(xué)習(xí)平臺(tái)Hugging Face及面向軟件開發(fā)者的代碼托管平臺(tái)Github上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,可供企業(yè)與個(gè)人開發(fā)者免費(fèi)商用。

若以騰訊方面提供的評(píng)測(cè)數(shù)據(jù)來看,其效果超過開源的Stable Diffusion模型,整體能力走在前列。

“我們還會(huì)嘗試參數(shù)量更大的模型,它消耗的計(jì)算資源和時(shí)長會(huì)更長?!碧J清林稱,“雖然還沒ready(準(zhǔn)備好),但已經(jīng)在做?!?/p>

為何選擇DiT架構(gòu)?

本次混元文生圖大模型升級(jí)的重點(diǎn)在于采用全新的DiT架構(gòu),在這方面混元與Sora和Stable Diffusion 3保持了一致性,都是基于Transformer架構(gòu)的擴(kuò)散模型,它的優(yōu)點(diǎn)是對(duì)大參數(shù)量更加友好。

攝影:崔鵬

過去,視覺生成擴(kuò)散模型主要基于U-Net架構(gòu),會(huì)先將圖片壓縮,然后再重新放大,但這個(gè)過程通常會(huì)伴隨信息損失。隨著參數(shù)量提升,這個(gè)架構(gòu)的訓(xùn)練穩(wěn)定性也在逐漸變差,使用它的模型正在變少。

蘆清林表示,基于Transformer架構(gòu)的擴(kuò)散模型網(wǎng)絡(luò)結(jié)構(gòu),避免了信息的壓縮處理,能顯著提高模型的生成質(zhì)量及效率。

新架構(gòu)的語意表達(dá)能力更強(qiáng),可容納的信息量更多,也能適應(yīng)更大規(guī)模的參數(shù)量,“未來升級(jí)到5B甚至10B時(shí),我們都有把握將大模型訓(xùn)練得更加合理?!碧J清林強(qiáng)調(diào)。

據(jù)界面新聞了解,早在2023年7月前后,騰訊團(tuán)隊(duì)就明確了基于DiT架構(gòu)的模型方向,啟動(dòng)新一代模型研發(fā),但當(dāng)時(shí)國內(nèi)少有產(chǎn)品嘗試此方向。

今年初,混元文生圖大模型升級(jí)為DiT架構(gòu),在這個(gè)過程中,騰訊也對(duì)原有模型進(jìn)行了部分改進(jìn)。比如,在算法層面優(yōu)化了模型的長文本理解能力,能夠支持最多256字符的內(nèi)容輸入。

此前Stable Diffusion等主流開源模型核心數(shù)據(jù)集以英文為主,混元文生圖則強(qiáng)調(diào)是中文原生的DiT模型,具備中英文雙語理解及生成能力。

蘆清林告訴界面新聞,過去很多大模型都是把國外的數(shù)據(jù)做一層翻譯,再變成中文進(jìn)行訓(xùn)練,在這個(gè)過程中會(huì)造成很多信息損失和理解歧義。而混元文生圖大模型支持的是原生中文理解能力,砍掉翻譯過程,用戶可直接使用中文數(shù)據(jù)進(jìn)行訓(xùn)練,大模型理解的也是中文。

騰訊展示的評(píng)測(cè)結(jié)果顯示,新的文生圖大模型視覺生成整體效果較前代提升超過20%,在語義理解、畫面質(zhì)感與真實(shí)性方面提升明顯。

同時(shí),混元還實(shí)現(xiàn)了多輪生圖和對(duì)話能力,用戶能在一張初始生成圖片的基礎(chǔ)上,通過自然語言描述進(jìn)行調(diào)整。

在蘆清林看來,多輪對(duì)話本質(zhì)上是大語言模型不停在用戶和chatbox(AI聊天機(jī)器人)之間做交互,用戶不需要一上來就提供完整的提示詞,可以一邊寫一邊改一邊生成(圖片),覺得不滿意再改再生成,極大降低了使用門檻。

開源能讓大模型走得更快

據(jù)界面新聞了解,混元文生圖大模型去年主要在與騰訊廣告進(jìn)行合作,搭建廣告場(chǎng)景下的AI驅(qū)動(dòng)工具,今年則計(jì)劃加大與QQ、企業(yè)微信和游戲等業(yè)務(wù)的合作,在更多的業(yè)務(wù)場(chǎng)景中大規(guī)模落地應(yīng)用。

蘆清林強(qiáng)調(diào),目前混元文生圖大模型的開源版本,也是騰訊內(nèi)部正在使用的版本,不存在自用的領(lǐng)先幾代,給業(yè)界放出來會(huì)落后的問題。

實(shí)際上,它已經(jīng)在騰訊內(nèi)部被用于素材創(chuàng)作、商品合成和游戲出圖等眾多場(chǎng)景。比如在今年初,騰訊廣告就基于混元大模型,推出一站式AI廣告創(chuàng)意平臺(tái),可以為廣告主提供文生圖、圖生圖與商品背景合成等工具。

過去混元文生圖大模型走的路線也是閉源,內(nèi)部將大模型迭代后,再將接口開放出來使用?,F(xiàn)在團(tuán)隊(duì)發(fā)現(xiàn),做開源社區(qū)能讓更多開發(fā)者參與進(jìn)來,共建的方式有助于大模型走得更快。

“去年7月開始轉(zhuǎn)型(DiT架構(gòu)),我們踩了非常多的坑,直到今年1月份才逐步把問題解決掉?!碧J清林認(rèn)為,此時(shí)選擇開源是一個(gè)合適的時(shí)機(jī),基于開源模型,企業(yè)無需重頭訓(xùn)練,即可直接用于推理,能夠節(jié)約大量人力和算力。

今年春節(jié)期間Open AI放出Sora之后,蘆清林說團(tuán)隊(duì)“年都沒過好”,對(duì)方已經(jīng)證明了DiT架構(gòu)的強(qiáng)大能力,“我們希望把圖片的DiT分享出來,讓業(yè)界想做視頻的同行可以快速跟進(jìn)追趕?!?/p>

在選擇開源之前,騰訊也在內(nèi)部做了橫向?qū)Ρ葴y(cè)試,結(jié)論是在圖文一致性、美學(xué)、清晰度等對(duì)比維度上,混元與主流閉源模型相比差距不算太大,能排在Dalle 3和SD 3(Stable Diffusion 3)之后。

此外,目前的文生圖開源社區(qū)主要還是Stable Diffusion等為主的英文開源社區(qū),騰訊選擇開源后,能豐富以中文為主的文生圖開源生態(tài),形成更多樣的原生插件,推動(dòng)中文文生圖技術(shù)研發(fā)和應(yīng)用。

混元文生圖大模型的開源,也是騰訊推進(jìn)開源戰(zhàn)略的一部分。根據(jù)官方給出的統(tǒng)計(jì),騰訊目前已經(jīng)開源了超過170個(gè)項(xiàng)目,且都基于真實(shí)的業(yè)務(wù)場(chǎng)景,覆蓋微信、騰訊云和騰訊游戲等核心業(yè)務(wù)。

轉(zhuǎn)載來源:界面新聞 作者:崔鵬CP

版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【崔鵬CP】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù),不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議

熱新聞