混元文生圖大模型開源，騰訊想縮小與閉源模型的差距

崔鵬CP2024-05-18 12:21

“在文生圖領(lǐng)域，開源（模型）和閉源的差距是逐漸拉大的，希望我們的開源能把這個(gè)差距縮小?！?/p>

5月14日下午，騰訊宣布最新混元文生圖大模型對(duì)外開源，該產(chǎn)品負(fù)責(zé)人蘆清林在一場(chǎng)小型溝通會(huì)上對(duì)界面新聞等媒體如是說。

據(jù)騰訊方面介紹，上述大模型是業(yè)內(nèi)首個(gè)中文原生的DiT（Diffusion With Transformer）架構(gòu)文生圖開源模型，支持中英文雙語輸入及理解，參數(shù)量為15億（1.5B）。DiT的核心思想是將Transformer架構(gòu)應(yīng)用于擴(kuò)散模型中，以此來提高生成圖像的質(zhì)量和效率。

該模型采用的DiT架構(gòu)與Open AI的革命性產(chǎn)品Sora保持一致，不僅可支持文生圖，也可作為視頻等多模態(tài)視覺生成的基礎(chǔ)。目前其已在專注于自然語言處理（NLP）的開源機(jī)器學(xué)習(xí)平臺(tái)Hugging Face及面向軟件開發(fā)者的代碼托管平臺(tái)Github上發(fā)布，包含模型權(quán)重、推理代碼、模型算法等完整模型，可供企業(yè)與個(gè)人開發(fā)者免費(fèi)商用。

若以騰訊方面提供的評(píng)測(cè)數(shù)據(jù)來看，其效果超過開源的Stable Diffusion模型，整體能力走在前列。

“我們還會(huì)嘗試參數(shù)量更大的模型，它消耗的計(jì)算資源和時(shí)長會(huì)更長?！碧J清林稱，“雖然還沒ready（準(zhǔn)備好），但已經(jīng)在做?！?/p>

為何選擇DiT架構(gòu)？

本次混元文生圖大模型升級(jí)的重點(diǎn)在于采用全新的DiT架構(gòu)，在這方面混元與Sora和Stable Diffusion 3保持了一致性，都是基于Transformer架構(gòu)的擴(kuò)散模型，它的優(yōu)點(diǎn)是對(duì)大參數(shù)量更加友好。

攝影：崔鵬

過去，視覺生成擴(kuò)散模型主要基于U-Net架構(gòu)，會(huì)先將圖片壓縮，然后再重新放大，但這個(gè)過程通常會(huì)伴隨信息損失。隨著參數(shù)量提升，這個(gè)架構(gòu)的訓(xùn)練穩(wěn)定性也在逐漸變差，使用它的模型正在變少。

蘆清林表示，基于Transformer架構(gòu)的擴(kuò)散模型網(wǎng)絡(luò)結(jié)構(gòu)，避免了信息的壓縮處理，能顯著提高模型的生成質(zhì)量及效率。

新架構(gòu)的語意表達(dá)能力更強(qiáng)，可容納的信息量更多，也能適應(yīng)更大規(guī)模的參數(shù)量，“未來升級(jí)到5B甚至10B時(shí)，我們都有把握將大模型訓(xùn)練得更加合理?！碧J清林強(qiáng)調(diào)。

據(jù)界面新聞了解，早在2023年7月前后，騰訊團(tuán)隊(duì)就明確了基于DiT架構(gòu)的模型方向，啟動(dòng)新一代模型研發(fā)，但當(dāng)時(shí)國內(nèi)少有產(chǎn)品嘗試此方向。

今年初，混元文生圖大模型升級(jí)為DiT架構(gòu)，在這個(gè)過程中，騰訊也對(duì)原有模型進(jìn)行了部分改進(jìn)。比如，在算法層面優(yōu)化了模型的長文本理解能力，能夠支持最多256字符的內(nèi)容輸入。

此前Stable Diffusion等主流開源模型核心數(shù)據(jù)集以英文為主，混元文生圖則強(qiáng)調(diào)是中文原生的DiT模型，具備中英文雙語理解及生成能力。

蘆清林告訴界面新聞，過去很多大模型都是把國外的數(shù)據(jù)做一層翻譯，再變成中文進(jìn)行訓(xùn)練，在這個(gè)過程中會(huì)造成很多信息損失和理解歧義。而混元文生圖大模型支持的是原生中文理解能力，砍掉翻譯過程，用戶可直接使用中文數(shù)據(jù)進(jìn)行訓(xùn)練，大模型理解的也是中文。

騰訊展示的評(píng)測(cè)結(jié)果顯示，新的文生圖大模型視覺生成整體效果較前代提升超過20%，在語義理解、畫面質(zhì)感與真實(shí)性方面提升明顯。

同時(shí)，混元還實(shí)現(xiàn)了多輪生圖和對(duì)話能力，用戶能在一張初始生成圖片的基礎(chǔ)上，通過自然語言描述進(jìn)行調(diào)整。

在蘆清林看來，多輪對(duì)話本質(zhì)上是大語言模型不停在用戶和chatbox（AI聊天機(jī)器人）之間做交互，用戶不需要一上來就提供完整的提示詞，可以一邊寫一邊改一邊生成（圖片），覺得不滿意再改再生成，極大降低了使用門檻。

開源能讓大模型走得更快

據(jù)界面新聞了解，混元文生圖大模型去年主要在與騰訊廣告進(jìn)行合作，搭建廣告場(chǎng)景下的AI驅(qū)動(dòng)工具，今年則計(jì)劃加大與QQ、企業(yè)微信和游戲等業(yè)務(wù)的合作，在更多的業(yè)務(wù)場(chǎng)景中大規(guī)模落地應(yīng)用。

蘆清林強(qiáng)調(diào)，目前混元文生圖大模型的開源版本，也是騰訊內(nèi)部正在使用的版本，不存在自用的領(lǐng)先幾代，給業(yè)界放出來會(huì)落后的問題。

實(shí)際上，它已經(jīng)在騰訊內(nèi)部被用于素材創(chuàng)作、商品合成和游戲出圖等眾多場(chǎng)景。比如在今年初，騰訊廣告就基于混元大模型，推出一站式AI廣告創(chuàng)意平臺(tái)，可以為廣告主提供文生圖、圖生圖與商品背景合成等工具。

過去混元文生圖大模型走的路線也是閉源，內(nèi)部將大模型迭代后，再將接口開放出來使用?，F(xiàn)在團(tuán)隊(duì)發(fā)現(xiàn)，做開源社區(qū)能讓更多開發(fā)者參與進(jìn)來，共建的方式有助于大模型走得更快。

“去年7月開始轉(zhuǎn)型（DiT架構(gòu)），我們踩了非常多的坑，直到今年1月份才逐步把問題解決掉?！碧J清林認(rèn)為，此時(shí)選擇開源是一個(gè)合適的時(shí)機(jī)，基于開源模型，企業(yè)無需重頭訓(xùn)練，即可直接用于推理，能夠節(jié)約大量人力和算力。

今年春節(jié)期間Open AI放出Sora之后，蘆清林說團(tuán)隊(duì)“年都沒過好”，對(duì)方已經(jīng)證明了DiT架構(gòu)的強(qiáng)大能力，“我們希望把圖片的DiT分享出來，讓業(yè)界想做視頻的同行可以快速跟進(jìn)追趕?！?/p>

在選擇開源之前，騰訊也在內(nèi)部做了橫向?qū)Ρ葴y(cè)試，結(jié)論是在圖文一致性、美學(xué)、清晰度等對(duì)比維度上，混元與主流閉源模型相比差距不算太大，能排在Dalle 3和SD 3（Stable Diffusion 3）之后。

此外，目前的文生圖開源社區(qū)主要還是Stable Diffusion等為主的英文開源社區(qū)，騰訊選擇開源后，能豐富以中文為主的文生圖開源生態(tài)，形成更多樣的原生插件，推動(dòng)中文文生圖技術(shù)研發(fā)和應(yīng)用。

混元文生圖大模型的開源，也是騰訊推進(jìn)開源戰(zhàn)略的一部分。根據(jù)官方給出的統(tǒng)計(jì)，騰訊目前已經(jīng)開源了超過170個(gè)項(xiàng)目，且都基于真實(shí)的業(yè)務(wù)場(chǎng)景，覆蓋微信、騰訊云和騰訊游戲等核心業(yè)務(wù)。

轉(zhuǎn)載來源：界面新聞作者：崔鵬CP

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【崔鵬CP】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議