新V觀海外:OpenAI Sora模型背后的架構(gòu)創(chuàng)新

陳沛2024-02-18 10:42

陳沛/文 OpenAI最近介紹了新的AI視頻模型Sora的部分生成視頻示例,引發(fā)了很多關(guān)注。Sora模型直觀上帶來(lái)的最大提升是能夠直接生成長(zhǎng)達(dá)60秒的視頻,且在視頻質(zhì)感和流暢度方面表現(xiàn)的非常出色。

由于OpenAI的明星效應(yīng),Sora模型一經(jīng)推出便引發(fā)很多用戶競(jìng)相轉(zhuǎn)發(fā),表示視頻效果驚為天人,視頻制作的相關(guān)工作都會(huì)被取代。

Sora模型的實(shí)際生成效果仍是未知數(shù)

但從我實(shí)際使用和觀察RunwayML、Stable Video Diffusion(SVD)、Adobe Firefly等主流AI視頻服務(wù)的情況來(lái)看,目前AI生成視頻的質(zhì)感往往達(dá)不到最初宣傳的效果,還會(huì)在物體行進(jìn)方向、人物四肢等方面出現(xiàn)明顯錯(cuò)誤,無(wú)法滿足實(shí)際應(yīng)用的需求。

而Sora模型目前還處于測(cè)試階段,預(yù)計(jì)再經(jīng)過(guò)一段時(shí)間的安全測(cè)試和用戶反饋后才會(huì)正式提供服務(wù),因此還無(wú)法了解Sora模型的實(shí)際效果。

不過(guò),OpenAI也沒有刻意回避Sora模型生成錯(cuò)誤內(nèi)容的情況。在OpenAI發(fā)布的技術(shù)報(bào)告中有一段Sora模型生成的錯(cuò)誤視頻,展示了桌上的水杯會(huì)先從底部流出果汁,然后沿著錯(cuò)誤的方向和角度倒在桌上。

Sora模型的背后是2022年剛剛面世的新架構(gòu)

Sora模型的最大突破是視頻時(shí)長(zhǎng)。與之前的RunwayML、SVD只能生成4秒左右的視頻片段相比,Sora模型生成的60秒視頻實(shí)現(xiàn)了明顯提升。

Sora模型實(shí)現(xiàn)視頻時(shí)長(zhǎng)突破的主要功臣是它所采用的Diffusion Transformer架構(gòu)。該架構(gòu)由Sora模型的主要作者Bill Peebles在2022年剛剛提出,才在ICCV 2023大會(huì)上做過(guò)介紹。

按照Bill Peebles在論文中的說(shuō)法,他將Transformer結(jié)構(gòu)替代了Diffusion模型中常用的U-Net結(jié)構(gòu),并將圖像輸入轉(zhuǎn)化成了Patch(類似語(yǔ)言模型中輸入的Token),得到了新的Diffusion Transformers架構(gòu),提升了原來(lái)Diffusion模型在深度和寬度上的可擴(kuò)展性,為視頻模型增加輸出時(shí)長(zhǎng)奠定了基礎(chǔ)。

實(shí)際上,不僅Sora模型背后的Diffusion Transformer架構(gòu)才面世不久,就連Sora技術(shù)報(bào)告后引用的32篇研究論文中,絕大多數(shù)也都是近3年新發(fā)布的研究結(jié)果。

研究驅(qū)動(dòng)和融資驅(qū)動(dòng)已成為AI發(fā)展的關(guān)鍵要素

回首2017年Transformer研究論文面世后,2019年就出現(xiàn)了首個(gè)GPT模型的發(fā)展成果。而近兩年剛剛提出Diffusion Transformer的研究論文,很快就轉(zhuǎn)化成了Sora模型這樣的突破性產(chǎn)品。

如今AI領(lǐng)域的重要變化,往往不是來(lái)自于某個(gè)功能或應(yīng)用層面,而是發(fā)源于底層架構(gòu)的研究創(chuàng)新。研究驅(qū)動(dòng)正在AI發(fā)展中起到越來(lái)越關(guān)鍵的作用。

另一方面,有了Diffusion Transformer這樣的研究創(chuàng)新后,往往也是在OpenAI這樣資源雄厚的機(jī)構(gòu)中才能做的出來(lái)。

在開發(fā)階段,把Diffusion Transformer的研究落地成Sora的產(chǎn)品需要投入大量的預(yù)訓(xùn)練、數(shù)據(jù)、工程資源。而在Sora服務(wù)正式推出后,運(yùn)營(yíng)推理過(guò)程中的資源消耗和算力成本也不可小視,融資驅(qū)動(dòng)也正在成為AI發(fā)展的必要條件。

從Sora模型這個(gè)例子也能看出,要深度理解AI領(lǐng)域的關(guān)鍵動(dòng)向,如今必須要從研究層面和融資層面進(jìn)行觀察和跟蹤,從而更好地洞察AI發(fā)展的未來(lái)走勢(shì)。

熱新聞