新V觀海外：在Sora的聚光燈之外還應提前關注V-JEPA

陳沛2024-02-27 13:21

陳沛/文 過去一年ChatGPT為OpenAI帶來了大量聚光燈關注，而Meta AI、Google DeepMind等科技大廠的優(yōu)秀AI團隊在追趕推出大語言模型的同時，他們也在多模態(tài)模型、機器人操控等領域持續(xù)發(fā)力，希望開辟人工智能應用于真實世界的新戰(zhàn)場。

就在最近OpenAI發(fā)布Sora模型生成流暢長視頻結果引發(fā)新一輪熱潮的時候，Meta的AI領軍人物、圖靈獎獲得者Yann LeCun也在同期牽頭發(fā)布了視頻模型V-JEPA的研究論文。不過，由于論文內容不像OpenAI展示生成視頻那么直觀，因此沒有在社交媒體上獲得廣泛關注。

但是考慮到Meta在多模態(tài)AI領域的長期研究積累，我認為近期推出的V-JEPA模型仍值得關注。

V-JEPA是采用Yann LeCun 2022年提出的JEPA架構（聯合嵌入預測架構）所推出的視頻（視覺）版本模型，體現了Meta在實現高級機器智能愿景中的不同發(fā)展思路。

這種不同的發(fā)展思路源自Yann LeCun的學術路線選擇。他一直對OpenAI所采用的Transformer架構和自回歸方法嗤之以鼻，認為這種方法只是投入了海量的計算資源和人類反饋工作量來訓練模型更好地預測下一個token，但是通過這種訓練方式得到的生成式AI并不能理解真實世界。

而要讓機器理解真實世界，必須讓機器采用人的學習方法，自行觀察真實世界的事物運行規(guī)律，在直觀上理解抽象的概念，從而更高效的完成學習過程，并逐步演化出制定計劃和完成復雜任務的能力。

回到V-JEPA模型本身，在它的架構中并不依賴于常見的圖像編碼器、文本和負樣本或其它監(jiān)督學習輸入，而是完全采用自監(jiān)督學習來預測特征目標。在訓練中，V-JEPA也沒有只是讓模型預測隨機遮蔽的少量像素，而是直接將輸入圖像的一大半都遮蔽掉，讓模型自行學習和預測遮蔽部分的圖像特征，提升模型的抽象概念理解能力。

在運作方式上，類似于Meta之前對大語言模型Llama進行開源的做法，Meta這次也提供了V-JEPA的代碼和配置文件下載渠道。

雖然目前V-JEPA生成的分辨率還達不到Sora或主流AI視頻模型的水平，但是考慮到Meta旗下Facebook、Instagram平臺上具備的海量視頻數據資源，預計Meta將會推動開源V-JEPA快速迭代，加快追趕Sora，回應市場對Meta的AI生成視頻應用的期待。

從之前開源Llama到Llama 2語言生成能力快速迭代的過程來看，我預計再過6個月左右，Meta迭代后的新版開源視頻生成模型，也將成為AI視頻模型市場的主流選擇之一。