GPT-4o又炸場了,國內大模型創(chuàng)業(yè)者需要追趕什么?

伍洋宇2024-05-16 16:29

鋪天蓋地的話題圍繞OpenAI的春季發(fā)布會展開,市場沒有等到GPT-5,但GPT-4o也足夠讓行業(yè)反復琢磨——ChatGPT進入“Her”時代,對國內大模型公司意味著什么? 

OpenAI用幾個短小精悍的場景演示,讓用戶直觀了解到了GPT-4o的多模態(tài)理解能力、幾乎無延遲的反應能力,以及與人類相近的共情感受與表達能力,科幻電影《Her》中女性語音智能機器人的形象由此得到現(xiàn)實復刻。

ChatGPT成為“Her”,在技術上的震撼點主要來自于GPT-4o對多模態(tài)實時交互的反應速度有如此快的提升。例如,它對音頻輸入的響應時間最短可達232毫秒,平均為320毫秒,這與人類在對話中的響應時間非常相似。但在此之前,使用GPT-3.5和GPT-4的平均延遲分別為2.8秒和5.4秒。

OpenAI在官網對這個變化背后的原因進行了闡釋。此前,其音頻模型(Voice Mode)是一個近似三個獨立模型組成的管道:一個簡單模型將音頻轉錄為文本,GPT-3.5或GPT-4接收文本并輸出文本,第三個簡單模型再將文本轉換回音頻。

在這個過程中,模型智力的主要來源GPT-4(或GPT-3.5)會丟失大量信息:它不能直接觀察音調、多個說話者以及背景噪音,也不能輸出笑聲、歌聲或表達情感。

在GPT-4o上,OpenAI訓練了一個跨文本、視覺和音頻的端到端新模型,這意味著所有輸入和輸出都來自同一個神經網絡。這大概是這個多模態(tài)模型在理解與生成能力以及反應速度上都獲得明顯提升的核心原因。 

事實上,不需要跨模態(tài)融合、由同一神經網絡完成訓練的原生多模態(tài)大模型,正是國內大模型創(chuàng)業(yè)公司正在試圖突破的方向。因為它能帶來所有GPT-4o目前展現(xiàn)出來的優(yōu)勢:低成本、高效率,這不僅是產品優(yōu)化的基礎,也是大規(guī)模商業(yè)化的前提。

但來自投資人視角的觀察結論是,即便只是音頻模型的端到端訓練,目前國內大模型創(chuàng)業(yè)公司也都還未走到這一步。

除了基于原生多模態(tài)的模型變化,促成GPT-4o反應如此之快的另一個重要因素在于模型尺寸。OpenAI并未公開表明過GPT-4o或是GPT-4 Turbo的參數大小,行業(yè)只是基于API調用價格以及傳聞(例如GPT-3.5 Turbo可能是一個20B大小的模型,而GPT-3.5為175B),按照比例關系來推測過這些新模型的尺寸。

在此前提下,GPT-4o大概率是一個比1.8T更小的尺寸模型,而這種在保證模型能力的情況下變小、變快,甚至在某些維度上變強的工程化能力,正是OpenAI難以被競爭者超越的“魔法”所在。 

這也是國內大模型行業(yè)正在努力的方向之一。為了降低大模型的推理成本,行業(yè)理應壓縮模型,而從Scaling Law(規(guī)模法則)來看,這個目的只能通過“先變大、再變小”來實現(xiàn),這樣才有可能兼顧速度和性能。

至于如何像GPT-4o一樣“在變小的同時變強”,這也是各家技術比拼的關鍵點。

據界面新聞記者了解,國內從事底層大模型研發(fā)的創(chuàng)業(yè)公司普遍都在關注這一技術方向,但各自的重視程度并不相同。例如,有的觀點會認為率先做出萬億參數大模型、達到GPT-4時刻更重要,有的則會認為在研發(fā)的途中兼顧應用的成本與性價比同樣重要。但無一例外的是,目前行業(yè)還沒有呈現(xiàn)出太好的解法。 

產品層面,來自國內大模型獨角獸的產品中,Kimi(Kimi+)、萬知、躍問等等,雖然已經具備一定多模理解與生成的能力,但更多還是聚焦于AI搜索引擎、AI專業(yè)助手等輕量級agent,在語音實時交互層面仍然無法達到ChatGPT的能力水平。

并且,Minimax在最新發(fā)布的海螺AI中加入了“小海螺”角色,功能在于提供實時語音對話服務,定位直接對標ChatGPT在語音交互上的能力。但根據公司的官方演示視頻,“小海螺”無論在反應速度、表達方式,還是在音色、情感等擬人能力上,仍然有距離感明顯的“AI感”。

因此,GPT-4o帶給行業(yè)的技術質問其實是,在同等參數量級與性能水平下,能否做到跟它同樣快?如果速度也能趕上,那能否兼顧其對音頻、視覺和文本的多模態(tài)實時交互能力?

實際上,GPT-4o的降本能力體現(xiàn)到產品和商業(yè)化上,是擴大AI應用用戶規(guī)模的前提。

OpenAI對于ChatGPT免費開放的決策,已經在行業(yè)內被普遍認為是一個“正確路線”。前述投資人表示,“擴大用戶base,讓多模態(tài)大模型讓用戶更快、更簡單地先用起來,這個思路肯定是對的。”

獵豹移動董事長兼CEO傅盛在發(fā)布會結束后談論道,“OpenAI發(fā)布應用恰恰說明了應用在人工智能領域大有可為,每一個創(chuàng)業(yè)者都應該去好好地做人工智能應用?!?nbsp;

不過,反過來看,OpenAI發(fā)布GPT-4o而非GPT-5(或是GPT-4.5),還是給大模型技術遇冷的觀點留下生存空間。

傅盛表示,“如果不計成本的累參數,提高所謂的大模型能力,這條路肯定是容易遇到困難的,目前看起來GPT-5.0可能還要難產一段時間?!?/p>

金沙江創(chuàng)投主管合伙人朱嘯虎則對此發(fā)表了三個觀點:第一,大模型的技術迭代曲線明顯放緩;第二,開始卷免費,說明GPT的用戶和收入增長都已經碰到瓶頸,不是深度綁定大廠的模型公司基本已經出局;第三,應用會迅速爆發(fā),推理成本再降一個數量級就會普及出現(xiàn)AI時代的國民應用。 

暫且不論大模型創(chuàng)業(yè)公司生死存亡的問題,GPT-4o的出現(xiàn)的確留下了兩個矛盾信號:好消息是,關于OpenAI在GPT-5可能遇到的瓶頸,國內底層大模型加速追趕的窗口期或許到了;壞消息是,在應用層上,OpenAI目前所能打磨出來的用戶體驗,大概也需要國內創(chuàng)業(yè)者們花上好一陣時間來追趕。 

此外,OpenAI給行業(yè)留下了一個謙虛的“挑釁”是,團隊指出,GPT-4o是其第一個完成這種端到端訓練的模型,因此團隊仍在探索其功能和局限性——這意味著未來歷經迭代的GPT-4o,能力極限或許遠不止于此。

轉載來源:界面新聞 作者:伍洋宇

版權與免責:以上作品(包括文、圖、音視頻)版權歸發(fā)布者【伍洋宇】所有。本App為發(fā)布者提供信息發(fā)布平臺服務,不代表經觀的觀點和構成投資等建議

熱新聞

電子刊物

點擊進入