GPT-4o又炸場了，國內大模型創(chuàng)業(yè)者需要追趕什么？

伍洋宇2024-05-16 16:29

鋪天蓋地的話題圍繞OpenAI的春季發(fā)布會展開，市場沒有等到GPT-5，但GPT-4o也足夠讓行業(yè)反復琢磨——ChatGPT進入“Her”時代，對國內大模型公司意味著什么？

OpenAI用幾個短小精悍的場景演示，讓用戶直觀了解到了GPT-4o的多模態(tài)理解能力、幾乎無延遲的反應能力，以及與人類相近的共情感受與表達能力，科幻電影《Her》中女性語音智能機器人的形象由此得到現(xiàn)實復刻。

ChatGPT成為“Her”，在技術上的震撼點主要來自于GPT-4o對多模態(tài)實時交互的反應速度有如此快的提升。例如，它對音頻輸入的響應時間最短可達232毫秒，平均為320毫秒，這與人類在對話中的響應時間非常相似。但在此之前，使用GPT-3.5和GPT-4的平均延遲分別為2.8秒和5.4秒。

OpenAI在官網對這個變化背后的原因進行了闡釋。此前，其音頻模型（Voice Mode）是一個近似三個獨立模型組成的管道：一個簡單模型將音頻轉錄為文本，GPT-3.5或GPT-4接收文本并輸出文本，第三個簡單模型再將文本轉換回音頻。

在這個過程中，模型智力的主要來源GPT-4（或GPT-3.5）會丟失大量信息：它不能直接觀察音調、多個說話者以及背景噪音，也不能輸出笑聲、歌聲或表達情感。

在GPT-4o上，OpenAI訓練了一個跨文本、視覺和音頻的端到端新模型，這意味著所有輸入和輸出都來自同一個神經網絡。這大概是這個多模態(tài)模型在理解與生成能力以及反應速度上都獲得明顯提升的核心原因。

事實上，不需要跨模態(tài)融合、由同一神經網絡完成訓練的原生多模態(tài)大模型，正是國內大模型創(chuàng)業(yè)公司正在試圖突破的方向。因為它能帶來所有GPT-4o目前展現(xiàn)出來的優(yōu)勢：低成本、高效率，這不僅是產品優(yōu)化的基礎，也是大規(guī)模商業(yè)化的前提。

但來自投資人視角的觀察結論是，即便只是音頻模型的端到端訓練，目前國內大模型創(chuàng)業(yè)公司也都還未走到這一步。

除了基于原生多模態(tài)的模型變化，促成GPT-4o反應如此之快的另一個重要因素在于模型尺寸。OpenAI并未公開表明過GPT-4o或是GPT-4 Turbo的參數大小，行業(yè)只是基于API調用價格以及傳聞（例如GPT-3.5 Turbo可能是一個20B大小的模型，而GPT-3.5為175B），按照比例關系來推測過這些新模型的尺寸。

在此前提下，GPT-4o大概率是一個比1.8T更小的尺寸模型，而這種在保證模型能力的情況下變小、變快，甚至在某些維度上變強的工程化能力，正是OpenAI難以被競爭者超越的“魔法”所在。

這也是國內大模型行業(yè)正在努力的方向之一。為了降低大模型的推理成本，行業(yè)理應壓縮模型，而從Scaling Law（規(guī)模法則）來看，這個目的只能通過“先變大、再變小”來實現(xiàn)，這樣才有可能兼顧速度和性能。

至于如何像GPT-4o一樣“在變小的同時變強”，這也是各家技術比拼的關鍵點。

據界面新聞記者了解，國內從事底層大模型研發(fā)的創(chuàng)業(yè)公司普遍都在關注這一技術方向，但各自的重視程度并不相同。例如，有的觀點會認為率先做出萬億參數大模型、達到GPT-4時刻更重要，有的則會認為在研發(fā)的途中兼顧應用的成本與性價比同樣重要。但無一例外的是，目前行業(yè)還沒有呈現(xiàn)出太好的解法。

產品層面，來自國內大模型獨角獸的產品中，Kimi（Kimi+）、萬知、躍問等等，雖然已經具備一定多模理解與生成的能力，但更多還是聚焦于AI搜索引擎、AI專業(yè)助手等輕量級agent，在語音實時交互層面仍然無法達到ChatGPT的能力水平。

并且，Minimax在最新發(fā)布的海螺AI中加入了“小海螺”角色，功能在于提供實時語音對話服務，定位直接對標ChatGPT在語音交互上的能力。但根據公司的官方演示視頻，“小海螺”無論在反應速度、表達方式，還是在音色、情感等擬人能力上，仍然有距離感明顯的“AI感”。

因此，GPT-4o帶給行業(yè)的技術質問其實是，在同等參數量級與性能水平下，能否做到跟它同樣快？如果速度也能趕上，那能否兼顧其對音頻、視覺和文本的多模態(tài)實時交互能力？

實際上，GPT-4o的降本能力體現(xiàn)到產品和商業(yè)化上，是擴大AI應用用戶規(guī)模的前提。

OpenAI對于ChatGPT免費開放的決策，已經在行業(yè)內被普遍認為是一個“正確路線”。前述投資人表示，“擴大用戶base，讓多模態(tài)大模型讓用戶更快、更簡單地先用起來，這個思路肯定是對的。”

獵豹移動董事長兼CEO傅盛在發(fā)布會結束后談論道，“OpenAI發(fā)布應用恰恰說明了應用在人工智能領域大有可為，每一個創(chuàng)業(yè)者都應該去好好地做人工智能應用?！?nbsp;

不過，反過來看，OpenAI發(fā)布GPT-4o而非GPT-5（或是GPT-4.5），還是給大模型技術遇冷的觀點留下生存空間。

傅盛表示，“如果不計成本的累參數，提高所謂的大模型能力，這條路肯定是容易遇到困難的，目前看起來GPT-5.0可能還要難產一段時間?！?/p>

金沙江創(chuàng)投主管合伙人朱嘯虎則對此發(fā)表了三個觀點：第一，大模型的技術迭代曲線明顯放緩；第二，開始卷免費，說明GPT的用戶和收入增長都已經碰到瓶頸，不是深度綁定大廠的模型公司基本已經出局；第三，應用會迅速爆發(fā)，推理成本再降一個數量級就會普及出現(xiàn)AI時代的國民應用。

暫且不論大模型創(chuàng)業(yè)公司生死存亡的問題，GPT-4o的出現(xiàn)的確留下了兩個矛盾信號：好消息是，關于OpenAI在GPT-5可能遇到的瓶頸，國內底層大模型加速追趕的窗口期或許到了；壞消息是，在應用層上，OpenAI目前所能打磨出來的用戶體驗，大概也需要國內創(chuàng)業(yè)者們花上好一陣時間來追趕。

此外，OpenAI給行業(yè)留下了一個謙虛的“挑釁”是，團隊指出，GPT-4o是其第一個完成這種端到端訓練的模型，因此團隊仍在探索其功能和局限性——這意味著未來歷經迭代的GPT-4o，能力極限或許遠不止于此。

轉載來源：界面新聞作者：伍洋宇

版權與免責：以上作品（包括文、圖、音視頻）版權歸發(fā)布者【伍洋宇】所有。本App為發(fā)布者提供信息發(fā)布平臺服務，不代表經觀的觀點和構成投資等建議