新V觀海外：Meta Llama-3攪動全球領(lǐng)先大模型發(fā)展格局

陳沛2024-05-08 07:57

陳沛/文 Meta最近發(fā)布了新版大語言模型Llama-3，業(yè)界認為這個開源模型已經(jīng)接近了目前領(lǐng)先的閉源模型的性能。

從我實際使用體驗來看，基于Llama-3的Meta AI產(chǎn)品在對話理解、推理、圖像生成等方面并沒有明顯的短板，生成體驗平滑，能夠滿足日常使用的需求。

特別是在最新的Chatbot Arena排行榜上，Llama-3首次進入了排行榜前10，排名第6。其它位列前10名的還包括GPT-4、Claude-3、Gemini-Pro等主流大模型，表明Llama-3的能力已經(jīng)邁入了第一梯隊。

Chatbot Arena排行榜的排名機制

Chatbot Arena是由斯坦福大學運營的一個大模型對戰(zhàn)平臺，包括超過40個主流大模型，目前已累計超過70萬用戶在平臺上投過票。

該平臺的運行方法是隨機、匿名選取兩個模型。用戶可以輸入任意提示詞，然后由這兩個模型同時輸出結(jié)果。用戶在不知道這兩個模型名稱的情況下，完全根據(jù)模型輸出質(zhì)量投票。

在用戶投票后，平臺會采用ELO機制（一種根據(jù)玩家實力計算勝負得分的游戲機制）分別計算兩個模型的得失分，并揭曉參與對戰(zhàn)的兩個模型的實際名稱。

隨著投票用戶越來越多，各個模型得分的高低便能客觀反應出模型的實際能力。因此這個排行榜一直以來都廣受關(guān)注。

排行榜前10名揭示全球大模型競爭格局

排行榜前10名大模型分別包括GPT-4模型、Claude-3模型的不同版本，總體上可以分為以下五大類別。

1.OpenAI的GPT-4系列。長期以來GPT-4都占據(jù)榜首，ChatGPT仍是最受關(guān)注的大模型產(chǎn)品，被認為有著廣泛的通用知識覆蓋和精細的語言理解能力。

2.Anthropic的Claude-3系列。Claude-3-Opus曾短暫超越GPT-4登上榜首，在實測中對于深度推理和專業(yè)知識的理解非常到位，且對于大模型安全有著深刻見解。

3.Google的Gemini系列。Gemini-Pro-1.5的表現(xiàn)已進入第一梯隊，而今年AI Index報告認為最高級的Gemini-Ultra的訓練成本約是GPT-4的2.5倍，實際表現(xiàn)值得期待，預計將會優(yōu)先接入Google各項產(chǎn)品中。

4.Meta的Llama-3系列。Meta目前堅定走開源路線，Llama系列每次更新都能推動整個生成式AI行業(yè)發(fā)展。而且背靠一批成熟多模態(tài)社交產(chǎn)品，預計Meta AI將快速迭代。隨后將發(fā)布的最大版本4000億參數(shù)Llama-3，也可能會沖擊榜首。

5.Cohere的Command-R系列。與上述模型不同，Cohere并未局限于面向用戶端的產(chǎn)品，而是專攻企業(yè)側(cè)的應用場景，在企業(yè)級解決方案和特定行業(yè)應用中的實際表現(xiàn)可能更好。

總體上來看，雖然目前的OpenAI、Anthropic、Google可被視作“閉源派”，而Meta和Cohere則屬于“開源派”，但它們彼此之間實際上是各自為營，各有所長，各有側(cè)重。

在領(lǐng)先大模型的第一梯隊中，全球生成式AI“五分天下”的格局已經(jīng)初步形成。