拆解谷歌Gemini ：能力可與GPT-4“掰手腕” 目前可免費使用

錢玉娟2023-12-07 21:54

經(jīng)濟觀察網(wǎng) 記者錢玉娟

12月6日深夜，在沒有任何預告下，Google（谷歌）推出了“迄今為止，功能最強大、最通用的人工智能大語言模型”Gemini（雙子星）。

谷歌官方表示，Gemini經(jīng)過了當前LLM（大型語言模型）領域中廣泛使用的32個基準測試，在其中大部分基準測試中，表現(xiàn)出了“最先進的性能”，不僅擊敗了OpenAI的GPT-4，甚至在MMLU（大規(guī)模多任務語言理解）基準測試中，成為第一個超越人類專家的模型。

“這是人工智能模型的巨大飛躍，最終將影響幾乎所有的Google產(chǎn)品。”谷歌CEO Sundar Pichai（桑達爾·皮查伊）與DeepMind CEO Demis Hassabis（德米斯·哈薩比斯）聯(lián)名表示。

多模態(tài)、多語言、免費

谷歌最早對外公布這一被命名為“Gemini”的模型開發(fā)計劃是在今年5月舉行的I/O（Innovation in the Open，開放中創(chuàng)新）開發(fā)者大會上。

彼時皮查伊表示，正在訓練中的Gemini表現(xiàn)出了此前所有模型未曾具備的多模態(tài)能力，并且這一模型將有不同尺寸和功能應用場景的設計。

實際上，Gemini是由Google DeepMind開發(fā)出的原生多模態(tài)模型，該項目需溯源至今年4月20日。那天，谷歌選擇將Google Brain與DeepMind合并，成立了Google DeepMind，并宣布將公司在AI領域的世界級人才、計算能力及基礎設施等資源加以結(jié)合，創(chuàng)新研發(fā)大模型以對標OpenAI的GPT-4。

今年6月以來，哈薩比斯也不止一次對外提及Gemini系統(tǒng)的強大，例如“將比ChatGPT背后的系統(tǒng)更強大”“正在開發(fā)Gemini系統(tǒng)來迎接下一個時代”“Gemini是Google的下一代多模態(tài)大模型”等。

當然，讓外界對Gemini關注度持續(xù)升高、好奇心拉滿，還有一個細節(jié)。今年7月，辭職已有四年的谷歌聯(lián)合創(chuàng)始人Sergey Brin（謝爾蓋·布林）重返谷歌，有消息稱其回歸便是要協(xié)助開發(fā)Gemini系統(tǒng)。

一位在國內(nèi)專注AI大模型方向的算法工程師對記者表示，在7月時他就預感“Gemini將會是下半年大模型賽道的焦點。”

Gemini共有Ultra、Pro和Nano三個版本，分別適用于不同場景，其中Ultra版可用于大型數(shù)據(jù)中心等，屬于處理高復雜度任務的模型；Pro版則用于各種擴展任務，屬于日常使用模型，且已搭載于谷歌的對話機器人Bard中；Nano版則是應用于智能手機等移動設備終端上的模型。

在谷歌給出的長達60頁的Gemini技術報告中，上述算法工程師認為其中值得關注的是，Gemini模型的訓練數(shù)據(jù)集既多模態(tài)又多語言。其中，前期訓練數(shù)據(jù)集使用來自網(wǎng)絡文檔、書籍和代碼的數(shù)據(jù)，包括圖像、音頻和視頻數(shù)據(jù)等。

“Google拿自家海量云存儲的圖片進行了預訓練，確實把模型的多模態(tài)能力拉升了一大截。”這位算法工程師還看到，谷歌在Gemini技術報告中如此寫到，“當模型多模態(tài)能力被真正探索出來時，會提供更多細節(jié)。”

12月7日上午，上述算法工程師體驗了實際搭載Gemini Pro的Bard，并就多模態(tài)能力方面，對Gemini與GPT-4進行了對比測試。

通過識別不同圖片中的人物、地點、文字、動物甚至其中可能蘊含的科學知識，綜合對比，他發(fā)現(xiàn)，Gemini Pro的多模態(tài)能力確實足以抗衡GPT-4，前者的響應速度也“快很多”，另外，前者可以免費使用，但后者已經(jīng)有了“3小時40次的限制”。

能力可與GPT-4“掰手腕”

將Gemini的技術報告看完后，國內(nèi)一位曾在谷歌工作過的AI企業(yè)創(chuàng)始人對記者稱，最令其驚訝的是光報告的作者就多達9頁，“每頁90人，八百余人，超過OpenAI公司的總?cè)藬?shù)。”

需要提及的是，OpenAI員工總數(shù)目前不足800人，這也不難看出谷歌在Gemini模型開發(fā)與技術創(chuàng)新方面投入的AI人才之多。

“我對Gemini的期盼，是它可以和GPT-4去‘掰手腕’。”這位算法工程師實際使用對比后的感受是，Gemini達到了上述目的，但這是否表明其已經(jīng)對GPT-4形成了“全面超越”？

他肯定了Gemini的多模態(tài)能力，但他繼而指出，Gemini在中文識別理解能力上，相較GPT-4略遜一籌。這也進一步印證了科技媒體The Information早前報道中所指出的“Gemini仍無法可靠處理‘非英語’的任務。”

據(jù)悉，在文本分析上，Gemini是通過大模型思維鏈（Chain of Thought）技術原理提升效果，在上述算法工程師看來，若實際比拼，“Gemini比不過GPT-4”，畢竟谷歌專門針對測試相關領域進行了優(yōu)化，Gemini只在上述領域中的指標表現(xiàn)好，并不能夠說明模型真正的泛化能力強，“至于真正能力，需要在更多的數(shù)據(jù)集上進行測評。”

談及Gemini的強大之處，一AI企業(yè)的基礎科研負責人向經(jīng)濟觀察網(wǎng)記者分析，“在于首次驗證了原生多模態(tài)訓練的范式是能走通的。”在他看來，原生多模態(tài)訓練范式的上限極高，且容易擴展到視頻格式，“我們很看好這條技術路線。”

上述AI企業(yè)基礎科研負責人認為，谷歌產(chǎn)品線積累的海量高質(zhì)量多模態(tài)數(shù)據(jù)，能夠為后續(xù)Gemini的迭代提供有力支持。

事實上，Gemini的技術報告中也有這樣一段表述，“谷歌發(fā)現(xiàn)數(shù)據(jù)質(zhì)量對于高性能模型至關重要，并認為在尋找預訓練的最佳數(shù)據(jù)集分布方面，仍有許多有趣的問題。”

為拓展多模態(tài)模型的訓練數(shù)據(jù)集，谷歌還對外表示，Bard將在超過 170 個國家和地區(qū)提供 Gemini Pro 版本服務，并計劃未來擴展到不同的模態(tài)，支持更多語言和地區(qū)。不僅明年初將推出升級的Bard Advanced版本，在接下來的幾個月里，谷歌還將陸續(xù)把Gemini應用于搜索、廣告、Chrome等更多的產(chǎn)品和服務中。