拆解谷歌Gemini :能力可與GPT-4“掰手腕” 目前可免費使用

錢玉娟2023-12-07 21:54

經(jīng)濟觀察網(wǎng) 記者 錢玉娟

12月6日深夜,在沒有任何預告下,Google(谷歌)推出了“迄今為止,功能最強大、最通用的人工智能大語言模型”Gemini(雙子星)。

谷歌官方表示,Gemini經(jīng)過了當前LLM(大型語言模型)領域中廣泛使用的32個基準測試,在其中大部分基準測試中,表現(xiàn)出了“最先進的性能”,不僅擊敗了OpenAI的GPT-4,甚至在MMLU(大規(guī)模多任務語言理解)基準測試中,成為第一個超越人類專家的模型。

“這是人工智能模型的巨大飛躍,最終將影響幾乎所有的Google產(chǎn)品。”谷歌CEO Sundar Pichai(桑達爾·皮查伊)與DeepMind CEO Demis Hassabis(德米斯·哈薩比斯)聯(lián)名表示。

多模態(tài)、多語言、免費

谷歌最早對外公布這一被命名為“Gemini”的模型開發(fā)計劃是在今年5月舉行的I/O(Innovation in the Open,開放中創(chuàng)新)開發(fā)者大會上。

彼時皮查伊表示,正在訓練中的Gemini表現(xiàn)出了此前所有模型未曾具備的多模態(tài)能力,并且這一模型將有不同尺寸和功能應用場景的設計。

實際上,Gemini是由Google DeepMind開發(fā)出的原生多模態(tài)模型,該項目需溯源至今年4月20日。那天,谷歌選擇將Google Brain與DeepMind合并,成立了Google DeepMind,并宣布將公司在AI領域的世界級人才、計算能力及基礎設施等資源加以結(jié)合,創(chuàng)新研發(fā)大模型以對標OpenAI的GPT-4。

今年6月以來,哈薩比斯也不止一次對外提及Gemini系統(tǒng)的強大,例如“將比ChatGPT背后的系統(tǒng)更強大”“正在開發(fā)Gemini系統(tǒng)來迎接下一個時代”“Gemini是Google的下一代多模態(tài)大模型”等。

當然,讓外界對Gemini關注度持續(xù)升高、好奇心拉滿,還有一個細節(jié)。今年7月,辭職已有四年的谷歌聯(lián)合創(chuàng)始人Sergey Brin(謝爾蓋·布林)重返谷歌,有消息稱其回歸便是要協(xié)助開發(fā)Gemini系統(tǒng)。

一位在國內(nèi)專注AI大模型方向的算法工程師對記者表示,在7月時他就預感“Gemini將會是下半年大模型賽道的焦點。”

Gemini共有Ultra、Pro和Nano三個版本,分別適用于不同場景,其中Ultra版可用于大型數(shù)據(jù)中心等,屬于處理高復雜度任務的模型;Pro版則用于各種擴展任務,屬于日常使用模型,且已搭載于谷歌的對話機器人Bard中;Nano版則是應用于智能手機等移動設備終端上的模型。

在谷歌給出的長達60頁的Gemini技術報告中,上述算法工程師認為其中值得關注的是,Gemini模型的訓練數(shù)據(jù)集既多模態(tài)又多語言。其中,前期訓練數(shù)據(jù)集使用來自網(wǎng)絡文檔、書籍和代碼的數(shù)據(jù),包括圖像、音頻和視頻數(shù)據(jù)等。

“Google拿自家海量云存儲的圖片進行了預訓練,確實把模型的多模態(tài)能力拉升了一大截。”這位算法工程師還看到,谷歌在Gemini技術報告中如此寫到,“當模型多模態(tài)能力被真正探索出來時,會提供更多細節(jié)。”

12月7日上午,上述算法工程師體驗了實際搭載Gemini Pro的Bard,并就多模態(tài)能力方面,對Gemini與GPT-4進行了對比測試。

通過識別不同圖片中的人物、地點、文字、動物甚至其中可能蘊含的科學知識,綜合對比,他發(fā)現(xiàn),Gemini Pro的多模態(tài)能力確實足以抗衡GPT-4,前者的響應速度也“快很多”,另外,前者可以免費使用,但后者已經(jīng)有了“3小時40次的限制”。

能力可與GPT-4掰手腕

將Gemini的技術報告看完后,國內(nèi)一位曾在谷歌工作過的AI企業(yè)創(chuàng)始人對記者稱,最令其驚訝的是光報告的作者就多達9頁,“每頁90人,八百余人,超過OpenAI公司的總?cè)藬?shù)。”

需要提及的是,OpenAI員工總數(shù)目前不足800人,這也不難看出谷歌在Gemini模型開發(fā)與技術創(chuàng)新方面投入的AI人才之多。

“我對Gemini的期盼,是它可以和GPT-4去‘掰手腕’。”這位算法工程師實際使用對比后的感受是,Gemini達到了上述目的,但這是否表明其已經(jīng)對GPT-4形成了“全面超越”?

他肯定了Gemini的多模態(tài)能力,但他繼而指出,Gemini在中文識別理解能力上,相較GPT-4略遜一籌。這也進一步印證了科技媒體The Information早前報道中所指出的“Gemini仍無法可靠處理‘非英語’的任務。”

據(jù)悉,在文本分析上,Gemini是通過大模型思維鏈(Chain of Thought)技術原理提升效果,在上述算法工程師看來,若實際比拼,“Gemini比不過GPT-4”,畢竟谷歌專門針對測試相關領域進行了優(yōu)化,Gemini只在上述領域中的指標表現(xiàn)好,并不能夠說明模型真正的泛化能力強,“至于真正能力,需要在更多的數(shù)據(jù)集上進行測評。”

談及Gemini的強大之處,一AI企業(yè)的基礎科研負責人向經(jīng)濟觀察網(wǎng)記者分析,“在于首次驗證了原生多模態(tài)訓練的范式是能走通的。”在他看來,原生多模態(tài)訓練范式的上限極高,且容易擴展到視頻格式,“我們很看好這條技術路線。”

上述AI企業(yè)基礎科研負責人認為,谷歌產(chǎn)品線積累的海量高質(zhì)量多模態(tài)數(shù)據(jù),能夠為后續(xù)Gemini的迭代提供有力支持。

事實上,Gemini的技術報告中也有這樣一段表述,“谷歌發(fā)現(xiàn)數(shù)據(jù)質(zhì)量對于高性能模型至關重要,并認為在尋找預訓練的最佳數(shù)據(jù)集分布方面,仍有許多有趣的問題。”

為拓展多模態(tài)模型的訓練數(shù)據(jù)集,谷歌還對外表示,Bard將在超過 170 個國家和地區(qū)提供 Gemini Pro 版本服務,并計劃未來擴展到不同的模態(tài),支持更多語言和地區(qū)。不僅明年初將推出升級的Bard  Advanced版本,在接下來的幾個月里,谷歌還將陸續(xù)把Gemini應用于搜索、廣告、Chrome等更多的產(chǎn)品和服務中。

版權聲明:以上內(nèi)容為《經(jīng)濟觀察報》社原創(chuàng)作品,版權歸《經(jīng)濟觀察報》社所有。未經(jīng)《經(jīng)濟觀察報》社授權,嚴禁轉(zhuǎn)載或鏡像,否則將依法追究相關行為主體的法律責任。版權合作請致電:【010-60910566-1260】。
TMT新聞部記者
長期關注并報道TMT領域的重大事件,時刻保持新聞敏感,發(fā)現(xiàn)前沿趨勢。擅長企業(yè)模式、人物專訪及行業(yè)深度報道。
重要新聞線索可聯(lián)系qianyujuan@eeo.com.cn
微信號:EstherQ138279