性能超GPT-4！谷歌放出最強(qiáng)悍大模型Gemini，反擊OpenAI穩(wěn)了嗎？

李京亞2023-12-07 10:31

OpenAI空前崛起之際，谷歌毅然打響了絕地反擊戰(zhàn)。

北京時(shí)間12月7日凌晨，谷歌CEO桑達(dá)爾?皮查伊和Deepmind CEO戴密斯·哈薩比斯在谷歌官網(wǎng)聯(lián)名發(fā)文，官宣了最新多模態(tài)大模型Gemini 1.0（雙子星）版本正式上線。這個(gè)上線時(shí)間早于外界猜測(cè)的明年1月，保密程度很高，僅有少數(shù)媒體提前猜出。

Gemini 1.0是谷歌籌備了一年之久的GPT4真正競(jìng)品，也是目前谷歌能拿出手的功能最為強(qiáng)悍、適配最為靈活的大模型，包括三種不同套件，分別是Gemini Ultra, Gemini Pro和Gemini Nano。其中Ultra的能力最強(qiáng)，復(fù)雜度最高，能夠處理最為困難的多模態(tài)任務(wù)；Pro能力稍弱，是一個(gè)可擴(kuò)展至多任務(wù)的模型；Nano則是一款可以在手機(jī)端側(cè)運(yùn)行的模型。這說(shuō)明，Gemini的觸達(dá)范圍很廣，可以下探至數(shù)據(jù)中心，也可以上行至移動(dòng)設(shè)備端側(cè)。

谷歌的Bard聊天機(jī)器人，此番也已經(jīng)升級(jí)到了Gemini，可以說(shuō)Gemini的初始版本已于今日開始在Bard中提供。從5月的I/O大會(huì)之后，谷歌就將自己此前最強(qiáng)的人工智能模型PaLm 2融入了Gemini的能力之中。

在一段公布的演示視頻中，桑達(dá)爾?皮查伊展示了Gemini對(duì)視頻、圖像的非同凡響的識(shí)別能力。在視頻中，Gemini極為自如地在圖像、音頻、視頻各模態(tài)之間的轉(zhuǎn)換，展現(xiàn)了驚人的解鎖應(yīng)用場(chǎng)景與產(chǎn)品形態(tài)的潛力。

僅從谷歌釋出的演示視頻結(jié)果看，市面上現(xiàn)有的全部多模態(tài)大模型與Gemini的性能表現(xiàn)都有代際差，包括Meta 5月開源的跨6個(gè)模態(tài)的AI模型ImageBind以及GPT-4。

今年4月開始，隨著多模態(tài)技術(shù)不斷升級(jí)，以及疊加模型調(diào)用成本等性能的優(yōu)化，GPT4及國(guó)內(nèi)外一眾模型持續(xù)迭代，實(shí)現(xiàn)了跨模態(tài)性能的不斷增強(qiáng)。一時(shí)間，多模態(tài)大模型呈百花齊放之勢(shì)。但有國(guó)內(nèi)頭部大模型初創(chuàng)開發(fā)工程師對(duì)界面新聞?dòng)浾弑硎?，現(xiàn)今絕大部分多模態(tài)大模型都是在大語(yǔ)言模型LLM之上生長(zhǎng)出多模態(tài)的應(yīng)用，而并非從頭開始訓(xùn)練的多模態(tài)的大模型，這是多模態(tài)大模型目前“不能言說(shuō)的秘密”。

谷歌自己也提到，到目前為止，創(chuàng)建多模態(tài)模型的標(biāo)準(zhǔn)方法基本是針對(duì)不同模態(tài)訓(xùn)練單獨(dú)的組件，然后將它們拼接以粗略模仿其中一些功能。這會(huì)導(dǎo)致這些模型有時(shí)擅長(zhǎng)執(zhí)行某些任務(wù)，例如描述圖像，但難以處理更概念性和復(fù)雜的推理。

其通過(guò)60頁(yè)的相關(guān)技術(shù)報(bào)告證明，Gemini是一個(gè)真正原生的多模態(tài)大模型，因?yàn)閺淖畛醯念A(yù)訓(xùn)練數(shù)據(jù)開始，Gemini就在針對(duì)不同模態(tài)的模型進(jìn)行訓(xùn)練，因此其功能在每個(gè)重大領(lǐng)域都達(dá)到了SOTA（State of the art，特指領(lǐng)先水平的大模型）。

在權(quán)威MMMU基準(zhǔn)測(cè)試中，Gemini Ultra獲得了59.4%的SOTA分?jǐn)?shù)。這項(xiàng)基準(zhǔn)測(cè)試是經(jīng)典的多模態(tài)測(cè)試，由跨不同領(lǐng)域的多模式任務(wù)組成，能夠體現(xiàn)大模型的深度推理能力，而推理過(guò)程本身，需要花費(fèi)的成本要遠(yuǎn)遠(yuǎn)高于模型訓(xùn)練。谷歌技術(shù)報(bào)告同時(shí)顯示，谷歌是使用TPUv5e和TPUv4來(lái)訓(xùn)練Gemini，尤其是訓(xùn)練Gemini Ultra時(shí)，使用了跨多個(gè)數(shù)據(jù)中心的大量TPUv4。

多模態(tài)能力之外，Gemini在專業(yè)知識(shí)儲(chǔ)備和高級(jí)編碼等領(lǐng)域都處在最前列。比如，Gemini Ultra在MMLU（大規(guī)模多任務(wù)語(yǔ)言理解數(shù)據(jù)集）中的得分率高達(dá)90.0%，這款MMLU數(shù)據(jù)集包含數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理等57個(gè)科目，專門用于測(cè)試大模型的知識(shí)儲(chǔ)備和解決問(wèn)題能力。Gemini Ultra是第一個(gè)在MMLU上超越人類專家的大模型。

值得一提的是，谷歌此番并沒有透露Ultra和Pro版本的具體參數(shù)規(guī)模，但根據(jù)量子位的分析，Gemini與谷歌此前的主力大模型PaLM-2相比，參數(shù)規(guī)模上要增大許多。此前，PaLM-2被曝參數(shù)規(guī)模為3400億。

谷歌方面表示，Gemini將通過(guò)谷歌產(chǎn)品推向數(shù)十億用戶。從12月13日開始，開發(fā)者和企業(yè)客戶可以通過(guò)Google AI Studio或Google Cloud Vertex AI中的Gemini API訪問(wèn)Gemini Pro。

今天凌晨，谷歌還同步發(fā)布了最新版本的計(jì)算芯片TPU v5p，相較上一代TPU v4性價(jià)比提升2.3倍，但這則消息完全被Gemini的光芒所掩蓋。

來(lái)源：界面新聞作者：李京亞

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【李京亞】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議

新浪微博騰訊微博微信朋友網(wǎng)人人網(wǎng)

熱新聞

視頻推薦

總編對(duì)話｜從中國(guó)走向世界——對(duì)話松下電器中國(guó)東北亞公司總裁CEO木下步

聚焦主業(yè) 提升品牌：恒安集團(tuán)接班人的長(zhǎng)期主義理想

希捷科技全球執(zhí)行副總裁暨首席商務(wù)官鄭萬(wàn)成：未來(lái)五年，中國(guó)將成為全球生成數(shù)據(jù)最多的市場(chǎng)

電子刊物

點(diǎn)擊進(jìn)入

用戶名登錄/手機(jī)號(hào)登錄 還沒有賬號(hào)？免費(fèi)注冊(cè)

性能超GPT-4！谷歌放出最強(qiáng)悍大模型Gemini，反擊OpenAI穩(wěn)了嗎？

熱新聞

視頻推薦

電子刊物

用戶名登錄/手機(jī)號(hào)登錄

還沒有賬號(hào)？免費(fèi)注冊(cè)

性能超GPT-4！谷歌放出最強(qiáng)悍大模型Gemini，反擊OpenAI穩(wěn)了嗎？