新V觀海外：谷歌多模態(tài)AI助理Astra仍在持續(xù)進(jìn)化

陳沛2024-07-18 09:41

陳沛/文 谷歌DeepMind曾在五月I/O大會(huì)上重點(diǎn)展示了新的多模態(tài)AI助理項(xiàng)目Project Astra，用戶可在手機(jī)上打開Astra觀察現(xiàn)場環(huán)境并進(jìn)行問答，展示了多模態(tài)AI助理在實(shí)時(shí)視覺識(shí)別和低延遲語音交互方面的能力。

不過，由于OpenAI正好搶在前一天展示了GPT-4o的實(shí)時(shí)交互效果，很大程度上搶走了本屬于谷歌Astra的關(guān)注熱度。盡管如此，谷歌在I/O大會(huì)之后繼續(xù)發(fā)布Astra的最新展示效果，Astra的多模態(tài)理解能力仍在持續(xù)進(jìn)化。

理解現(xiàn)實(shí)物理世界的復(fù)雜信息

在近期的一項(xiàng)展示中，研究者在手機(jī)上打開Astra環(huán)視辦公室環(huán)境，要求Astra在看到能發(fā)出聲音的物體時(shí)進(jìn)行指出。

Astra隨即在用戶走到辦公桌附近時(shí)，成功指出了桌上放的音箱，并能根據(jù)用戶進(jìn)一步指向位置，對(duì)應(yīng)解釋音箱上的高頻揚(yáng)聲器的功能。

隨著研究者在辦公室中繼續(xù)移動(dòng)，Astra還能接連看懂程序員電腦屏幕上的加密算法代碼、根據(jù)桌上的彩色筆進(jìn)行造句、識(shí)別窗外的著名建筑——國王十字車站——并推理出當(dāng)前位置處于英國倫敦。

以上一系列過程展示了Astra對(duì)于現(xiàn)實(shí)世界的深度理解能力。它至少已經(jīng)能夠橫跨物理、編程、文學(xué)、地理等多個(gè)維度，與研究者在現(xiàn)實(shí)世界中進(jìn)行實(shí)時(shí)交流。

發(fā)展出了短期記憶能力

在展示過Astra以上綜合理解能力后，研究者突然來了個(gè)“回馬槍”，向Astra提問剛才在辦公室中走動(dòng)時(shí)，是否還記得眼鏡放在哪里？

Astra簡單停頓片刻，就立即回答出眼鏡放在剛才走過窗邊的桌上。

雖然研究者沒有專門展示Astra的記憶周期有多長，但很明顯它至少具備了短期記憶能力。在它看過的環(huán)境中，就算當(dāng)時(shí)出現(xiàn)時(shí)沒有被問到的物體，在后續(xù)被追問時(shí)依然能檢索視覺記憶信息并回答出來。

已與眼鏡實(shí)現(xiàn)無縫集成

研究者找到眼鏡戴上后，展示了另一段Astra搭載在眼鏡上的交流效果。這也是很多人對(duì)多模態(tài)AI助理的期待，將多模態(tài)AI助理搭載在眼鏡上直接觀察世界。

在眼鏡上的展示過程中，Astra的深度理解和實(shí)時(shí)交流能力沒有任何打折。它依然能夠理解IT系統(tǒng)草圖并給出優(yōu)化建議，看懂黑板上兩只貓簡筆畫加上實(shí)物紙盒組合出了“薛定諤的貓”的含義，并能結(jié)合寵物品種和玩偶外觀起一個(gè)適當(dāng)?shù)拿帧?/p>

這表明，為Astra提供理解能力的基礎(chǔ)模型已經(jīng)在可穿戴設(shè)備端實(shí)現(xiàn)了適配，甚至是在眼鏡這種計(jì)算、內(nèi)存、能耗遠(yuǎn)低于智能手機(jī)的設(shè)備環(huán)境中，也能運(yùn)行起來。

總體來看，Astra的實(shí)時(shí)視覺理解和交互能力已經(jīng)非常突出，特別是集成到眼鏡上的展示效果更令人印象深刻。

但是也要看到，盡管在眼鏡上集成多模態(tài)AI助理值得期待，但是語音交互的應(yīng)用場景很有限，在現(xiàn)實(shí)中還要面臨噪聲、續(xù)航、光照環(huán)境、佩戴舒適性等諸多限制因素，因此Astra未來的產(chǎn)品化過程還會(huì)經(jīng)歷很多取舍，實(shí)際產(chǎn)品前景仍需謹(jǐn)慎觀察。

熱新聞

視頻推薦

總編對(duì)話｜從中國走向世界——對(duì)話松下電器中國東北亞公司總裁CEO木下步

聚焦主業(yè) 提升品牌：恒安集團(tuán)接班人的長期主義理想

希捷科技全球執(zhí)行副總裁暨首席商務(wù)官鄭萬成：未來五年，中國將成為全球生成數(shù)據(jù)最多的市場

電子刊物

點(diǎn)擊進(jìn)入

用戶名登錄/手機(jī)號(hào)登錄 還沒有賬號(hào)？免費(fèi)注冊(cè)

新V觀海外：谷歌多模態(tài)AI助理Astra仍在持續(xù)進(jìn)化

熱新聞

視頻推薦

電子刊物

用戶名登錄/手機(jī)號(hào)登錄

還沒有賬號(hào)？免費(fèi)注冊(cè)