新V觀海外:谷歌多模態(tài)AI助理Astra仍在持續(xù)進(jìn)化

陳沛2024-07-18 09:41

陳沛/文 谷歌DeepMind曾在五月I/O大會(huì)上重點(diǎn)展示了新的多模態(tài)AI助理項(xiàng)目Project Astra,用戶可在手機(jī)上打開Astra觀察現(xiàn)場環(huán)境并進(jìn)行問答,展示了多模態(tài)AI助理在實(shí)時(shí)視覺識(shí)別和低延遲語音交互方面的能力。

不過,由于OpenAI正好搶在前一天展示了GPT-4o的實(shí)時(shí)交互效果,很大程度上搶走了本屬于谷歌Astra的關(guān)注熱度。盡管如此,谷歌在I/O大會(huì)之后繼續(xù)發(fā)布Astra的最新展示效果,Astra的多模態(tài)理解能力仍在持續(xù)進(jìn)化。

理解現(xiàn)實(shí)物理世界的復(fù)雜信息

在近期的一項(xiàng)展示中,研究者在手機(jī)上打開Astra環(huán)視辦公室環(huán)境,要求Astra在看到能發(fā)出聲音的物體時(shí)進(jìn)行指出。

Astra隨即在用戶走到辦公桌附近時(shí),成功指出了桌上放的音箱,并能根據(jù)用戶進(jìn)一步指向位置,對(duì)應(yīng)解釋音箱上的高頻揚(yáng)聲器的功能。

隨著研究者在辦公室中繼續(xù)移動(dòng),Astra還能接連看懂程序員電腦屏幕上的加密算法代碼、根據(jù)桌上的彩色筆進(jìn)行造句、識(shí)別窗外的著名建筑——國王十字車站——并推理出當(dāng)前位置處于英國倫敦。

以上一系列過程展示了Astra對(duì)于現(xiàn)實(shí)世界的深度理解能力。它至少已經(jīng)能夠橫跨物理、編程、文學(xué)、地理等多個(gè)維度,與研究者在現(xiàn)實(shí)世界中進(jìn)行實(shí)時(shí)交流。

發(fā)展出了短期記憶能力

在展示過Astra以上綜合理解能力后,研究者突然來了個(gè)“回馬槍”,向Astra提問剛才在辦公室中走動(dòng)時(shí),是否還記得眼鏡放在哪里?

Astra簡單停頓片刻,就立即回答出眼鏡放在剛才走過窗邊的桌上。

雖然研究者沒有專門展示Astra的記憶周期有多長,但很明顯它至少具備了短期記憶能力。在它看過的環(huán)境中,就算當(dāng)時(shí)出現(xiàn)時(shí)沒有被問到的物體,在后續(xù)被追問時(shí)依然能檢索視覺記憶信息并回答出來。

已與眼鏡實(shí)現(xiàn)無縫集成

研究者找到眼鏡戴上后,展示了另一段Astra搭載在眼鏡上的交流效果。這也是很多人對(duì)多模態(tài)AI助理的期待,將多模態(tài)AI助理搭載在眼鏡上直接觀察世界。

在眼鏡上的展示過程中,Astra的深度理解和實(shí)時(shí)交流能力沒有任何打折。它依然能夠理解IT系統(tǒng)草圖并給出優(yōu)化建議,看懂黑板上兩只貓簡筆畫加上實(shí)物紙盒組合出了“薛定諤的貓”的含義,并能結(jié)合寵物品種和玩偶外觀起一個(gè)適當(dāng)?shù)拿帧?/p>

這表明,為Astra提供理解能力的基礎(chǔ)模型已經(jīng)在可穿戴設(shè)備端實(shí)現(xiàn)了適配,甚至是在眼鏡這種計(jì)算、內(nèi)存、能耗遠(yuǎn)低于智能手機(jī)的設(shè)備環(huán)境中,也能運(yùn)行起來。

總體來看,Astra的實(shí)時(shí)視覺理解和交互能力已經(jīng)非常突出,特別是集成到眼鏡上的展示效果更令人印象深刻。

但是也要看到,盡管在眼鏡上集成多模態(tài)AI助理值得期待,但是語音交互的應(yīng)用場景很有限,在現(xiàn)實(shí)中還要面臨噪聲、續(xù)航、光照環(huán)境、佩戴舒適性等諸多限制因素,因此Astra未來的產(chǎn)品化過程還會(huì)經(jīng)歷很多取舍,實(shí)際產(chǎn)品前景仍需謹(jǐn)慎觀察。

熱新聞