新V觀海外:Claude 3實(shí)際產(chǎn)品體驗(yàn)差強(qiáng)人意

陳沛2024-03-15 12:34

陳沛/文 OpenAI競爭對手Anthropic近期發(fā)布了新款大模型Claude 3系列,其中包括三款子模型Haiku、Sonnet和Opus。根據(jù)Anthropic發(fā)布的測試結(jié)果,Claude 3中性能最優(yōu)的Opus模型在多項(xiàng)基準(zhǔn)測試中的得分都超過了OpenAI的GPT-4,次優(yōu)的Sonnet模型的得分也基本可與GPT-4相媲美。

盡管AI業(yè)界近年來有所弱化基準(zhǔn)測試得分的重要性,越來越強(qiáng)調(diào)大模型的產(chǎn)品能力和用戶實(shí)際體驗(yàn)才是關(guān)鍵衡量標(biāo)準(zhǔn)。但是能在多項(xiàng)測試中全面超過長期占據(jù)頭名的GPT-4,表明Claude 3或是一個(gè)值得嘗試的大模型服務(wù)。

我已經(jīng)使用了Claude 3,目前Sonnet模型可免費(fèi)限量使用,Opus模型則需支付每月20美元的訂閱費(fèi)用。根據(jù)我的對話體驗(yàn),Claude長期以來反復(fù)強(qiáng)調(diào)的在長文本輸入和內(nèi)容安全性等方面的優(yōu)勢,在實(shí)際產(chǎn)品使用中并不突出。

例如我輸入了一篇長新聞內(nèi)容,讓Claude 3總結(jié)其中的主要結(jié)論和關(guān)鍵數(shù)字,Claude 3輸出的主要結(jié)論尚可,但找出的關(guān)鍵數(shù)字卻完全是憑空捏造的。

Claude 3的長文本輸入能力還受限于文檔處理能力。Claude 3目前支持單次上傳5個(gè)文檔,每個(gè)文檔10Mb以內(nèi)。與現(xiàn)在主流AI大模型產(chǎn)品相比,這種處理能力并不突出。就算我上傳了一個(gè)只有4Mb的研究論文進(jìn)行測試,Claude 3也提示內(nèi)容過長無法處理。而同樣的研究論文,我已在其它AI大模型產(chǎn)品中成功做過測試。

在產(chǎn)品體驗(yàn)方面,Claude 3目前還處于測試階段,對話數(shù)量限制也在調(diào)整之中。由于沒有類似“每3小時(shí)發(fā)送50條”的明確限制,導(dǎo)致有時(shí)先發(fā)送一條輸入,Claude 3會(huì)提示“超出限制”報(bào)錯(cuò)信息,但重復(fù)試幾次就又可以輸出了。

Claude 3官網(wǎng)還重點(diǎn)宣傳了它的圖片輸入理解能力,提供了Claude 3讀取圖片中手寫文稿的示例。但我使用官網(wǎng)截圖進(jìn)行輸入,Claude 3能理解圖片的數(shù)量、主題信息和位置關(guān)系,但在手寫文稿截圖不清的情況下,卻給出了完全捏造的手寫文稿識別結(jié)果。

最后,Claude 3已明確表示不支持搜索互聯(lián)網(wǎng)的內(nèi)容。這種選擇雖然會(huì)讓它在推理時(shí)的輸出相對更快一些,但與其它主流AI大模型產(chǎn)品相比,這個(gè)短板或許會(huì)導(dǎo)致Claude 3難以讓個(gè)人用戶做出長期付費(fèi)訂閱的決定。

實(shí)際使用后,總體上可以感覺到Claude 3或許是一個(gè)優(yōu)秀的研究成果,但與優(yōu)秀的用戶產(chǎn)品相比,還有距離。

熱新聞