新V觀海外：Claude 3實(shí)際產(chǎn)品體驗(yàn)差強(qiáng)人意

陳沛2024-03-15 12:34

陳沛/文 OpenAI競爭對手Anthropic近期發(fā)布了新款大模型Claude 3系列，其中包括三款子模型Haiku、Sonnet和Opus。根據(jù)Anthropic發(fā)布的測試結(jié)果，Claude 3中性能最優(yōu)的Opus模型在多項(xiàng)基準(zhǔn)測試中的得分都超過了OpenAI的GPT-4，次優(yōu)的Sonnet模型的得分也基本可與GPT-4相媲美。

盡管AI業(yè)界近年來有所弱化基準(zhǔn)測試得分的重要性，越來越強(qiáng)調(diào)大模型的產(chǎn)品能力和用戶實(shí)際體驗(yàn)才是關(guān)鍵衡量標(biāo)準(zhǔn)。但是能在多項(xiàng)測試中全面超過長期占據(jù)頭名的GPT-4，表明Claude 3或是一個(gè)值得嘗試的大模型服務(wù)。

我已經(jīng)使用了Claude 3，目前Sonnet模型可免費(fèi)限量使用，Opus模型則需支付每月20美元的訂閱費(fèi)用。根據(jù)我的對話體驗(yàn)，Claude長期以來反復(fù)強(qiáng)調(diào)的在長文本輸入和內(nèi)容安全性等方面的優(yōu)勢，在實(shí)際產(chǎn)品使用中并不突出。

例如我輸入了一篇長新聞內(nèi)容，讓Claude 3總結(jié)其中的主要結(jié)論和關(guān)鍵數(shù)字，Claude 3輸出的主要結(jié)論尚可，但找出的關(guān)鍵數(shù)字卻完全是憑空捏造的。

Claude 3的長文本輸入能力還受限于文檔處理能力。Claude 3目前支持單次上傳5個(gè)文檔，每個(gè)文檔10Mb以內(nèi)。與現(xiàn)在主流AI大模型產(chǎn)品相比，這種處理能力并不突出。就算我上傳了一個(gè)只有4Mb的研究論文進(jìn)行測試，Claude 3也提示內(nèi)容過長無法處理。而同樣的研究論文，我已在其它AI大模型產(chǎn)品中成功做過測試。

在產(chǎn)品體驗(yàn)方面，Claude 3目前還處于測試階段，對話數(shù)量限制也在調(diào)整之中。由于沒有類似“每3小時(shí)發(fā)送50條”的明確限制，導(dǎo)致有時(shí)先發(fā)送一條輸入，Claude 3會(huì)提示“超出限制”報(bào)錯(cuò)信息，但重復(fù)試幾次就又可以輸出了。

Claude 3官網(wǎng)還重點(diǎn)宣傳了它的圖片輸入理解能力，提供了Claude 3讀取圖片中手寫文稿的示例。但我使用官網(wǎng)截圖進(jìn)行輸入，Claude 3能理解圖片的數(shù)量、主題信息和位置關(guān)系，但在手寫文稿截圖不清的情況下，卻給出了完全捏造的手寫文稿識別結(jié)果。

最后，Claude 3已明確表示不支持搜索互聯(lián)網(wǎng)的內(nèi)容。這種選擇雖然會(huì)讓它在推理時(shí)的輸出相對更快一些，但與其它主流AI大模型產(chǎn)品相比，這個(gè)短板或許會(huì)導(dǎo)致Claude 3難以讓個(gè)人用戶做出長期付費(fèi)訂閱的決定。

實(shí)際使用后，總體上可以感覺到Claude 3或許是一個(gè)優(yōu)秀的研究成果，但與優(yōu)秀的用戶產(chǎn)品相比，還有距離。

熱新聞

視頻推薦

總編對話｜從中國走向世界——對話松下電器中國東北亞公司總裁CEO木下步

聚焦主業(yè) 提升品牌：恒安集團(tuán)接班人的長期主義理想

希捷科技全球執(zhí)行副總裁暨首席商務(wù)官鄭萬成：未來五年，中國將成為全球生成數(shù)據(jù)最多的市場

電子刊物

點(diǎn)擊進(jìn)入

用戶名登錄/手機(jī)號登錄 還沒有賬號？免費(fèi)注冊

新V觀海外：Claude 3實(shí)際產(chǎn)品體驗(yàn)差強(qiáng)人意

熱新聞

視頻推薦

電子刊物

用戶名登錄/手機(jī)號登錄

還沒有賬號？免費(fèi)注冊