豆包模型tokens使用量猛增10倍,云服務(wù)行業(yè)迎來變革

2024-09-30 09:30

下午5點(diǎn),臨近飯點(diǎn)的時(shí)刻,字節(jié)跳動(dòng)旗下火山引擎在深圳舉辦的AI創(chuàng)新巡展上依舊人氣爆棚,論壇內(nèi)擠滿了站著的觀眾,線上評論區(qū)的人時(shí)不時(shí)發(fā)出驚呼聲。火山引擎旗下的豆包大模型一口氣放了3個(gè)大招:推出2款視頻模型PixelDance、Seaweed,一款音樂模型,一款同聲傳譯模型,把其他公司可以展示很多次的技術(shù),在一場發(fā)布會上釋放的淋漓盡致。

這也是豆包模型家族的首次集體亮相。截至9月,豆包語言模型的日均tokens使用量超過1.3萬億,相比5月首次發(fā)布時(shí)猛增十倍,多模態(tài)數(shù)據(jù)處理量也分別達(dá)到每天5000萬張圖片和85萬小時(shí)語音。據(jù)QuestMobile數(shù)據(jù),截至7月,豆包月活用戶規(guī)模達(dá)到3042萬,是國內(nèi)用戶量最大的AI原生應(yīng)用。

此次豆包視頻及其他模型的亮相,意味著火山引擎AI服務(wù)能力進(jìn)一步提升。“在我們努力下,大模型的應(yīng)用成本已經(jīng)得到很好解決。大模型要從卷價(jià)格走向卷性能,卷更好的模型能力和服務(wù)?!?火山引擎總裁譚待表示。

模型家族集體亮相

今年5月豆包首次提出模型家族概念后,不斷有人問,什么時(shí)候能看到豆包文生視頻模型的發(fā)布。很多人認(rèn)為,抖音和剪映對視頻有長期理解和積累,豆包一定能在視頻生成領(lǐng)域做的非常好。

9月24日亮相的豆包視頻模型沒有令人失望。在譚待的演示中,輸入“特寫?個(gè)??的面部,有些??,戴上了?副墨鏡;這時(shí)?個(gè)男?從畫?右側(cè)?進(jìn)來抱住了她?!岸拱纳曨l模型立刻生成了接近電影畫質(zhì)的畫面,以及完整的情節(jié)。這句指令的難點(diǎn)在于,它講了一個(gè)人情緒的變化、動(dòng)作前后時(shí)間的變化,而且還會出現(xiàn)一個(gè)新的人物。這種復(fù)雜指令,在此前的文生視頻模型中很難實(shí)現(xiàn),但豆包做到了非常驚艷的效果。

?包視頻模型還可以讓視頻在主體的?動(dòng)態(tài)與鏡頭中進(jìn)行炫酷和平滑切換,擁有變焦、環(huán)繞、平搖、縮放、?標(biāo)跟隨等多鏡頭語?的實(shí)現(xiàn),靈活控制視?,這種能力讓視頻更像真實(shí)世界的體驗(yàn),而不是PPT版視頻。

發(fā)布會當(dāng)天,豆包同時(shí)發(fā)布了同時(shí)發(fā)布了音樂模型和同聲傳譯模型。與同類產(chǎn)品相比,豆包模型的特色是真實(shí)。音樂模型中,用戶只需通過簡單的描述或上傳一張圖片,就能輕松生成一首包含旋律、歌詞和演唱的1分鐘高品質(zhì)音樂作品。得益于強(qiáng)大的豆包語音能力,歌曲的歌唱的方面非常真實(shí),包括對氣口,還有真假音轉(zhuǎn)化技巧的模擬,可以媲美真人演唱效果。

豆包的同聲傳譯模型采用了全新的端到端模型架構(gòu),可以讓翻譯更加精準(zhǔn)、質(zhì)量更高、時(shí)延更低。同時(shí)疊加豆包語音克隆的能力,可以媲美真人的同傳效果。

目前豆包模型家族已經(jīng)在字節(jié)跳動(dòng)內(nèi)部50多個(gè)業(yè)務(wù),外部30多個(gè)行業(yè)得到廣泛應(yīng)用。豆包視頻生成模型也已經(jīng)面向企業(yè)市場開啟邀測。譚待表示,“視頻生成有很多難關(guān)亟待突破。豆包兩款模型會持續(xù)演進(jìn),在解決關(guān)鍵問題上探索更多可能性,加速拓展AI視頻的創(chuàng)作空間和應(yīng)用落地?!?/p>

大模型為云服務(wù)帶來變革

今年5月,火山引擎在國內(nèi)第一個(gè)把模型成本做到每千token低于一厘錢,其他廠商也跟隨豆包的步伐,不斷把模型進(jìn)行降價(jià)。9月,豆包視頻模型突破了三個(gè)業(yè)內(nèi)難題,讓文生視頻畫面質(zhì)量和效果更加真實(shí)。作為國內(nèi)成立時(shí)間較晚的云廠商,火山引擎在大模型時(shí)代總是引領(lǐng)先機(jī)。

業(yè)內(nèi)人士認(rèn)為,大模型的興起,會讓云廠商面臨重新洗牌?;鹕揭嬲蔀锳I時(shí)代云服務(wù)的一股重要力量。

火山引擎率先降價(jià)后,大模型行業(yè)進(jìn)入新的發(fā)展階段。9月份,豆包大模型的日均tokens調(diào)用量達(dá)到每天13000億次,和5月相比漲了10倍。這說明,當(dāng)選價(jià)格不再是模型的瓶頸。譚待認(rèn)為,接下來大模型行業(yè)要做的,是在這個(gè)價(jià)格基礎(chǔ)上,提高質(zhì)量和性能。豆包的最終目的是讓應(yīng)用的生態(tài)更加繁榮,解鎖更多應(yīng)用場景。

除引領(lǐng)大模型降價(jià)外,火山引擎還提出全新性能標(biāo)準(zhǔn),發(fā)起智能終端、汽車、零售大模型聯(lián)盟,推動(dòng)行業(yè)AI應(yīng)用創(chuàng)新。目前豆包模型家族已經(jīng)在幫助客戶提效方面做出突出成績。比如一家AI角色社區(qū)和平臺,與豆包模型合作后人均對話人次提升150% - 350%,千萬量級的TPM綜合線上成功請求率高達(dá)99.95%。還有一家AI客服公司,用豆包模型做AI客服訓(xùn)練平臺全渠道智能知識庫,初始支持的RPM提升2000多倍,高并發(fā)狀態(tài)下保障業(yè)務(wù)穩(wěn)定性。

譚待認(rèn)為,火山引擎所服務(wù)企業(yè)的核心需求是降本增效,在AI時(shí)代,這需要自下而上的創(chuàng)新。在這個(gè)認(rèn)知基礎(chǔ)上,火山引擎除了做好豆包模型,還做扣子平臺和HiAgent開發(fā)平臺。他的最終目標(biāo)是實(shí)現(xiàn)火山引擎的使命,成為全球領(lǐng)先的云和AI服務(wù)商,幫助企業(yè)降本增效加速創(chuàng)新,這個(gè)使命4年未變,未來10年也不會變。

文/劉暢

版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【字節(jié)跳動(dòng)】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù),不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議