夸克發(fā)布自研大模型背后:被阿里寄予厚望,已具備提供服務(wù)能力

白楊2023-11-24 11:13

11月14日,阿里巴巴智能信息事業(yè)群旗下夸克團(tuán)隊(duì)對(duì)外發(fā)布了基于Transformer架構(gòu)自主研發(fā)的千億參數(shù)級(jí)夸克大模型。

據(jù)夸克團(tuán)隊(duì)當(dāng)時(shí)介紹,夸克大模型是一個(gè)通用大模型。但這也讓業(yè)內(nèi)產(chǎn)生疑問(wèn),阿里云此前已經(jīng)發(fā)布了通義千問(wèn)大模型,并且包括天貓、釘釘?shù)仍趦?nèi)的諸多阿里系業(yè)務(wù)均表示會(huì)接入,夸克為何另辟蹊徑?

但很快,在11月17日的財(cái)報(bào)電話會(huì)議中,阿里巴巴集團(tuán)CEO吳泳銘就給出了答案。吳泳銘表示,阿里巴巴面向未來(lái)將有三個(gè)重要優(yōu)先級(jí)方向,分別是技術(shù)驅(qū)動(dòng)的互聯(lián)網(wǎng)平臺(tái)業(yè)務(wù)、AI驅(qū)動(dòng)的科技業(yè)務(wù)和全球化的商業(yè)網(wǎng)絡(luò)。

在此背景下,阿里也將持續(xù)投入、孵化面向未來(lái)的戰(zhàn)略級(jí)創(chuàng)新業(yè)務(wù)。吳泳銘解釋稱,戰(zhàn)略級(jí)創(chuàng)新業(yè)務(wù)要具備足夠巨大的市場(chǎng)空間,具備獨(dú)特的市場(chǎng)定位,符合用戶需求趨勢(shì)和集團(tuán)“AI驅(qū)動(dòng)”戰(zhàn)略。以此為標(biāo)準(zhǔn),阿里也確認(rèn)了第一批戰(zhàn)略級(jí)創(chuàng)新業(yè)務(wù)——1688、閑魚、釘釘、夸克。

談及夸克,吳泳銘說(shuō)道,因?yàn)锳I時(shí)代的到來(lái),夸克獲得前所未有的想象力?!懊總€(gè)人和企業(yè)都將具備個(gè)性化的智能助理,大模型時(shí)代,面向年輕人,夸克有巨大機(jī)會(huì)創(chuàng)造出革新性搜索產(chǎn)品。”

而且這些戰(zhàn)略級(jí)創(chuàng)新業(yè)務(wù),在組織上將作為獨(dú)立子公司運(yùn)營(yíng),業(yè)務(wù)上也將打破以往在阿里集團(tuán)內(nèi)的定位限制。所以,夸克打造自己的通用大模型,也變得不難解釋,尤其是基于搜索業(yè)務(wù),夸克很早就開始了大模型研究,也具備了開發(fā)大模型的天然優(yōu)勢(shì)。

11月22日,夸克技術(shù)負(fù)責(zé)人蔣冠軍在接受21世紀(jì)經(jīng)濟(jì)報(bào)道等媒體采訪時(shí)指出,簡(jiǎn)單來(lái)說(shuō),夸克是一個(gè)集合搜、用、存于一體的智能信息產(chǎn)品,所以夸克大模型的目標(biāo),也是對(duì)搜、用、存進(jìn)行智能化升級(jí)。

面向C端場(chǎng)景

夸克App于2018年推出。蔣冠軍稱,最初做夸克的時(shí)候,就想把它做成一個(gè)用戶在工作及生活中的智能助手,所以那時(shí)也嘗試了很多智能技術(shù)。

比如2019年左右,夸克曾在產(chǎn)品中上線一個(gè)對(duì)話式應(yīng)用,叫“夸克寶寶”。該產(chǎn)品的形態(tài)和現(xiàn)在的對(duì)話機(jī)器人類似,但是由于當(dāng)時(shí)的智能技術(shù)和水平有限,產(chǎn)品也沒有做起來(lái)。

但對(duì)于AI技術(shù)的探索,夸克始終沒有停。去年,ChatGPT的發(fā)布,讓圍繞自然語(yǔ)言方向做了多年技術(shù)工作的蔣冠軍十分震撼,并認(rèn)為這是一種“代際的差異”。

不過(guò)后來(lái)他發(fā)現(xiàn),這種差異并沒有那么大。“為什么ChatGPT發(fā)布后,國(guó)內(nèi)有很多廠商都在很短時(shí)間內(nèi)就發(fā)布了中文大模型,是因?yàn)榇蠹抑霸谌斯ぶ悄茴I(lǐng)域都做了很多工作,只不過(guò)沒有用OpenAI這樣的思路去做,所以O(shè)penAI給整個(gè)行業(yè)指出了一個(gè)方向?!笔Y冠軍表示。

也是從那時(shí),夸克就開始了大模型開發(fā)。蔣冠軍坦言,在很早的時(shí)候,夸克大模型的能力水平就足以比肩市面上的一些產(chǎn)品,之所以遲遲沒有發(fā)布,原因在于夸克大模型的定位是面向C端打造智能助手,所以更希望在產(chǎn)品側(cè)有具體的應(yīng)用和體驗(yàn)后再發(fā)布,而現(xiàn)在,夸克已經(jīng)具備在部分場(chǎng)景里提供服務(wù)的能力,并有產(chǎn)品準(zhǔn)備上線了。

醫(yī)療內(nèi)容的幻覺率降至5%

與其他大模型產(chǎn)品相比,蔣冠軍認(rèn)為,夸克大模型的研發(fā)過(guò)程,核心是發(fā)揮了夸克在搜索引擎和數(shù)據(jù)上的優(yōu)勢(shì),而這是其他非搜索引擎廠商不具備的。

據(jù)其介紹,夸克搜索數(shù)據(jù)庫(kù)的網(wǎng)頁(yè)總量是千億級(jí)別,在這千億級(jí)別的網(wǎng)頁(yè)里,夸克篩選出幾億個(gè)質(zhì)量特別高的網(wǎng)頁(yè)做訓(xùn)練。“如果不是做搜索引擎的廠商,要完成這項(xiàng)任務(wù),代價(jià)將非常高。”

另外,蔣冠軍指出,基于搜索技術(shù)能力的積累,也讓夸克大模型在解決模型幻覺問(wèn)題時(shí)更有優(yōu)勢(shì)?!八阉饕嬖谔幚泶笠?guī)模的網(wǎng)頁(yè)數(shù)據(jù)時(shí),本身就需要一套工程體系,去做對(duì)齊、去重、分析等工作,這些能力與大模型所需的能力非常匹配?!?/p>

數(shù)據(jù)顯示,夸克大模型在科普問(wèn)答方面的純模型幻覺率是25%,這遠(yuǎn)低于行業(yè)水平。在通用知識(shí)方面,夸克大模型的錯(cuò)誤率為15%以下,而在醫(yī)療健康領(lǐng)域,夸克大模型的錯(cuò)誤率可以降到5%以下。

此外,在如何持續(xù)提升模型準(zhǔn)確性方面,蔣冠軍也分享了夸克采用的幾個(gè)有效手段,具體包括模型預(yù)訓(xùn)練、人類對(duì)齊、增加模型參數(shù)規(guī)模、知識(shí)增強(qiáng)等。

其中關(guān)于“人類對(duì)齊”,蔣冠軍表示,夸克做大模型過(guò)程可以分為兩個(gè)階段,第一個(gè)階段做了一個(gè)版本,但效果不是很好,所以第二階段立刻組建了專業(yè)團(tuán)隊(duì),在搜索、教育、醫(yī)療等垂直領(lǐng)域中進(jìn)行大模型的預(yù)訓(xùn)練與精調(diào)。

所以,蔣冠軍也做出判斷,“我相信半年到一年內(nèi),其他大模型公司也會(huì)去找各行各業(yè)有從業(yè)經(jīng)驗(yàn)的人,來(lái)給他們提供和生產(chǎn)數(shù)據(jù)?!?/p>

來(lái)源:21世紀(jì)經(jīng)濟(jì)報(bào)道 作者:白楊

版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【白楊】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù),不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議

熱新聞