夸克發(fā)布自研大模型背后：被阿里寄予厚望，已具備提供服務(wù)能力

白楊2023-11-24 11:13

11月14日，阿里巴巴智能信息事業(yè)群旗下夸克團(tuán)隊(duì)對(duì)外發(fā)布了基于Transformer架構(gòu)自主研發(fā)的千億參數(shù)級(jí)夸克大模型。

據(jù)夸克團(tuán)隊(duì)當(dāng)時(shí)介紹，夸克大模型是一個(gè)通用大模型。但這也讓業(yè)內(nèi)產(chǎn)生疑問(wèn)，阿里云此前已經(jīng)發(fā)布了通義千問(wèn)大模型，并且包括天貓、釘釘?shù)仍趦?nèi)的諸多阿里系業(yè)務(wù)均表示會(huì)接入，夸克為何另辟蹊徑？

但很快，在11月17日的財(cái)報(bào)電話會(huì)議中，阿里巴巴集團(tuán)CEO吳泳銘就給出了答案。吳泳銘表示，阿里巴巴面向未來(lái)將有三個(gè)重要優(yōu)先級(jí)方向，分別是技術(shù)驅(qū)動(dòng)的互聯(lián)網(wǎng)平臺(tái)業(yè)務(wù)、AI驅(qū)動(dòng)的科技業(yè)務(wù)和全球化的商業(yè)網(wǎng)絡(luò)。

在此背景下，阿里也將持續(xù)投入、孵化面向未來(lái)的戰(zhàn)略級(jí)創(chuàng)新業(yè)務(wù)。吳泳銘解釋稱，戰(zhàn)略級(jí)創(chuàng)新業(yè)務(wù)要具備足夠巨大的市場(chǎng)空間，具備獨(dú)特的市場(chǎng)定位，符合用戶需求趨勢(shì)和集團(tuán)“AI驅(qū)動(dòng)”戰(zhàn)略。以此為標(biāo)準(zhǔn)，阿里也確認(rèn)了第一批戰(zhàn)略級(jí)創(chuàng)新業(yè)務(wù)——1688、閑魚、釘釘、夸克。

談及夸克，吳泳銘說(shuō)道，因?yàn)锳I時(shí)代的到來(lái)，夸克獲得前所未有的想象力?！懊總€(gè)人和企業(yè)都將具備個(gè)性化的智能助理，大模型時(shí)代，面向年輕人，夸克有巨大機(jī)會(huì)創(chuàng)造出革新性搜索產(chǎn)品。”

而且這些戰(zhàn)略級(jí)創(chuàng)新業(yè)務(wù)，在組織上將作為獨(dú)立子公司運(yùn)營(yíng)，業(yè)務(wù)上也將打破以往在阿里集團(tuán)內(nèi)的定位限制。所以，夸克打造自己的通用大模型，也變得不難解釋，尤其是基于搜索業(yè)務(wù)，夸克很早就開始了大模型研究，也具備了開發(fā)大模型的天然優(yōu)勢(shì)。

11月22日，夸克技術(shù)負(fù)責(zé)人蔣冠軍在接受21世紀(jì)經(jīng)濟(jì)報(bào)道等媒體采訪時(shí)指出，簡(jiǎn)單來(lái)說(shuō)，夸克是一個(gè)集合搜、用、存于一體的智能信息產(chǎn)品，所以夸克大模型的目標(biāo)，也是對(duì)搜、用、存進(jìn)行智能化升級(jí)。

面向C端場(chǎng)景

夸克App于2018年推出。蔣冠軍稱，最初做夸克的時(shí)候，就想把它做成一個(gè)用戶在工作及生活中的智能助手，所以那時(shí)也嘗試了很多智能技術(shù)。

比如2019年左右，夸克曾在產(chǎn)品中上線一個(gè)對(duì)話式應(yīng)用，叫“夸克寶寶”。該產(chǎn)品的形態(tài)和現(xiàn)在的對(duì)話機(jī)器人類似，但是由于當(dāng)時(shí)的智能技術(shù)和水平有限，產(chǎn)品也沒有做起來(lái)。

但對(duì)于AI技術(shù)的探索，夸克始終沒有停。去年，ChatGPT的發(fā)布，讓圍繞自然語(yǔ)言方向做了多年技術(shù)工作的蔣冠軍十分震撼，并認(rèn)為這是一種“代際的差異”。

不過(guò)后來(lái)他發(fā)現(xiàn)，這種差異并沒有那么大。“為什么ChatGPT發(fā)布后，國(guó)內(nèi)有很多廠商都在很短時(shí)間內(nèi)就發(fā)布了中文大模型，是因?yàn)榇蠹抑霸谌斯ぶ悄茴I(lǐng)域都做了很多工作，只不過(guò)沒有用OpenAI這樣的思路去做，所以O(shè)penAI給整個(gè)行業(yè)指出了一個(gè)方向?！笔Y冠軍表示。

也是從那時(shí)，夸克就開始了大模型開發(fā)。蔣冠軍坦言，在很早的時(shí)候，夸克大模型的能力水平就足以比肩市面上的一些產(chǎn)品，之所以遲遲沒有發(fā)布，原因在于夸克大模型的定位是面向C端打造智能助手，所以更希望在產(chǎn)品側(cè)有具體的應(yīng)用和體驗(yàn)后再發(fā)布，而現(xiàn)在，夸克已經(jīng)具備在部分場(chǎng)景里提供服務(wù)的能力，并有產(chǎn)品準(zhǔn)備上線了。

醫(yī)療內(nèi)容的幻覺率降至5%

與其他大模型產(chǎn)品相比，蔣冠軍認(rèn)為，夸克大模型的研發(fā)過(guò)程，核心是發(fā)揮了夸克在搜索引擎和數(shù)據(jù)上的優(yōu)勢(shì)，而這是其他非搜索引擎廠商不具備的。

據(jù)其介紹，夸克搜索數(shù)據(jù)庫(kù)的網(wǎng)頁(yè)總量是千億級(jí)別，在這千億級(jí)別的網(wǎng)頁(yè)里，夸克篩選出幾億個(gè)質(zhì)量特別高的網(wǎng)頁(yè)做訓(xùn)練。“如果不是做搜索引擎的廠商，要完成這項(xiàng)任務(wù)，代價(jià)將非常高。”

另外，蔣冠軍指出，基于搜索技術(shù)能力的積累，也讓夸克大模型在解決模型幻覺問(wèn)題時(shí)更有優(yōu)勢(shì)?！八阉饕嬖谔幚泶笠?guī)模的網(wǎng)頁(yè)數(shù)據(jù)時(shí)，本身就需要一套工程體系，去做對(duì)齊、去重、分析等工作，這些能力與大模型所需的能力非常匹配?！?/p>

數(shù)據(jù)顯示，夸克大模型在科普問(wèn)答方面的純模型幻覺率是25%，這遠(yuǎn)低于行業(yè)水平。在通用知識(shí)方面，夸克大模型的錯(cuò)誤率為15%以下，而在醫(yī)療健康領(lǐng)域，夸克大模型的錯(cuò)誤率可以降到5%以下。

此外，在如何持續(xù)提升模型準(zhǔn)確性方面，蔣冠軍也分享了夸克采用的幾個(gè)有效手段，具體包括模型預(yù)訓(xùn)練、人類對(duì)齊、增加模型參數(shù)規(guī)模、知識(shí)增強(qiáng)等。

其中關(guān)于“人類對(duì)齊”，蔣冠軍表示，夸克做大模型過(guò)程可以分為兩個(gè)階段，第一個(gè)階段做了一個(gè)版本，但效果不是很好，所以第二階段立刻組建了專業(yè)團(tuán)隊(duì)，在搜索、教育、醫(yī)療等垂直領(lǐng)域中進(jìn)行大模型的預(yù)訓(xùn)練與精調(diào)。

所以，蔣冠軍也做出判斷，“我相信半年到一年內(nèi)，其他大模型公司也會(huì)去找各行各業(yè)有從業(yè)經(jīng)驗(yàn)的人，來(lái)給他們提供和生產(chǎn)數(shù)據(jù)?！?/p>

來(lái)源：21世紀(jì)經(jīng)濟(jì)報(bào)道作者：白楊

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【白楊】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議